多模态 AI 怎么玩？这里有 18 个脑洞

RTE开发者社区

2 月 13 日四川

阅读 5 分钟

0

在 RTE 开发者社区，我们会和大家一起探索全球最前沿的 Real-Time AI 技术，和最有想法的新兴场景。

Google 近期举办了一场名为「MultiModal Hackathon」的限时编程活动，聚焦于 多模态与 Gemini 2.0 的最新能力。活动汇聚了 200 多位开发者，共同探索多模态 AI、实时 AI、生成式视频的前沿应用。

联合组织方 AgentOps AI 的 CEO Alex Reibman 在 X 上分享了活动的 demo 视频片段，并介绍了每一个项目。

其中，既有 Z 世代才想出来的 多模态应用 ，例如梗图翻译器、动漫角色生成器、动动嘴剪出 GIF 图等；也有充分利用对 视觉理解能力 的产品，例如服装购物 AI 助手、AI 物理治疗师等；也有利用 实时对话和视频 能力的作品，譬如通过语调、肢体评测性格的 agent、技术面试官和编程助手等。

一起来欣赏限时创作氛围下，粗糙但是鲜活的创意吧！其中一些说不定会变成未来生活的一部分。

活动网页可查看项目 slide 和 GitHub 仓库：
https://app.agihouse.org/events/google-20250118

1.动作到视频：Gesture-to-video 丨第一名

通过结合 Gemini 视频理解和 Veo2 技术，识别视频中的动作，并将这些动作转换成动漫风格的视频内容。

开发者：aliceheiman
https://x.com/aliceheimanxyz

2. 视频生成对比：Firefly vs Veo2

比较 Adobe Firefly 与 Veo2 对相同提示的输出，与此同时，可能会产生一些有趣的结果。

3.技术面试官：Tech Interview 丨 Windsurf 赛道第三名

结合 Gemini 打造类似 LeetCode 风格的技术面试官和编程助理。

开发者：Rohan Katakam
https://x.com/rohan_katakam

4.梗图翻译：Meme Lingo

使用 Gemini 多模态视觉，将外语表情包翻译成英语（或选择的任何语言）。Meme Machine Learning!

开发者：Xiaohan Yang
https://x.com/Azura_xh

5.性格评估：Personality Assessment 丨 AgentOps 赛道获奖作品

能够基于用户的语调和肢体语言来评估其性格特征。

6.推特机器人：Twitter Bot

这是一个从零开始构建，通过 Gemini 2 控制浏览器在推特上发布内容的推特机器人。

开发者：Matt
https://x.com/m13v_

7.Computer Use 智能体：Computer Use Agent

这是一个通过 Gemini Flash 控制并且安全开源的 Computer Use 智能体。

开发者：James Murdza
https://x.com/jamesmurdza

8.购衣助手：AI Outfit Suggestion

这是一个名为「AI Outfit Suggestion」的 AI 购物助手，它利用人工智能技术提供个性化的服装建议。用户可以简要描述自己和自己的风格，该助手会返回类似的购物商品的亚马逊链接。

9.视频专辑生成：WanderLoom丨第二名

利用多模态视觉、位置、活动和时间信息，智能生成旅行和生活视频短片。

开发者：Vikram Subbiah、The Why Man (Anand Vallamsetla)
https://x.com/tiovikram
https://x.com/thewhyman

10. AI 老师：TeachMe!

AI 辅导老师，能够帮助测验学生并确保他们在继续学习之前掌握一门学科的所有方面。

11.冥想课程生成器：Personalized Meditation Generator

这款 AI 引导的冥想应用，能够根据您当前的生活状况构建课程。

12.服务中小型商户的广告生成器 Quick and Affordable Ad Creation for SMBs

AI 广告生成器，可接收产品描述并生成针对特定市场段的高质量 Veo2 定制视频。

13.运动补剂分析：Sweat

扫描运动前补剂的标签，立即查看成分、它们的效果以及能量、专注度和耐力等关键品质的分解。此外，还可以阅读评论和查看用户评分。

开发者：sunny
https://x.com/SunnyWangAI

14.事实核查服务：Ground Truth 丨第三名

为辩论和可能存疑的视频内容提供实时 YouTube 视频事实核查服务。
开发者：Ayush Khandelwal；justinLLM

https://x.com/ayushkhd ;
https://x.com/heyjustinai

15. AI 物理治疗师：Evi: AI Physio Therapist

AI 物理治疗师，根据您的状况创建指导性练习，并跟随您的动作来更新计划。

16. AI 生成推特社区笔记：3M

多模态的推特 moderator。AI 角色，负责阅读推文并判断内容是否事实正确或提供背景信息。

17.提示词剪辑视频成动图：GIF Anything

描述一个场景并分享一个视频链接，Gemini 将在幕后剪辑视频以创建一系列可分享的 GIF。

开发者：Frieda Huang、Tom、Devin Ersoy
https://x.com/JYFHuang
https://x.com/tomgregorsamsa
https://x.com/DevinErsoy496

18. AI 时代的 Stack Overflow：Trieoverflow丨Windsurf 赛道第二名

Stack Overflow 的进化版，它整合了多个网络大型语言模型 LLMs 无法直接引用的资源（如 Discord），并允许用户为他们发现的 bug 添加解答，以帮助遇到相同问题的后续用户。

开发者：Vikranth Kanumuru
https://x.com/kanlanc

编译：qqq、鲍勃

原文：
https://x.com/alexreibman/status/188624035729549729

更多 Voice Agent 学习笔记：

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨Voice Agent 学习笔记

阅读 551发布于 2 月 13 日

RTE开发者社区

668 声望976 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

« 上一篇

语音 AI 招聘平台 ConverzAI 融资 1600 万美元；OpenAI 将整合 GPT 和 o 系列模型丨日报

下一篇 »

报名丨Computer use&Voice Agent ：使用 TEN 搭建你的 Mac Assistant

引用和评论

推荐阅读

上线 3 天破 500 星，TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人丨社区来稿

RTE开发者社区

Open WebUI：开源AI交互平台的全面解析

DBLens赞 5阅读 1.9k

大模型中的Token究竟是什么？从原理到作用深度解析

DBLens赞 5阅读 4k

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 5阅读 1.8k

MySQL × 向量数据库：大模型时代的黄金组合实战指南

DBLens赞 5阅读 1.9k

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

思否编辑部赞 2阅读 4.7k

大模型时代，后端程序员如何避免被AI卷死？

王中阳讲编程赞 4阅读 1.8k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。