ChatGPT 支持语音实时搜索；Meta Ray-Ban 智能眼镜新增视频识别与实时语音翻译功能丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、Gemini 2.0 引入多语言原生音频输出

Google Deepmind 展示了 Gemini 2.0 Flash Experimental 的原生音频能力。视频中，Gemini 2.0 可以切换不同语言、使用不同语速、语调和情感说话；还支持使用 Prompt 的方式控制语音的输出结果。(@ Google Deepmind@X)

2、谷歌文生图 AI 模型 Imagen 3 再进化：多样艺术风格、构图更平衡

谷歌公司昨日（12 月 16 日）发布博文，在发布 Veo 2 视频生成模型之外，还增强了 Imagen 3 文生图 AI 模型，为用户带来更多花样的艺术风格。

谷歌表示 Imagen 3 是谷歌最强的文生图模型，在最新版本中添加了现实主义、幻想主义、肖像画等各种多样化艺术风格，并更精准地基于提示词转换，可以生成更明亮、构图更平衡的视觉效果。

谷歌 Imagen 3 还带来了更丰富的纹理、进一步增强了图片细节，在官方放出的测试中，超过了 OpenAI 的 DALL-E3 和 Flux 等主流模型。（@IT 之家）

02有亮点的产品

1、月之暗面 Kimi 视觉思考版上线：基于 k1 模型打造可识别图片内容

月之暗面旗下人工智能助手 Kimi 已上线新功能——视觉思考版。这一更新使得 Kimi 能够对用户发送的图片进行细致的观察和深入分析，揭示图片背后的秘密。用户现在可以直接向 Kimi 提出问题，利用其视觉思考能力来解答疑惑。

据报道，Kimi 的视觉思考功能基于 k1 视觉思考模型打造，这使得它能够对图片内容进行智能分析，为用户提供准确的反馈。

例如，用户可以询问 Kimi 关于他们即将拍摄的照片的地点，Kimi 将根据图片内容给出猜测。此外，用户还可以发送截图给 Kimi，请求帮助解答图中的题目。这项新功能不仅增强了 Kimi 的交互能力，也为用户提供了更加直观和便捷的服务体验。（@AIbase 基地）

2、ChatGPT AI 搜索免费开放

北京时间今天凌晨，在 OpenAI 第八场发布会上，宣布向全球用户免费开放 ChatGPT Search。

本次更新的主要亮点包括：

高级语音模式现已支持实时网页搜索，并支持多语言实时翻译

ChatGPT 能够智能判断是否需要执行网页搜索，用户也可通过点击 🌐 图标手动触发搜索

搜索结果中的视频可直接在 ChatGPT 聊天窗口中播放
支持将 ChatGPT Search 设为默认浏览器，提升网页导航效率
移动端搜索结果优化显示，包含完整商业信息描述和丰富视觉内容
iOS 设备集成原生苹果地图体验

根据投资公司 Evercore 在 9 月份对 1300 人进行的一项调查，有 8% 的受访者选择 ChatGPT 而不是 Google 作为他们首选的搜索引擎，相比之下，6 月份这一比例仅为 1%。那时更专业的 ChatGPT Search 功能尚未正式发布，便已经能从搜索市场份额身上撕咬下一块肉，收获如此多的忠实拥趸。

上个月，外媒 The Information 披露，OpenAI 正在筹划一款新产品，旨在将 AI 聊天机器人和网络浏览器相结合，为旅游、餐饮和房地产等领域的网站提供搜索功能。为了实现这一目标，OpenAI 甚至早些时候不惜重金挖来了 Google Chrome 团队的创始成员之一 Ben Goodger。(@ APPSO)

3、苹果将推出可折叠 iPad

近日，据彭博社记者 Mark Gurman 最新一期报道，苹果将在 2028 年推出可折叠 iPad，同时还将带来多款产品。

Gurman 提到，苹果目前正在研发一款介于手机和平板电脑、笔记本电脑的新形态产品，此款产品将会是可折叠的巨型 iPad，展开形态的尺寸可达两台 iPad Pro 并排的大小。

这款可折叠 iPad 目前已在内部打磨多年，并计划于 2028 年推向市场。Gurman 还猜测其将运行 iPadOS 的变体版版系统，甚至还将支持 MacOS 的软件。

Gurman 还透露了两款新产品，一款是新一代妙控鼠标。Gurman 的报道指出，苹果近几个月来一直在对妙控鼠标进行「全面改造」，使其设计「更适合现代」。Gurman 新的妙控鼠标会使用时会更加舒适，并且还会解决充电口的问题。不过他也表示，新款的妙控鼠标预计不会在「未来 12 到 18 个月」内发布，这意味着新的妙控鼠标至少要到 2026 年才能发布。

另外一款产品则是新款 AirTag ，该产品将配备新的 UWB 超宽频芯片，将定位范围提升至现有 AirTag 的三倍。(@ APPSO)

4、Meta 智能眼镜 Ray-Ban Meta 升级：实时 AI 视频与翻译功能

Meta 公司宣布对其 Ray-Ban Meta 智能眼镜进行了一次重大的更新，推出了多项基于人工智能的新功能，包括实时对话和语言翻译。这些新功能现已向美国和加拿大的早期体验用户开放，用户可以下载最新的固件版本 v11。

这次更新中最引人注目的「实时 AI」功能首次在秋季的 Meta Connect 开发者大会上亮相。该功能允许用户与 Meta 的 AI 助手进行持续对话，用户无需每次都说「嘿，Meta」来唤醒助手，而是可以随时打断 AI 进行后续提问或换话题。此外，用户还可以在佩戴眼镜时实时询问周围的环境，例如询问他们附近有什么。

在智能眼镜的实时 AI 视频功能上，Meta 已成为市场上的佼佼者。这项技术可以让用户在观看某物时询问 Meta 的 AI 关于该物品的信息，从而实现信息的即时获取。与之类似的技术，谷歌也计划推出 AR 眼镜，但尚未明确推出时间。

除了实时 AI 视频，固件 v11 还引入了实时翻译功能，支持英语与西班牙语、法语和意大利语之间的即时翻译。当用户与说这些语言的人交谈时，眼镜会通过开放耳扬声器将对方的讲话翻译成英语，并在用户的配对手机上显示文本内容。

此外，这次更新还新增了 Shazam 支持功能，用户只需说「嘿，Meta，识别这首歌」，眼镜便会尝试找到正在播放的音乐。尽管 Meta 对新功能充满信心，但仍提醒用户，实时 AI 和实时翻译可能会出现错误，Meta 表示会不断学习和改进，以提升用户体验。

值得一提的是，在去年 11 月，Meta 曾为 Ray-Ban Meta 推出过一次重大更新，向法国、意大利和西班牙的用户推出了一些 AI 能力。根据埃西洛尔 - 鲁克特（EssilorLuxottica）最近的报告，Ray-Ban Meta 在欧洲、中东和非洲的 60% 门店中成为了最畅销的眼镜品牌。（@AIbase 基地）