头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、马斯克旗下大模型 Grok-2 Beta 推出,可在 X 上生成图像

Elon Musk 旗下的 xAI 以 Beta 版本的形式,推出了 Grok-2 和 Grok-2 mini 测试版,重点改善了推理能力。

xAI 关于 Grok-2 的博文写道:「Grok-2 的早期预览版现已推出,在此前 Grok-1.5 的基础上又向前迈出的重要一步,在聊天、编码和推理方面有明显改进。」「我们还推出了 Grok-2 mini,相关版本已经以 sus-column-r 的名称出现在 LMSYS 排行榜上。」

Musk 的人工智能公司计划在本月晚些时候通过企业 API 向开发者提供这两种模型。

应用程序研究员(显然也是 X 功能测试员)Nima Owji 声称,Grok 2 在代码生成、写作和新闻方面更胜一筹。

xAI 公司在宣布上述两个 Grok 模型之外,还向 Premium 和 Premium+ 订阅用户开放新权益,可以直接在 X 平台上生成图片。根据用户反馈,X 平台上的 Grok 文生图模型没有限制,可以创建政治人物图片,目前许多用户都在利用这一优势。不过,随着美国总统大选的临近,该公司很可能会面临增加这些功能限制的压力。(@ APPSO)

2、Clapper:开源 AI 视频工具,你只需要当导演

Clapper 是一款开源的 AI 故事可视化视频生成工具,它集成了多种生成式 AI 技术,使用户能够通过交互式、迭代和直观的过程使用 AI 创建视频,而无需专业的电影制作或 AI 工程技能。在 Clapper 中,用户无需直接编辑视频和音频文件序列,而是通过调整高级、抽象的概念,如角色、位置、天气、时间段、风格等,基于 AI Agent 来迭代故事。

Clapper 的每条轨道不是对应视频或图片素材,而是对应一个具体的工种。Clapper 内置像 GPT-4o,Claude 3.5(Sonnet)等一系列「顶流」大模型,它就像一个由业内最强的 AI 组成的剧组,用户可以通过 Clapper 将任意文本转换为时间线,并且可以直接导入剧本,为角色创造人设,甚至可以上传图片为角色设置视觉形象。(@机器之心)

3、Google 新品发布会:Pixel 9 系列整齐亮相,还有一些 AI 新花样

在 2024Google 发布会上,Google 除了发布 Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL、Pixel 9 Pro Fold、Pixel Watch 3 和 Pixel Buds Pro 2 等硬件新品外,也着力于解答一个更重要的问题——AI 还能为使用者做些什么?

在活动上,Google 重点推出的 AI 新功能包括:

「Gemini Live」:Google 宣布购买 Pro 系列手机的用户,都能获取一年的 Gemini Advanced 订阅,这也是使用 Gemini Live 功能的前置条件。Gemini Live 能够实现与手机 AI 更加自然地聊天,堪称新一代谷歌手机 AI 助手的灵魂;

「Add Me」:通过该功能,一同出游的伙伴可以分开拍照,然后让 AI 集成到一张照片里,从而无需自带三脚架或向陌生人寻求帮助;

「Pixel Studio」:一款 AI 图像生成器,基于设备端模型和云 Imagen 3 文本到图像模型,与苹果即将推出的 Image Playground 应用非常相似;

「Pixel Screenshots」:该应用能够调用设备端 AI 模型 Gemini Nano 分析和整理手机截图里的内容。Google 举例称,例如用户曾经截图保存过度假民宿的门禁密码,到地方后就可以呼叫这款应用找到截图并提供信息。AI 模型也能按照用户指令分析截图内容,并与日历等 app 进行联动操作;

「Call Notes」:在完成通话后,用户可以收到软件发来的通话内容摘要,和完整的语音转写文档。为了保护隐私,这款应用完全使用端载算力运行。与苹果类似,一旦用户激活该功能,所有参与通话的人都会收到通知。(@新浪财经)

4、OpenAI 找回场子:chatgpt-4o-latest AI 模型力压谷歌 Gemini 1.5 Pro,多项跑分重夺第一

谷歌上周发布最强 Gemini 1.5 Pro 模型,在 LMSYS 的聊天机器人竞技场(Chatbot Arena)比赛中取得第一名,而 OpenAI 迅速「找回场子」,最新 chatgpt-4o-latest 模型重夺第一。

Chatbot Arena 是由伯克利大学主导团队 LMSYS Org 近日发布的一个针对大语言模型的基准平台,该平台采用匿名、随机的方式让不同的大模型产品进行对抗评测,基于国际象棋等竞技游戏中广泛使用的埃洛等级分系统,通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些。最后系统根据用户的选择判定大模型产品的积分,以排行榜的形式出现在首页中。

谷歌的实验性 Gemini 1.5 Pro 模型上周以 1297 分的成绩夺得第一名,这是谷歌首次登顶 LMSYS 的聊天机器人竞技场。本周 OpenAI 凭借新的 chatgpt-4o-latest 模型,以 1314 分的最高分夺回了竞技场第一名的宝座。得分显示,新版 ChatGPT-4o 在编码、指令遵循和硬提示方面都有显著提高。(@IT 之家)

5、昆仑万维发布全球首个 AI 流媒体音乐平台 Melodio

昆仑万维宣布,正式发布全球首个 AI 流媒体音乐平台 Melodio,并同步推出 AI 音乐商用创作平台 Mureka。两款产品均搭载昆仑万维新款自研 DiT(Diffusion Transformer)架构音乐大模型 Skymusic 2.0,这是业内首个能够持续稳定生成特定风格歌曲的 AI 音乐大模型。

据介绍,用户根据此刻的场景或心情在 Melodio 输入 Prompt,Melodio 便会持续生成相应风格的定制化音乐。用户在 Melodio 音乐生成与播放过程中可以随时修改输入文案,改变音乐生成内容,还能够实时查询生成的歌词,并对于喜欢的片段进行保存、分享。官方还表示,Melodio 是业内首个能够持续、稳定生成特定风格歌曲(如:中国风、Rap、DJ 等)的 AI 音乐平台。

此外,昆仑万维还发布了 AI 音乐商用创作平台 Mureka,专业艺术家与音乐爱好者均可在 Mureka 平台上创作专属音乐,并通过歌曲商店展示、收听、收藏、分享、下载,同时获得 AI 乐曲创作证明。(@IT 之家)

6、苹果即将向开发者开放 iPhone NFC 权限

苹果发布公告,宣布将面向开发者开放 iPhone 的 NFC 芯片访问权限,开发者将可以使用安全元件在其应用内使用 NFC 功能。

苹果介绍,为了将这一新解决方案整合到 iPhone 应用中,开发人员需要与 Apple 签订商业协议,请求 NFC 和安全元件权限,并支付相关费用,确保只有满足行业和监管要求,并符合苹果安全和隐私标准的开发者才能访问相关 API。

NFC 和安全元件 API 会在即将推出的 iOS 18.1 测试版中向澳大利亚、巴西、加拿大、日本、新西兰、英国和美国的开发者开放,后续还会有更多地区支持。(@ APPSO)

02有态度的观点

1、Reid Hoffman 对话 OpenAI 董事会主席:AI 处在 PC 早期,LLM 是一类新的软件,社会需要时间适应

近日,OpenAI 早期投资者&前董事会成员 Reid Hoffman 与 OpenAI 现任董事会主席& AI 初创公司 Sierra 创始人 Bret Taylor 展开了一次创业对谈。

在对话中,他们讨论了 AI 目前的发展阶段以及 LLM 对社会的潜在影响。Hoffman 和 Taylor 都认为,AI 目前的发展阶段类似于个人电脑(PC)早期的发展阶段,这意味着社会需要时间来适应这一新兴技术。Taylor 强调,LLM 作为一类新的软件,正在改变我们与软件的互动方式,与软件对话可能会成为人与软件互动的最符合人体工学的方式,因为这种互动不需要说明书,只需要进行对话。

两位业界领袖对 AI 的未来发展持乐观态度,同时也意识到了伴随技术发展而来的挑战和责任。他们认为,随着 AI 技术的进步,将会出现新的工作机会,并且 AI 将成为增强人类能力的工具,而非替代人类。

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
647 声望966 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。