OpenAI发布新品GPT-4o，电影《HER》演绎的世界真的来了！

5月14日，OpenAI宣布推出最新旗舰生成式AI模型GPT-4o，它可以实时处理音频、视觉、并对文本进行推理。可以说这是一种全新的交互模式，它完美复刻电影《Her》的世界，标志着人工智能全感知时代的到来。
https://gpumall.com/login?type=register&source=sifou

发布会结束后，OpenAI首席执行官Sam Altman在社交媒体上发表了一个单词“Her”，寓意着GPT-4o有望让科幻电影中演绎的剧情走入现实。#autodl#恒源云#矩池云#算力云#恒源云实例迁移#autodl 官网#autodi#GpuMall#GPU云#AutoDL#AotuDL 算力云#GpuMall智算云#AI#大数据#算力租赁#大模型#深度学习#人工智能#算力变现

GPT-4o的“o”代表“omni”，意为全能，是迈向更自然人机交互的一步。与现有模型相比，GPT-4o它在视觉和音频理解方面尤其出色，它可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似。在接入GPT-4o后，ChatGPT可接受输入任意文本、音频和图像的组合，并可输出生成文本、音频和图像的任意组合。借助GPT-4o，OpenAI跨文本、视觉和音频，端到端地训练了一个新模型，将所有输入和输出都在该模型中交由同一神经网络进行处理。而在API方面，GPT-4o的价格是GPT-4-turbo的一半，速度是GPT-4-turbo的两倍，限制速率高5倍。

发布会上，OpenAI前沿研究部门主管Mark Chen展示了ChatGPT在接入GPT-4o后的实时语音交互能力，如何识别用户语音中的情绪，以及如何用不同的声音朗读AI生成的故事，包括超级戏剧化的朗诵、机器人音调，甚至唱歌。

，时长05:54 除了语音情绪识别功能，GPT-4o还具有实时视觉功能，ChatGPT可以变身真实的老师，通过手机摄像头帮助你实时解题。甚至它还能通过前置摄像头观察用户的表情，分析情绪。，时长03:11 GPT-4o还可帮助充当盲人的“第三只眼”，通过GPT-4o模型实时视觉与语音能力，决策辅助能力等，使得盲人和视力受限用户能够通过语音助手的帮助，实时了解周围的环境，帮助用户做出决策，如识别物品、导航指引等。，时长01:06 与传统的AI相比，GPT-4o看起来像是一个朋友，可以更自然亲切的与用户进行交流，它所提供的“陪伴式情绪价值”将AI虚拟陪伴赛道推向了新的维度。于是，针对同一个问题我们也将GPT-4（左）和GPT-4o（右）进行了对比测试，明显看来GPT-4o提供更富有情绪化。

Sam Altman在blog上发文称：“新的语音和视频模式是我用过的最好的电脑界面。这感觉就像电影里的AI，这让我有些惊讶。达到人类反应时间和表达能力是一个很大的变化。”

大家最关心的是什么时候可以在线体验GPT-4o。现在，进入ChatGPT页面，ChatGPT Plus和Team用户可以抢先体验「最新、最先进的模型」GPT-4o。在未来几周内，GPT-4o将分阶段继承在ChatGPT 在内的OpenAI 各个产品中，并免费提供给所有用户使用。