OpenAI发布GPT-4o:最新多模态AI模型
OpenAI近日发布了其GPT AI基础模型的最新版本——GPT-4o。该模型在速度、语音处理、视觉任务和多语言能力方面均有显著提升,并在多个基准测试中表现优异,仅次于Google的Gemini模型。
主要特点
- 多模态能力:GPT-4o中的“o”代表“omni”(全能),反映了该模型的多模态特性。与之前的版本不同,GPT-4o通过端到端训练处理音频、视觉和文本,减少了延迟,并能够更好地控制输出。
- 性能提升:GPT-4o比GPT-4 Turbo快2倍,速率限制提高了5倍,并且在多个基准测试中表现优异。
- 安全性评估:OpenAI对GPT-4o进行了广泛的外部红队测试,以发现其新模态中的潜在风险,并计划逐步发布其他模态功能。
发布与演示
OpenAI在春季更新直播中展示了GPT-4o的能力,CTO Mira Murati宣布该模型将向免费用户开放,并提供自定义GPT和GPT商店等原本仅限付费用户的功能。此外,GPT-4o还将通过OpenAI API提供。
用户反馈
用户对GPT-4o的语音功能表示高度赞赏,认为其情感和语调的控制非常自然。OpenAI CEO Sam Altman也在博客中表示,新的语音和视频模式是他使用过的最佳计算机界面,感觉像是电影中的AI,达到了人类级别的响应速度和表现力。
其他更新
- MacOS桌面应用:OpenAI发布了新的MacOS桌面应用,支持语音模式和截图功能。
- 简化界面:ChatGPT网页界面进行了简化,提升了用户体验。
总的来说,GPT-4o的发布标志着多模态AI技术的重大进步,OpenAI通过不断优化和扩展模型功能,为用户提供了更智能、更自然的交互体验。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。