OpenAI 在 GPT-4o 中发布了改进的图像生成

主要观点:OpenAI 发布具有原生图像生成能力的 GPT - 4o 新版本,可修改上传图像或根据提示创建新图像,在精炼图像时具有多轮一致性且改进了图像中文本生成。
关键信息

  • CEO 山姆·奥特曼在近期直播中宣布发布。
  • 新模型训练时结合图像和文本数据,包括“激进的后训练”,但未公布技术细节和基准性能。
  • 生成图像含 C2PA 标签表明由 AI 生成,已建内部工具判断图像是否由其模型生成,会阻止违反内容政策的图像生成。
  • 更新系统卡描述潜在风险及缓解措施,包括大量红队演练,会拒绝某些类型的图像生成请求但对公共人物图像生成政策有改变。
    重要细节
  • 新模型使用自回归生成方法,与 DALL - E 和 Stable Diffusion 使用的扩散方法不同。
  • 可生成含多达 10 - 20 个不同物体的图像,但可能难以准确渲染更多。
  • 用户在 Hacker News 上评论生成图像的质量,尤其提及正确渲染图像中文本的能力,同时指出模型在渲染非拉丁字符语言时存在困难,可能产生不准确或虚构的文本。
阅读 8
0 条评论