豆包升级上新,网友们再次玩疯!
更新的是豆包文生图功能,官方直接用一张豆包AI生成的海报给划了重点:
没错,豆包可以在图片中生成更准确的文字了,尤其是中文。
做海报,效果可以是酱婶的:
给自己的旅游VLOG整点某音某书封面,风格也是直接拿捏。
甚至还能直接拿来设计文旅周边了…
另外,超长复杂提示词也能准确get:
关键是,免费!现在就能畅玩。
嗯,编辑部已经被表情包by豆包刷屏了
实测豆包文生图升级
豆包文生图功能本次升级主要体现在四个方面:
- 标题大字准确度提升至94%,小字也能准确生成
- 语义理解和影视质感增强,镜头更有叙事感
- 即使是超长复杂提示词,也能准确遵循
- 绘画风格更多元,可生成头像、梗图、盲盒、贴纸、Logo
有一说一,在文字生成能力方面,不少模型都是Demo美好而实际免不了乱码。
豆包文生图新模型究竟表现如何,咱们还是得实测才知道。
正值清明假期,那我们不妨让它生成一张清明节海报:
Prompt:帮我生成一张清明节海报,并配文“清明时节雨纷纷,路上行人欲断魂”。
从生成的4张图可以看到,它们都100%正确还原了“清明时节雨纷纷,路上行人欲断魂”这句文字,而且整体氛围感比较符合清明节主题。
然鹅,每张图都或多或少在小字生成方面还是有一些小瑕疵。
那如果尝试规避其弱点,只是单纯用来生成大字海报呢?
Prompt:生成一张亲子户外风图像,仅配文“出发啦”,比例9:16
这次的结果就比较符合要求了,而且偷偷告诉大家一个小注意事项:即使用来生成只有大标题的海报,在提示词中也尽量避免提到“海报”二字,不然豆包AI就会“自作主张”加一些效果不佳的小字。
接下来我们考一下豆包AI的“镜头感”。
Prompt:通过特写镜头来捕捉一个运动员在比赛关键时刻的紧张表情和汗水。
嗯,不仅高度还原了提示词,而且看上去真有电影截图内味儿了
变换各种镜头语言,几乎每张都堪比大片:
展现一个侦探在昏暗的巷子里追踪嫌疑人,紧张的气氛和快速的步伐。
而且即使是超长复杂提示词,豆包AI现在也能精准还原了:
赛博朋克风格的插画,一位身着高科技服装的东方女性。她的服饰以深蓝为主色调,外观飒爽,科技感配饰 。头戴对讲耳机,AR眼镜。背景是暗黑风格,有蓝绿色扭曲的树枝,点缀粉色光斑,营造神秘氛围。背景中安排几尊白色人形雕塑,赛博朋克风格建筑,环境湿润。
Again,还能来一段更长长长的提示词:
在保证“壁画,水彩,地中海风格”的整体基调下,豆包AI生动勾勒了一幅海边小镇度假图。
提示词中的关键元素均在图中有所展现,整体非常梦幻、chill~
最后当然更吸引网友的是,豆包AI绘图风格更多元了。
喜欢换头像的友友,即日起一天一个也不是不行(doge)。
此外,除了文艺复兴一些经典老梗,咱们现在也能分分钟成为“造梗小能手”了:
还能自己动手设计一些复古盲盒:
更多玩法欢迎大家自行解锁~~
全新升级3.0模型
豆包升级版文生图功能背后,是全新的3.0模型。
官方尚未透露相关细节,不过就在不久前,豆包大模型团队首度公开了去年12月上线的Seedream 2.0的技术细节——
这个版本的更新,开启了豆包文生图的“识字”时代。
Seedream走的是扩散模型路线。
豆包大模型团队透露,为了让模型既看懂文本,又关注字体字形,他们在数据预处理阶段和预训练阶段都下了功夫。
Seedream 2.0在数据预处理阶段,依靠智能标注引擎实现了三级认知进化,提升了模型理解、识别能力,通过多维度、多层级精准图片描述,让模型技能理解文字意思,也能捕捉和理解字形细节。
同时在预训练中,Seedream 2.0构建了双模态编码融合系统。其中大语言模型负责解析“文本要表达什么”,字形模型ByT5专注于刻画“文字应该长什么样”。
细节是,通过MLP投影层,将ByT5的字形特征对齐到LLM语义空间,二者拼接后输入扩散模型。此种方法下,字体、颜色、大小、位置等渲染属性不再依赖预设模板,而是通过LLM直接描述文本特征,进行端到端训练。这样,模型既能从训练数据中学习文本渲染特征,也可以基于编码后的渲染特征,高效学习渲染文本的字形特征。
BTW,这次Seedream新模型依然是在豆包和字节旗下AI创作平台即梦AI同步接入,不过即梦还是灰度测试的状态。
以及同样的提示词下,豆包和即梦的风格倾向似乎略有不同。
豆包:
即梦AI:
目前,豆包免费,即梦AI每天会赠送免费积分,感兴趣的大家都可以自己上手玩一玩。
有什么好玩的创意,欢迎在评论区留图分享啊~
* 本文表情包均由豆包AI生成
豆包:https://www.doubao.com/chat/ 即梦:https://jimeng.jianying.com/a...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。