出品人:Towhee 技术团队
厌烦了不同数据要用不同的模型?是否想过用一个模型就能处理不同模态的数据?终于,在 2022 年初 Meta AI 推出了 “杂食者” Omnivore,一个模型搞定不同视觉模态数据,可以对图像、视频、3D数据进行分类。Omnivore 不仅兼容多种类型的数据,在不同任务的数据集上也都名列前茅。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度;在用于动作识别的 Kinetics 数据集上能达到 84.1% 精度;在用于单视图3D场景分类的 SUN RGB-D 数据集上,精度也高达 67.1% 。
Omnivore: Multiple visual modalities
Omnivore 将不同视觉模态的数据都转换成通用的向量格式,然后利用 Transformer 特有的灵活性,针对不同模态的分类任务进行联合训练。无论是从头训练,还是对预训练模型进行微调,只要使用 Omnivore 和现成的标准数据集,就能让其性能达到甚至超越对应的单模型。
参考资料:
模型用例:action-classification/omnivore
论文地址:OMNIVORE: A Single Model for Many Visual Modalities
更多资料:Facebook AI 推出“超级模型”:搞定图像、视频和3D数据三大分类任务,性能不输独立模型
更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/... ) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。