主要观点:
- Firefox 130 将引入实验性新功能,利用完全私有的设备内 AI 模型自动为图像生成替代文本,该功能最初将在 Firefox 内置的 PDF 编辑器中可用,最终目标是在普通浏览中为屏幕阅读器用户提供。
- 替代文本对于辅助技术(如屏幕阅读器)很重要,许多网站作者未提供足够的替代文本,而最新的 AI 发展使浏览器能够在本地高效生成高质量替代文本。
- 正在使用基于 Transformer 的机器学习模型,如 BLIP 或 VIT 等,结合 GPT-2 等文本解码器,生成参数较少的替代文本,在本地运行小模型具有隐私、资源效率、透明度等优势。
- 将 ONNX 运行时和 Transformers.js 嵌入 Firefox Nightly 以扩展翻译架构,实现不同的推理工作,同时实现了自定义的模型缓存机制。
- 在 PDF.js 中实现了自动生成替代文本的功能,首次添加图像时需下载模型,后续使用会更快,未来希望为 PDF 中的现有图像提供替代文本。
关键信息:
- Firefox 130 新功能:自动为图像生成替代文本,最初在 PDF 编辑器中可用,目标是在普通浏览中为屏幕阅读器用户提供。
- 替代文本的重要性:对于辅助技术很重要,许多网站作者未提供足够的替代文本。
- 小模型的优势:使用基于 Transformer 的小模型,如 BLIP 或 VIT 等,结合 GPT-2 等文本解码器,生成参数较少的替代文本,在本地运行具有隐私、资源效率、透明度等优势。
- 嵌入的技术:将 ONNX 运行时和 Transformers.js 嵌入 Firefox Nightly 以扩展翻译架构,实现不同的推理工作,同时实现了自定义的模型缓存机制。
- PDF.js 中的实现:在 Firefox 130 中,在 PDF.js 中实现了自动生成替代文本的功能,首次添加图像时需下载模型,后续使用会更快,未来希望为 PDF 中的现有图像提供替代文本。
重要细节:
- 示例输出:通过不同模型对一张图片的描述对比,展示小模型和大型语言模型的差异,小模型更简洁但能捕捉重要信息。
- 模型训练:使用 COCO 等数据集训练模型,如 Ankur Kumar 的模型,以及对模型进行微调,如用 DistilGPT-2 替换 GPT-2 等。
- 代码和项目:生成模型的代码位于 Github https://github.com/mozilla/distilvit,团队用于改进模型的 Web 应用位于 https://github.com/mozilla/checkvite。
- 下一步计划:采取迭代方法改进替代文本生成器,不断更新 Hugging Face 页面,成熟后在普通浏览中为屏幕阅读器用户提供该功能。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。