在 Firefox Nightly 中试验本地替代文本生成 - Mozilla 黑客 - 网络开发者博客 - SegmentFault 思否

在 Firefox Nightly 中试验本地替代文本生成 - Mozilla 黑客 - 网络开发者博客

发布于 2025-07-24

主要观点：

Firefox 130 将引入实验性新功能，利用完全私有的设备内 AI 模型自动为图像生成替代文本，该功能最初将在 Firefox 内置的 PDF 编辑器中可用，最终目标是在普通浏览中为屏幕阅读器用户提供。
替代文本对于辅助技术（如屏幕阅读器）很重要，许多网站作者未提供足够的替代文本，而最新的 AI 发展使浏览器能够在本地高效生成高质量替代文本。
正在使用基于 Transformer 的机器学习模型，如 BLIP 或 VIT 等，结合 GPT-2 等文本解码器，生成参数较少的替代文本，在本地运行小模型具有隐私、资源效率、透明度等优势。
将 ONNX 运行时和 Transformers.js 嵌入 Firefox Nightly 以扩展翻译架构，实现不同的推理工作，同时实现了自定义的模型缓存机制。
在 PDF.js 中实现了自动生成替代文本的功能，首次添加图像时需下载模型，后续使用会更快，未来希望为 PDF 中的现有图像提供替代文本。

关键信息：

Firefox 130 新功能：自动为图像生成替代文本，最初在 PDF 编辑器中可用，目标是在普通浏览中为屏幕阅读器用户提供。
替代文本的重要性：对于辅助技术很重要，许多网站作者未提供足够的替代文本。
小模型的优势：使用基于 Transformer 的小模型，如 BLIP 或 VIT 等，结合 GPT-2 等文本解码器，生成参数较少的替代文本，在本地运行具有隐私、资源效率、透明度等优势。
嵌入的技术：将 ONNX 运行时和 Transformers.js 嵌入 Firefox Nightly 以扩展翻译架构，实现不同的推理工作，同时实现了自定义的模型缓存机制。
PDF.js 中的实现：在 Firefox 130 中，在 PDF.js 中实现了自动生成替代文本的功能，首次添加图像时需下载模型，后续使用会更快，未来希望为 PDF 中的现有图像提供替代文本。

重要细节：

示例输出：通过不同模型对一张图片的描述对比，展示小模型和大型语言模型的差异，小模型更简洁但能捕捉重要信息。
模型训练：使用 COCO 等数据集训练模型，如 Ankur Kumar 的模型，以及对模型进行微调，如用 DistilGPT-2 替换 GPT-2 等。
代码和项目：生成模型的代码位于 Github https://github.com/mozilla/distilvit，团队用于改进模型的 Web 应用位于 https://github.com/mozilla/checkvite。
下一步计划：采取迭代方法改进替代文本生成器，不断更新 Hugging Face 页面，成熟后在普通浏览中为屏幕阅读器用户提供该功能。

Experimenting with local alt text generation in Firefox Nightly – Mozilla Hacks - the Web developer blog

https://hacks.mozilla.org/2024/05/experimenting-with-local-alt-text-generation-in-firefox-nightly/

阅读 54

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。