苹果公司悄悄推出了Ferret,这是其首款开源多模式大型语言模型(LLM),这标志着其与传统秘密方法的重大背离。Ferret与哥伦比亚大学合作开发,将语言理解与图像分析在各个领域具有开创性的应用前景。这一战略举措反映了苹果致力于在快速发展的多模式人工智能领域保持领先地位。

揭开Ferret的面纱

在与哥伦比亚大学的合作下,苹果公司发布了Ferret,这是一家开源的多模式LLM,没有像通常那样大张旗鼓地宣传此类突破。与其闭门战略不同,这一举措强调了苹果致力于在人工智能领域的开放性和潜在合作。

Ferret的技术奇迹

Ferret由8个Nvidia A100 GPU提供支持,它在理解小图像区域和描述错误更少方面胜过其他同类产品。经过GRIT数据集的训练,它擅长参考和基础任务,展示了苹果在生成人工智能和多模态能力方面的实力。费雷特的方法超越了文本理解,分析图像的特定区域并将其纳入查询。这种独特的集成允许上下文响应,对视觉内容提供更深入的见解,并在AI功能中设置新标准。
图片

Ferret对苹果设备的影响

Ferret与苹果产品的集成可能会彻底改变用户体验。潜在应用包括改进与Siri的基于图像的交互、高级视觉搜索功能、增强可访问性的用户帮助以及丰富的媒体理解。开发人员也可以利用Ferret的功能跨多个领域进行创新应用。

挑战和未来展望

虽然Ferret对苹果设备的潜在影响相当大,但可扩展性带来了挑战。由于基础设施的限制,苹果面临着与GPT-4等大型机型竞争的能力问题。这一困境促使做出战略决策,可能涉及合作伙伴关系或进一步接受开源原则。

我们的发言

苹果推出Ferret标志着其人工智能战略的范式转变。开源方法鼓励合作和创新,反映了对推进人工智能技术的更广泛承诺。随着费雷特能力的发展,它有望重塑我们与技术的互动方式,强调对人工智能应用中视觉内容的更细致理解。

文章来源:https://www.analyticsvidhya.com/blog/2023/12/apple-secretly-l...


Momodel
47 声望21 粉丝

发现意外,创造可能。