如果将 GPT-4 Turbo with Vision(GPT-4V)模型与 Azure AI Vision 和 Azure Search 的能力结合起来,会发生什么?

本期教学将演示从图像输入直接查询组织数据,并得到智能回复。

图片

出于合规角度,建议国内企业可以选择微软的Azure OpenAI服务来使用接口。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

不仅如此,GPT-4V 与 Azure AI Vision结合使用时还可支持视频输入。

这意味着自然语言处理和图像识别任务的准确性有了显著提高,从而实现了新的人工智能生成场景。最重要的是,借助新的 Azure AI Studio,现在可以轻松构建和编排强大的 Copilot 应用程序。

让我们一起来看看是如何实现的吧。

01GPT-4 Turbo with Vision基本功能 

我们先来了解一下 GPT-4V 的一些基本能力。

 Azure AI Studio 提供了一个单一的位置, Azure AI Studio 将来自多个 Azure AI 服务的功能汇集在一起 ,可以直接利用 Azure OpenAI 服务中的 GPT-4V,并在 Playground 中进行实验。

GPT-4V 模型具有强大的视觉理解能力,这意味着现在可以将图像作为输入来生成文本回复。

为了让大家了解它的功能,我们举个例子看看。
图片
我在 Azure AI Studio 中上传了一张直角三角形的图片。在图片上,我用手写的形式标出了需要解决的数学问题和对应的位置。我们可以看到 GPT-4V 正在描述这张图片,并且确认该数学问题,然后生成一个带有详细推理步骤的响应。
图片
我们再来看另一个例子,这次是关于时间预测的。我上传了三张图片,并让 GPT-4V 根据这些图片预测接下来会发生什么。
图片
我们可以看到,它能够预测球员将把球踢向球门、试图进球,而守门员则试图阻挡射门。
图片

图片
这样强大的视觉和语言能力为构建 Copilot 应用程序开辟了全新的应用场景。下面是一个实际用例:我在 System message 中写下希望它能充当度假租赁助手的角色,然后我编写了一个 prompt,要求它根据我提供的图片给出描述和建议,以增强此房源在度假租赁网站上的效果。Provide description and tips to enhance the listing of this property on vacation rentals site based on these images.
图片
我们可以看到,GPT-4V 读懂了我的需求。它先生成了一个简短的标题和描述,然后基于我提供的图片列出了一系列对应的特点。最后,GPT-4V 会根据图片中的细节,为推荐列表生成示例文本,并提示如何进一步定制提示。
图片
事实上,在所有这些示例中,您都可以看到  GPT-4V 的可视化推理能力,以及如何使用 Azure AI Studio 对模型进行实验。

02直接查找图像和视频数据 

现在,让我们来看看将 GPT-4V 与 Azure AI 视觉相结合会发生什么。例如,我正在为户外露营网站构建一个聊天工具。
图片
我在这里启用了 Azure AI Vison 服务。因此,我可以通过 Azure AI Vision Video Retrieval  原生集成,将视频作为 GPT-4 Turbo with Vision 的输入。在提示中,我询问这个目的地在哪里并请它推荐1月露营所需的设备类型。您可以看到它知道目的地是哪里,并基于我给定的时间条件推荐了鞋类,还提出了其他装备的建议。它甚至建议我在出行前查看天气预报,以便做出任何调整。
图片
实际上,其背后是使用 Azure AI Vision 的Video Retrieval model(视频检索模型),先将视频拆分为静止图像帧,再将最相关的帧呈现给 GPT-4V,之后再对图像进行推理。之后结合提示中提供的上下文,它就能根据自己的理解给出一份推荐设备列表。这实在是太强大、太酷了!
图片
让我们再来看一个例子:下面我将分别使用 GPT-4V(左侧)和启用了 Azure AI Vision 的 GPT-4V(右侧)进行比较,让我们来看看他们的响应会有何不同。
图片
我们能看到,在使用 Azure AI Vision 后,图片上会出现边界框,并显示出特定的物品:橙色帐篷、露营用椅子和一张黑色小桌子,以及它们的位置,从而得到比仅使用 GPT-4V 更详细的描述。
图片
如果我点击黄色的文字“a bright orange tent (橙色帐篷)”,然后向上滚动页面,你会看到图片中“橙色帐篷”会用边界框突出显示。
图片

图片
这种详细程度为直接查找图像数据提供了可能性,特别是当企业图像数据与Azure Search结合进行检索增强生成时。再让我们来看几个案例,我将用露营公司的企业聊天应用向您展示 GPT-4V 和 Azure AI Vision 结合的实际效果。在这个案例中我会上传相同的图片,给它提示,让他给我找到一个价格在200美元以下的相似的帐篷。您可以看到它能够对图片进行推理,找出帐篷,并根据产品目录中最接近的商品生成响应和推荐。当前,它推荐了 TrailMaster X4 这款帐篷,并直接附上了购买链接。
图片
在启用了 retrieval augmented search(检索增强搜索)后,类似像这种程度的需求也将变为可能。这是因为,Azure AI Search 使用图像嵌入的矢量搜索和最先进的语义重排序器进行信息检索。它引入 Azure AI Vision 从图像中提取的元数据,根据用户提示的上下文,对产品目录中的图像和元数据进行推理,从而找到最佳结果,最终将这些结果呈现给 GPT-4V,生成满足您需求的响应。
图片

03如何构建自己的应用程序

回到 Azure AI Studio,在最右侧 Deployment窗格我已经选择部署了 GPT-4V 模型。接下来,我们要选择添加数据,将企业数据和目录图像与模型结合起来。这里有三种渠道:从 Azure Blob 存储中导入图像和元数据,它会自动为你的数据编制索引;使用现有的 Azure AI Search 实例和索引;手动上传文件和相关元数据。这里,我选择第二种,即使用搜索。选择我想要的服务实例,并选择我想要的索引。然后同意条款,点击确认。
图片

图片
以上,基础数据就已经准备好。Azure AI Search 已启用,并与 GPT-4V 一起工作,现在我们可以回到 playground 试试了。我将上传同样的露营配置图片,然后尝试相同的提示,要它推荐一款价格低于200美元的帐篷。这次它给出的回应是 TrailMaster X2这款帐篷,售价190美元。
图片
如果我将图片中的帐篷与我们目录中的 TrailMaster X2 帐篷进行比较,您就会发现使用 GPT-4V 的 Azure AI 成功找到了符合我们价格标准的帐篷。我还可以进一步问,还有更便宜的选择吗?模型会对数据源中的数据进行推理,并生成响应,突出显示同类型帐篷中价格更低的。
图片
04查看应用程序背后的代码

当您创建自己的应用程序时,将 AI Studio 中的所有操作转换为可工作的代码是非常容易的。您可以使用 "查看代码 "按钮,查看此应用程序背后的代码,包括所有设置的参数。
图片
我甚至可以直接从这里将代码部署为一个新的 Web 应用程序,或者直接从 AI Studio 中更新现有的 Web 应用程序。
图片

图片
Azure AI Studio 可以为您提供包括探索、构建、测试、协调和部署智能应用程序的端到端体验。以上就是如何通过 GPT-4 Turbo with Vision 与 Microsoft Azure AI 平台(带视觉和搜索功能)的结合,提高自然语言处理和图像识别任务准确性的分享,希望能为您的 Copilot 应用程序提供支持,带来启发!


全云在线
1 声望0 粉丝