Faye Zhang在QCon SF 2024的演讲总结
在QCon SF 2024上,Pinterest的高级软件工程师Faye Zhang发表了题为《搜索:从线性到多元宇宙》的演讲,探讨了AI驱动的搜索中的三大趋势和技术:多模态交互、个性化以及AI代理的模拟。
AI搜索的增长趋势
Zhang首先分享了AI作为主要搜索工具的增长数据:从2024年1月的1%人口使用率增长到2024年10月的8%,并预计到2027年将超过60%。她提到AI在搜索中的多种实用功能,例如快速扫描评论或通过视觉描述找到物品。
多模态交互
Zhang探讨了AI搜索向多模态交互发展的趋势。与传统仅支持文本查询的搜索不同,AI模型还可以接受图像、视频或语音输入。她引用了多篇研究论文,包括Meta的Chameleon模型,并概述了多模态交互的架构。最常见的策略是将所有输入模态映射到相同的嵌入空间,如Meta的ImageBind模型所做的那样。
实时交互驱动架构
用户希望在搜索过程中能够实时迭代和优化搜索结果。Zhang以搜索太阳镜为例,用户可能首先指定价格和运输限制,搜索AI返回几幅图像后,用户选择一幅并要求相同颜色但不同形状的眼镜。Zhang提出了一种交互驱动的架构来解决这一问题,该架构包括两部分:视觉Transformer(用于理解图像特征及其自然语言描述)和T5语言模型(用于处理自然语言交互)。她建议使用T5编码器-解码器模型,因为它能同时处理嵌入和文本,并且可以高效微调。
个性化搜索
Zhang讨论了基于用户活动历史的搜索个性化。她概述了Pinterest的PinnerFormer模型,这是一种基于Transformer的模型,能够根据用户过去一年的历史预测未来20天的行为。她还提到了Meta的Hierarchical Sequential Transduction Units(HSTU)模型。她指出,将这些系统投入生产面临的挑战之一是需要采用Lambda架构,该架构具有独立的实时和批处理数据管道。
AI代理模拟
第三个趋势是AI代理的模拟,特别是用于测试搜索系统。在这种场景下,AI代理模拟真实用户与系统交互,可以快速、大规模地进行,提供对搜索系统行为的快速反馈。她提到这种方法在红队测试和规模测试中也非常有效。
未来展望
Zhang在演讲结束时展望了未来。她指出,如果AI代理开始处理更多的人类搜索任务,搜索结果可能会针对代理进行优化。她的第二个预测是关于设备端智能的,由于移动设备拥有大量个人数据,它们可以“在隐私保护的前提下创建超个性化的体验”。最后,她探讨了关于AGI(人工通用智能)的辩论,即学习和知识哪个先出现。她个人认为两者是相互交织的,但智能系统不仅仅是检索信息,而是能够“概括、推理和创新”。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。