一个大型语言模型查询理解服务 - SegmentFault 思否

一个大型语言模型查询理解服务

发布于 8 月 4 日

主要观点：

需利用大语言模型（LLM）进行搜索作弊，可在数天内完成以往需数月的工作，如将查询拆分成意图维度等，且可在本地基础设施中运行简单 LLM 以提高速度和降低成本。
展示如何部署包含 FastAPI 应用和调用 LLM 的服务，包括代码示例，还介绍了创建用于部署的 Docker 镜像、设置 GKE 自动领航模式、设置持久卷用于模型存储等步骤。
部署完成后可直接与模型聊天，添加缓存（valkey）以提高效率，将应用重构为查询理解服务，可根据搜索查询提供结构化响应，并最终使用缓存。
后续可进行负载测试、提示调优等工作以进一步优化。

关键信息：

提供了代码示例，如 FastAPI 应用调用 LLM 的代码、创建 Docker 镜像的脚本、GKE 部署的 YAML 文件等。
强调需确保计算配额中有 GPU，否则 pod 可能无法正确分配节点。
介绍了缓存的重要性及如何实现缓存。
提出后续可进行的工作，如负载测试和提示调优等。

重要细节：

代码中定义了不同的函数和类，如LargeLanguageModel类用于与 LLM 交互，chat函数处理聊天请求等。
Dockerfile 参考了优化 PyTorch 镜像的文章。
GKE 部署的 YAML 文件中包含了部署、资源设置、节点选择器等配置。
持久卷用于存储模型数据，挂载到 huggingface 的缓存。
缓存基于提示和查询生成的键进行存储和检索。
重构后的服务可根据搜索查询提供结构化响应，并可使用缓存提高效率。

An LLM Query Understanding Service

https://softwaredoug.com/blog/2025/04/08/llm-query-understand

阅读 25

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。