你好,我是阮小贰,
还是一样,老规矩,
我们先来看看知识库搭建完的效果。
比如,我想了解“如何做抖音运营?”,
那么我可以先去度娘搜索“抖音运营”这个关键词,
这个时候会搜出来很多跟抖音运营相关的知识文章。
然后,我们找到一些我们认为不错的文章作为我们的知识库来源,
最后,验证知识库即可。
OK,这就是验证后的效果,看起来其实还不错。
一、为什么要搭建知识库?
日常工作中,我们经常需要处理大量文档和资料:
- 产品文档、技术文档散落在各处,查找费时费力
- 新人入职培训需要反复讲解相同的内容
- 客户咨询的问题高度重复,但每次都要人工回答
- 公司内部知识难以沉淀和复用
- 各类参考资料缺乏统一管理和快速检索的方案
一般传统的文档管理系统只能按目录存储和搜索关键词,而商业AI助手又无法导入私有数据。
那这个时候,一个能将文档智能化并支持对话的系统就显得尤为重要。
而知识库正是为解决这些痛点问题应运而生。
接下来,我以AnythingLLM为例,
重点教一下大家如何使用DeepSeek + AnythingLLM搭建本地私有知识库。
二、什么是AnythingLLM?
简单来说,AnythingLLM 能够把各种文档、资料或者内容转换成一种格式,让LLM(如ChatGPT)在聊天时可以引用这些内容。
然后你就可以用它来和各种文档、内容、资料聊天,支持多个用户同时使用,还可以设置谁能看或改哪些内容。
并且还支持多种LLM、嵌入器和向量数据库。
三、关于AnythingLLM
- 定位: 将本地文档或数据源整合进一个可检索、可对话的知识库,让 AI 助手“懂你”的资料。
主要功能:
1. 文档管理: 将 PDF、Markdown、Word 等多格式文件索引进系统。
2. 智能检索: 可基于向量数据库搜索相关文档片段,并在聊天时自动引用。
3. 界面+API: 既提供用户友好的前端管理界面,也能通过 API 与其他系统集成。
对接 Ollama 思路:
- 在配置文件或启动脚本中,将“语言模型推理”后端地址指定为 Ollama 的本地服务。
- 当用户发起提问时,AnythingLLM 会先做知识检索,再将检索到的上下文发送给 Ollama 做语言生成。
适用场景:
- 企业内部文档问答、个人知识管理、高度依赖文本内容的问答场景。
四、AnythingLLM灵活的文档处理能力
AnythingLLM支持处理多种类型的文档和内容:
- 多格式支持:可以导入PDF、Word、TXT等常见文档格式
- 网页抓取:直接输入URL即可抓取网页内容
- 智能分割:自动将长文档分割成适合向量化的片段
- 元数据提取:自动提取文档的标题、作者等信息
- 增量更新:支持文档的增量更新,无需重新处理全部内容
- 大规模处理:能高效处理GB级别的文档集合
五、个人AI知识库的搭建方案
使用 AnythingLLM + DeepSeek 是简单且知识检索效果不错的方案
- AnythingLLM:开源免费的知识库管理前端工具,支持上传知识、向量化数据、检索增强(RAG)等服务。
- DeepSeek:(简称DS)幻方量化推出的大模型,性能与Claude 3.5相当,Token价格较低,本次方案使用DS作为推理模型。
为了让大家更好地理解知识库的工作流程,我这边画了一张简易流程图。
大家随便看看就好。
六、AnythingLLM + DeepSeek实战
6.1、本地部署DeepSeek
如果之前已经部署过,这里可以直接跳过忽略。
如果还没有部署或者不知道怎么部署的,可以去看看我之前这篇文章
本地部署
6.2、下载AnythingLLM桌面版
6.2.1、AnythingLLM 的推荐配置
这是运行 AnythingLLM 的最小值。
这足以让您存储一些文档、发送聊天记录并使用 AnythingLLM 功能。
6.2.2、AnythingLLM官网:
https://anythingllm.com/desktop
为了方便大家下载,我专门将所有应用下载到网盘,进入即可保存或者下载
DeepSeek相关安装包——夸克网盘
链接:https://pan.quark.cn/s/fd9135fc7cd9
提取码:8KxZ
6.3、安装AnythingLLM桌面版
下载安装包
双击打开安装包
一般情况下会出现这个提示,
点开【更多信息】
选择【仍要运行】即可
之后,就是正常的下一步了。
这个时候开始安装一些依赖库(为本地LLM做支持用)了。
安装完成
桌面上可以看到AnythingLLM的图标
6.4、AnythingLLM 配置
双击桌面AnythingLLM图标打开,首次启动会出现【Get started】,点击即可。
这里可以不做配置,直接点击右侧箭头往右滑。
OK,到这里就算正式进入到工作界面了。
但是,在搭建知识库之前,我们需要给AnythingLLM做一些配置
6.4.1、配置LLM首选项
点击左下方【扳手】按钮进入设置界面。
- 点击 LLM首选项
- 选择ollama作为模型提供商
- 选择已安装的deepsek 模型
- 注意下地址
6.4.2、配置向量数据库
向量数据库不用动保持默认即可,使用自带的(ps:如果没有选择安装目录,默认在c盘,如果后续有需要可以挪走)
6.4.3、配置嵌入模型
这里的嵌入模型配置,可以使用默认自带的,也可以使用ollama安装好的(如果本地有安装的话)
配置完点击【保存更改】再点击左下角的【返回】即可
6.5、配置工作区
点击【+新工作区】创建一个新的工作区
随意起一个工作区名称
6.6、上传文档
上传方式:
- 点击工作空间的上传按钮,支持上传PDF、CSV、音频文件,或者抓取网页内容。
- 上传后,右键点击文件并选择“加入工作空间”即可。
点击【upload a document】上传文件
点击按钮开始添加文档
并将文档 Move to Workspace,意思是加载到AnythingLLM的本地知识库中。
然后点击【Save and Embed】即可。
稍微等待一会儿
出现 Workspace updated successfully 就表示知识库配置已经完成。
6.7、验证知识库效果
6.7.1、知识检索问答
开启对话:
- 在工作区点击 New Thread 开启新的对话。
- 提问后,AI会根据知识库中的内容进行回答。
查看引用来源:
- 如果想确认AI回答的知识来源,可以在回答底部点击 Show Citations 查看引用的知识。
然后我在群里看到不少兄弟安装AnythingLLM的时候经常出现以下报错,
这个时候可以参考官方这篇文章去了解下如何手动安装依赖项:
https://docs.anythingllm.com/installation-desktop/manual-install
OK,到这里关于AnythingLLM的知识库搭建就已经算是基本完成了。
然后,可能有些小伙伴会问,我的知识库数据都保存到哪里去了?
别着急,都在你的电脑里面,数据不会丢。
6.7.2、我的数据位于哪里?
所有与 AnythingLLM Desktop 有关的数据将位于以下位置。请将其替换<usr>为您的设备用户名。
在Mac上: /Users/<usr>/Library/Application Support/anythingllm-desktop/storage
在 Linux 上: /Users/<usr>/.config/anythingllm-desktop/storage/
在 Windows 上: C:\Users\<usr>\AppData\Roaming\anythingllm-desktop\storage
6.7.3、每个文件夹是什么?
- lancedb:这是存储您的本地矢量数据库及其表的地方。
- documents:这是任何上传文件的解析文档内容。
- vector-cache:此文件夹是之前上传并嵌入的文件的缓存和嵌入表示。其文件名经过哈希处理。
- models:系统使用的任何本地存储的 LLM 或 Embedder 模型都存储在此处。通常是 GGUF 文件。
- anythingllm.db:这是 AnythingLLM SQLite 数据库。
- plugins:这是存储您的自定义代理技能的文件夹。
好了,可能又有小伙伴说了,我看到网上搭建知识库的工具有很多种,
比如:像AnythingLLM、Dify、MaxKB等都可以搭建本地知识库,
那么问题来了,哪一个最好?
他们之间有什么区别?
我们到底应该要怎么选择?
其实,没有所谓的最好的,
只有适合自己的才是最好的。
七、三大知识库工具大PK?
OK,我带着以上这些问题,去问了一下DeepSeek,来看看他给我的答案。
八、如何选择知识库工具?
1. 选AnythingLLM:
- 需求:数据绝对本地化,避免任何云端传输。
- 技术能力:有运维团队,能自主管理本地模型(如Llama 3)。
- 场景:金融、医疗等敏感行业,或内部知识库需严格管控。
2. 选Dify:
- 需求:构建复杂AI应用(如知识库+客服+自动化流程)。
- 技术能力:具备API集成经验,希望低代码开发。
- 场景:企业需要灵活扩展功能,整合现有系统(如CRM、ERP)。
3. 选MaxKB:
- 需求:快速搭建轻量级问答系统,无复杂功能需求。
- 技术能力:非技术人员主导,追求简单配置。
- 场景:中小企业知识库、教育机构FAQ、个人学习助手。
九、成本与资源考量
- 硬件成本:AnythingLLM需本地GPU运行大模型,成本较高;Dify和MaxKB若使用云端API,按调用量计费。
- 维护成本:AnythingLLM需技术维护;Dify和MaxKB更易托管。
- 开源协议:三者均开源,但企业版功能或需付费(如Dify的团队协作功能)。
所以,具体还得根据团队规模、技术能力及场景复杂度权衡选择,必要时可结合工具试用(如Dify的在线Demo、MaxKB的一键安装)进一步验证。
十、写在最后
AnythingLLM为知识管理和智能问答提供了一个开源的整体解决方案。
它不仅能帮助个人和团队更好地管理和利用知识资产,还能大幅提升工作效率。
虽然部署和配置需要一定技术基础,但投入的时间和精力是值得的。
经过一段时间的使用,你会发现它能极大地改善团队的知识管理和信息获取效率。
特别是对于需要经常查阅大量文档的团队来说,AnythingLLM可以成为一个强大的助手。
以上就是本期所有啦,
基本上能看到这里的都是人中龙凤!
如果觉得不错,随手点个赞、在看、转发三连吧!
谢谢你耐心看完我的文章~❤️❤️❤️
个人博客:小二项目网
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。