用于探索文本嵌入的一个小工具

主要观点:去年作者写过关于文本嵌入的超能力及尝试用其比较音乐艺术家歌词,虽结果未达期望但体会到开源工具重要性;为在博客中展示嵌入投影需组合多个 Go 模块,目前开源工具虽有但仍需更多更好的;提到一些开源工具如 ollama、localai、llm 等,还介绍了 gptscript;认为一些工具需 GUI 以便可视化和交互数据,如 Jupyter Notebook 虽有用但使用起来较繁琐;之后作者开始开发 embeviz 工具,它有 Go 编写的后端 API 和 JS 编写的简单 Web UI,可用于与远程 LLM 通信及计算投影,还可选择不同投影和分块选项,默认使用内存数据存储,后添加了对持久数据存储(向量数据库 qdrant)的支持,目前 UI 较基础,作者计划添加突出显示文本块等功能。

关键信息:

重要细节:

  • 开发 embeviz 过程中多次因假期放弃,几周前又开始继续
  • 对 Python 生态工具的吐槽,如 Python 工具链糟糕
  • qdrant 的特点是可存储单个记录的多个向量(named vectors)
阅读 11
0 条评论