主要观点:去年作者写过关于文本嵌入的超能力及尝试用其比较音乐艺术家歌词,虽结果未达期望但体会到开源工具重要性;为在博客中展示嵌入投影需组合多个 Go 模块,目前开源工具虽有但仍需更多更好的;提到一些开源工具如 ollama、localai、llm 等,还介绍了 gptscript;认为一些工具需 GUI 以便可视化和交互数据,如 Jupyter Notebook 虽有用但使用起来较繁琐;之后作者开始开发 embeviz 工具,它有 Go 编写的后端 API 和 JS 编写的简单 Web UI,可用于与远程 LLM 通信及计算投影,还可选择不同投影和分块选项,默认使用内存数据存储,后添加了对持久数据存储(向量数据库 qdrant)的支持,目前 UI 较基础,作者计划添加突出显示文本块等功能。
关键信息:
- 去年相关博客链接:https://cybernetist.com/2024/...
- 开源工具:ollama、localai、llm、gptscript 等
- embeviz 工具:后端用 GoFiber 框架,前端用 JS 结合 React 和 React Router,有内存和持久数据存储选项
- 演示视频:可在 Youtube 观看相关演示
- 相关参考:You Should Probably Pay Attention to Tokenizers等多篇文章
重要细节:
- 开发 embeviz 过程中多次因假期放弃,几周前又开始继续
- 对 Python 生态工具的吐槽,如 Python 工具链糟糕
- qdrant 的特点是可存储单个记录的多个向量(named vectors)
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。