蒙蒂·安德森

主要观点:介绍了如何使用 OpenAI 的文本嵌入模型 Ada 创建 emoji 向量并进行搜索,强调可将其应用于各种媒体领域搜索;提到用 discogs-effnet 模型能通过对比歌曲原始音频信号进行音乐搜索,还开发了本地搜索嵌入数据库的 CLI 工具 vecdb;朋友 Barney Hill 创建的 field*利用 umap 算法将百万轨道嵌入数据集压缩为可探索的地图,开启了文化探索的新方式,同时提出了关于数字化索引和探索人类文化的一些问题。
关键信息:1916 年 Ferdinand de Saussure 提出语言系统是声音差异与思想差异的结合;用 vecdb 可快速搜索本地向量;field*利用 umap 压缩数据集;提出关于文化数字化的疑问。
重要细节:vecdb 利用 mmap()利用操作系统文件系统缓存;通过计算输入歌曲向量与其他歌曲向量的欧氏距离找到最接近的歌曲;field*以世界领先音乐档案管理员 hurfyd 创建的数据集为基础;探讨了文化数字化可能带来的影响如隐私、热门化等问题。

阅读 13
0 条评论