文本相似度的计算

阅读 1 分钟

0

文本相似度的计算方法有很多，这里简单记录一下

传统的VSM模型：

计算文本相似度的时候主要是使用tfidf来协助生成文档向量
整个文档集合有多少词，就是多少维度
每个文档中的词用tfidf来生成权重，用权重来表示文档的向量
生成向量后，就可以计算相似度了，用夹角余弦
当然这里词的权重的生成方式还有很多，也可以用其他的

LSI(Latent semantic indexing) 的方式

这个的方式也比较简单，主要是先生成文档 - 词矩阵
矩阵中的内容就是文档中出现该词的频数
然后用svd分解矩阵得到三个矩阵
C = USV
然后每个文档向量分别和USV相乘得到向量
文本相似度计算还是夹角余弦
至于降低维度，就要对S进行奇异值削减了

阅读 4.3k更新于 2016-05-17

dmlllll

47 声望6 粉丝

« 上一篇

邮件信息抽取

下一篇 »

python 下的unicode字符串转成中文

引用和评论

推荐阅读

didi云 gpu服务器使用记录

dmlllll阅读 1.2k

Anaconda安装教程以及Anaconda和pip配置国内镜像

遗失的美好灬阅读 5.8k

科学计算编程涉及到的技术栈简介

冒泡的马树阅读 3.3k评论 1

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

universe_king阅读 3k

Python3 格式化时间（qbit）

qbit赞 1阅读 2.7k

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

TANKING阅读 2.2k

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

universe_king阅读 2k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。