比较广的算法是计算两遍文章的向量和,大致方式是每个词或者字都是一个向量,然后所有向量相加,看两篇文章结果向量是不是相差不大。举个例子,一个句子“我今天出去玩了”先分词 “我”,“今天”,“出去”,“玩”。第二个句子“我明天不去动物园”分词“我”,“明天”,“不去”,“动物园”。假设向量表示为长度和夹角:我: (1,0)今天: (1,10)出去: (1, 20)玩:(1, 30)明天: (1, 15)不去: (1, 200)动物园: (1, 5)最后把相关向量相加,计算两个结果向量的和大不大。就这个思路,网上找找应该有的。
比较广的算法是计算两遍文章的向量和,大致方式是每个词或者字都是一个向量,然后所有向量相加,看两篇文章结果向量是不是相差不大。
举个例子,一个句子“我今天出去玩了”先分词 “我”,“今天”,“出去”,“玩”。第二个句子“我明天不去动物园”分词“我”,“明天”,“不去”,“动物园”。假设向量表示为长度和夹角:
我: (1,0)
今天: (1,10)
出去: (1, 20)
玩:(1, 30)
明天: (1, 15)
不去: (1, 200)
动物园: (1, 5)
最后把相关向量相加,计算两个结果向量的和大不大。就这个思路,网上找找应该有的。