异端审判器!一个泛用型文本聚类模型的实现(2)

2019-01-15
阅读 5 分钟
3.1k
前文中我们已经定义好了一些必要概念,并写出了函数实现。我们的程序递进地量化了字符之间的差异、字符串之间的差异,最终得到了字符串集合之间的差异。有了这项指标,我们就能完成分拣工作。

异端审判器!一个泛用型文本聚类模型的实现(1)

2018-09-29
阅读 4 分钟
4.8k
如果给你一大堆用户输入,里面有大量的中文地名,像是“北京”、“成都”、“东莞”,不幸的是,其中也混有一些罗马地名,比如 “Singapore”、“New York”、“Tokyo”。你的任务是将它们分开,你会如何去做?