TextGrocery,更好用的文本分类Python库

2015-01-12
阅读 2 分钟
9.8k
古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM -- 支持向量机。 但是纵然知道了天机,新手做文本分类仍然需要学习不少东西,例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物,更有种高射炮打蚊子的异样感。 有没有可能把最好的文本...

LibShortText简要入门

2015-01-07
阅读 3 分钟
6.5k
LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: - 支持多分类 - 直接输入文本,无需做特征向量化的预处理 - 二元分词(Bigram),不去停顿词,不做词性过滤 - 基于线性核SVM分类器(参见SVM原理简介:最大间隔分类器),训...