统计语言模型浅谈

2017-06-01
阅读 8 分钟
6.8k
统计语言模型(Statistical Language Model)即是用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。统计语言模型对于复杂的大规模自然语言处理应用有着非常重要的价值,它能够有助于提取出自然语言中的内在规律从而提高...

基于 Python 的简单自然语言处理实践

2017-04-08
阅读 11 分钟
5.4k
20 Newsgroup 数据集包含了约 20000 篇来自于不同的新闻组的文档,最早由 Ken Lang 搜集整理。本部分包含了对于数据集的抓取、特征提取、简单分类器训练、主题模型训练等。本部分代码包括主要的处理代码封装库与基于 Notebook 的交互示范。我们首先需要进行数据抓取:

机器学习、深度学习与自然语言处理领域推荐的书籍列表

2017-03-07
阅读 5 分钟
7k
机器学习、深度学习与自然语言处理领域推荐的书籍列表 是笔者 Awesome Reference 系列的一部分;对于其他的资料、文章、视频教程、工具实践请参考面向程序猿的数据科学与机器学习知识体系及资料合集。本文算是抛砖引玉,笔者最近有空就会在 Pad 上面随手翻阅这些书籍,希望能够了解其他优秀的书籍。