一行命令让ElasticSearch支持中文分词搜索

2016-03-25
阅读 2 分钟
17.4k
相信大家在开发博客,在线商城的时候会涉及到搜索功能。而近几年火起来的 ElasticSearch(ES)凭借其稳定、可靠、快速的实时搜索普遍受到大家的好评,连 Github、SoundCloud 也都将 ES 作为其核心搜索组件。

玻森新闻自动摘要算法介绍

2016-01-07
阅读 2 分钟
8.5k
自动摘要(或摘要技术Automatic Summarization),顾名思义,是指从单篇或者多篇文章中,摘取要点来概括文章大意的技术。它在机器学习和数据挖掘中有着重要的地位。

11款开放中文分词引擎大比拼

2015-11-09
阅读 4 分钟
22.5k
在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。一提到自动分词,通常会遇到两种比较典型...

BosonNLP分词技术解密

2015-10-22
阅读 2 分钟
10.9k
在九月初BosonNLP全面开放了分词和词性标注引擎以后,很多尤其是从事数据处理和自然语言研究的朋友在试用后很好奇,玻森如何能够做到目前的高准确率?希望这篇文章能够帮助大家理解玻森分词背后的实现原理。