1
头图

自然语言处理(Nature Language Processing,NLP)被誉为“人工智能技术皇冠上的明珠”,一方面表明了它的重要性,另一方面也显现出了它的技术难度。但NLP并不像语音识别、图像识别等人工智能技术一样为人熟知,接下来的5分钟,我们来快速了解NLP技术,感受它的魅力。

NLP是与自然语言的计算机处理有关的技术统称,为了更好地理解,我们把“自然语言处理”拆分成为两部分:
1、自然语言——人和人之间书面或口语交流的形式
2、处理——计算机对数据进行理解和分析
换言之,自然语言处理就是让计算机理解人类语言,并进行相应的分析。
我们所熟知的苹果Siri、微软小冰,就是自然语言处理的典型的应用,他们不仅能够理解我们所说的话,还能够针对性地做出反馈。


先说结论:为了更加轻松、美好的生活。
举一个简单的例子,当我们需要让计算机处理某个问题或者实现某个功能,需要输入计算机能够理解的指令,也就是代码。
全世界知名度最高的代码莫过于“Hello World”,我们想让计算机“打印Hello World”,就需要用计算机理解的语言对它下达指令:

include <stdio.h>

int main()

{

printf("Hello, World! \n");

return 0;

}

而自然语言处理就是把人类的语言和文本转换成为机器能够理解的数据,再将机器对数据解析出来的结果转换成为人类的语言和文本,弥补机器和人类之间的差距,帮助人们更高效地解决问题。
首先举一个例子来理解利用NLP带来的【高效】。
搜索是我们平时获取信息的重要途径,但往往现有的搜索引擎很难第一时间满足我们的信息需求。

例如,想要查询“微信MAU有多少”,我们得到的往往是下图这样需要耗费大量时间去逐个二次查找的链接,甚至一番查找过后,仍然得不到需要的准确信息。

而利用NLP技术的智能搜索通过理解人类语言和文本,在信息获取需求和海量数据信息之间,能够架起一座直达的桥梁。
虎博搜索就是这样一款基于语义理解的下一代搜索引擎,区别于已经延续了20年的基于关键词匹配的上一代搜索引擎,虎博搜索可以理解自然语言的搜索意图,并且返回直观的结构化搜索结果,实现问答式的搜索体验。
搜索同样的问题,得到的就是通过语义搜索提取到的腾讯财报中的准确数据——12.061亿(微信及Wechat的合并月活跃账户数)。

在一键获取有效结果的背后,是NLP技术的综合应用,机器需要理解查询的意图,知道微信这个实体从属于哪家公司,明白MAU所指代的具体含义,再将腾讯财报中非结构化的数据转化成为结构化的数据呈现出来。
一键获取核心财经数据及行业分析,体验不一样的问答式搜索,可登陆虎博搜索PC版(search.tigerobo.com)。


这种高效具体是如何实现的呢?首先我们要明确,既然自然语言处理要解决的是人类和机器的沟通障碍,那它就需要达成两个目标:
1、让计算机听得懂“人话”——即NLU自然语言理解,让计算机具备人类的语言理解能力

2、让计算机能够“讲人话”——即NLG自然语言生成,让计算机能够生成人类理解的语言和文本,比如文章、报告、图表等等

然而,不可否认的是,尽管Google I/O大会上的Google Assistant宣称已经通过了图灵测试,但是离机器真正理解人类语言仍有很长的距离。
但在NLPer们的埋头苦干之下,机器已经能够逐步理解人类的语言和文本,并帮助人们处理实际问题。
把人类的文本拆解来看,可以理解为词、句、关系的组合,要让机器理解人类语言和文本,首先要让机器对文本进行拆解分析,以下是现阶段常用的重要算法:
1、词法分析

首先是对词和词组的分析,包括分词处理、词性标注、命名实体识别等。

分词处理,将多种语言的文字序列切分成有意义的词或词组。

词性标注,对分词后的每个独立单词进行词性判断并标注。

命名实体识别,从输入信息中自动识别出命名实体,如姓名、时间、地点以及机构等。
2、句法依存分析
词法分析过后,通过词汇之间的依存关系来拆解整个句子结构,依存关系表达了句子各成分之间的语义依赖关系,比如主谓、动宾、定中等结构关系。

3、关系/知识抽取
句法分析过后,就可以抽取信息中的特定实体之间的关系。例如从属关系、亲属关系、同义关系等。

上图就是利用算法让机器对文本进行理解的例子,经过拆解分析,机器就能够理解“NLP这个实体是从属于人工智能这个学科的研究方向”。
当机器抽取出了人类语言中的关系或知识,进而就可以对语言和文本做更进一步的处理,例如:
1、文本相似度分析
通过对输入的两个文本进行理解和对比,输出文本之间的相似程度。下图是对《证券日报》和《上海证券报》有关腾讯今年二季度业务报道的对比,虽然两篇报道主题相同,但是具体报道内容各有侧重,机器能够识别出来二者内容并不相似。

文本相似度技术在网络内容自动排重、文章关联分析、相似度检索等方面有着良好的应用效果。

2、语义聚类
自动对大量未分类的信息进行聚类,把内容相近的信息归为一类,并自动为该类生成主题词。

上图是对一段时间内有关银行业相关报道的聚类效果,首先将同类型信息归纳在一起,同时生成该类信息的热词:理财、银行、消金等等。语义聚类对于发现新热点、发现新事件等需求有着巨大的辅助作用。可以为专题制作、热点追踪等众多业务场景提供方便。

3、文本摘要
根据输入信息,对其进行理解,精简提炼出核心信息,形成摘要。文本摘要可以方便用户快速预览信息。

下图就是对前文提到的《上海证券报》报道进行的摘要示意,可以看到摘要准确提取到了报道中所重点阐述的净利润的财务指标及微信月活用户数的业务指标。

现阶段NLP技术对文本的处理还有很多,此处只做一小部分举例。

当NLP技术对文本的处理应用综合在一起,就能帮助解决人们在工作和生活场景中的实际问题,现阶段最典型的应用包括智能搜索、智能问答、智能舆情等。
1、智能搜索

诞生了20年的传统搜索引擎,主要基于关键词匹配来提供搜索结果,返回的是一条一条链接,很多时候我们需要一条一条的点开、阅读,才能找到我们所需要的信息。

而使用了NLP技术的下一代搜索引擎,体验更偏向于问答,首先理解用户搜索的真实意图,再对它所理解过的海量信息进行匹配,最终反馈一个精准的结果。这样就能大幅度提高检索数据、信息的效率。

还是以下一代搜索引擎虎博搜索来举例。电商直播可以说是今年最热的风口之一,如果想要了解电商直播的市场规模,查询相关的研究数据,通过虎博搜索即可快速得到。

虎博搜索的底层核心智能搜索技术,还可以应用于企业和机构的具体业务场景中,例如关联关系分析、多重维度对比、风险评估判断、海量文档资讯管理、竞品研究分析、行业研究分析等。

更多NLP技术产品及落地应用案例,可点击阅读原文,或登陆虎博科技官网(tigerobo.com)了解。

2、智能问答

智能问答是智能搜索的另一种应用形态,核心仍然在于理解。区别于传统的关键词匹配及预设问答的系统,智能问答通过理解人类语言和文本,能够有更加精准地回复,并且可以7*24小时在线。可广泛应用于产品业务咨询、服务引导、坐席分流、自动问答、自助查询办理、回访与调研。

3、智能舆情

传统的舆情系统,仍主要基于关键词的匹配对海量舆情进行监测和判定,如果一条资讯或者一则政策中没有事先所设置好的关键词,那就会出现两个结果,一是舆情遗漏,二是需要大量人工核验。

自然地,如果使用了NLP技术,让机器从理解文本含义本身入手进行舆情监测,就能很大程度上减少上述两种情况的发生,以避免由此带来的风险危机和人力浪费。可广泛应用于交易决策参考、风险防控辅助、舆论态势感知、敏感信息预警、竞品跟踪分析、口碑形象管理等。

NLP的技术应用还有很多,以上只做部分举例。NLP技术最大的价值,更在于与实际的业务场景相结合后,带来的服务、产品的创新以及辅助不同领域企业和机构创造出更大的商业价值。在后续的系列文章中,将为大家带来更详尽NLP业务场景价值解读。
当然,NLP技术的落地应用还在不断的拓展和演变,NLP技术也尚处在早期的研发探索阶段,但它是推动人工智能从弱人工智能走向强人工智能的关键突破口,想象一下,当机器真正理解人类的语言和文本,能够思考和推理,并且帮助人们解决人力所无法解决的问题的时候,或许人类就能够在机器的帮助下,更好地解决问题、探索未知。


虎博科技
4 声望1 粉丝