3
摘要:自然语言理解是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题。之前写过一篇文章自然语言理解,介绍了当时NLU的系统方案,感兴趣的可以再翻一番,里面介绍过的一些内容不再赘述。本文详细讨论了自然语言理解的难点,并进一步针对自然语言理解的两个核心问题,详细介绍了规则方法和深度学习的应用。
  1. 引言

自然语言理解是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题。维基百科有如下描述[1]:

Natural language understanding (NLU) is a subtopic of natural language
processing in artificial intelligence that deals with machine reading
comprehension. NLU is considered an AI-hard problem.

对于AI-hard的解释如下:

In the field of artificial intelligence, the most difficult problems
are informally known as AI-complete or AI-hard, implying that the
difficulty of these computational problems is equivalent to that of
solving the central artificial intelligence problem—making computers
as intelligent as people, or strong AI.

简言之,什么时候自然语言能被机器很好的理解了,strong AI也就实现了~~

之前写过一篇文章自然语言理解,介绍了当时NLU的系统实现方案,感兴趣的可以再翻一番,里面介绍过的一些内容不再赘述。那篇文章写于2015年底,过去一年多,技术进展非常快,我们的算法也进行了大量升级,核心模块全部升级到深度学习方案。本文主要结合NUI平台中自然语言理解的具体实现,详细的、系统的介绍意图分类和属性抽取两个核心算法。如下图所示,第一个框中是意图分类,第二个框中是属性抽取。

clipboard.png

对于整个NUI平台的介绍可以参考孙健/千诀写的从“连接”到“交互”—阿里巴巴智能对话交互实践及思考。

  1. 自然语言理解的难点

为什么自然语言理解很难?本质原因是语言本身的复杂性。自然语言尤其是智能语音交互中的自然语言,有如下的5个难点:

一. 语言的多样性

一方面,自然语言不完全是有规律的,有一定规律,也有很多例外;另一方面,自然语言是可以组合的,字到词,词到短语,短语到从句、句子,句子到篇章,这种组合性使得语言可以表达复杂的意思。以上两方面共同导致了语言的多样性,即同一个意思可以有多种不同的表达方式,比如:

  1. 我要听大王叫我来巡山
  2. 给我播大王叫我来巡山
  3. 我想听歌大王叫我来巡山
  4. 放首大王叫我来巡山
  5. 给唱一首大王叫我来巡山
  6. 放音乐大王叫我来巡山
  7. 放首歌大王叫我来巡山
  8. 给大爷来首大王叫我来巡山

二. 语言的歧义性

在缺少语境约束的情况下,语言有很大的歧义性,比如:

  1. 我要去拉萨

(1)火车票?

(2)飞机票?

(3)音乐?

(4)还是查找景点?

三. 语言的鲁棒性

语言在输入的过程中,尤其是通过语音识别转录过来的文本,会存在多字、少字、错字、噪音等等问题,比如:

  1. 错字

(1)大王叫我来新山

  1. 多字

(2)大王叫让我来巡山

  1. 少字

(3)大王叫我巡山

  1. 别称

(4)熊大熊二(指熊出没)

  1. 不连贯

(5)我要看那个恩花千骨

  1. 噪音

(6)全家只有大王叫我去巡山咯

四. 语言的知识依赖

语言是对世界的符号化描述,语言天然连接着世界知识,比如:

  1. 大鸭梨

(1)除了表示水果,还可以表示餐厅名

  1. 七天

(2)除了表示时间,还可以表示酒店名

  1. 总参

(3)除了表示总参谋部,还可以表示餐厅名

  1. 天气预报

(4)还是一首歌名

  1. 晚安

(5)这也是一首歌名

五. 语言的上下文

上下文的概念包括很多内容,比如:

  1. 对话上下文
  2. 设备上下文
  3. 应用上下文
  4. 用户画像
  5. ...

U:买张火车票

A:请问你要去哪里?

U:宁夏

这里的宁夏是指地理上的宁夏自治区

U:来首歌听

A:请问你想听什么歌?

U:宁夏

这里的宁夏是指歌曲宁夏

  1. 意图分类的实现方法

意图分类是一种文本分类。主要的方法有:

  1. 基于规则(rule-based)

(1)CFG

(2)JSGF

(3)……

  1. 传统机器学习方法

(1)SVM

(2)ME

(3)……

  1. 深度学习方法

(1)CNN

(2)RNN/LSTM

(3)……

3.1 基于规则的方法

这里重点介绍基于CFG的方法[2],该方法最早出现于CMU Phoenix System中,以下是一个飞机票领域的示例:

clipboard.png

按照上面的文法,对于“从北京去杭州的飞机票”,可以展成如下的树:

clipboard.png

3.2 基于传统统计的方法

我们在第一版的系统中,采用的基于SVM的方法,在特征工程上做了很多工作。第二版中切换到深度学习模型后,效果有很大提升,此处略过,直接介绍深度学习方法。

3.3 基于深度学习的方法

深度学习有两种典型的网络结构:

  1. CNN(卷积神经网络)
  2. RNN(循环神经网络)

基于这两种基本的网络结构,又可以衍生出多种变形。我们实验了以下几种典型的网络结构:

  1. CNN [3]
  2. LSTM [4]
  3. RCNN [5]
  4. C-LSTM [6]

从实验结果来看,简单的CNN的效果最好,其网络结构如下:

clipboard.png

单纯的CNN分类效果无法超越复杂特征工程的SVM分类器,尤其是在像音乐、视频等大量依赖世界知识的领域中。比如怎么把如下的世界知识融入到网络中去:

clipboard.png

这背后更大的背景是,深度学习在取得巨大成功后,慢慢开始显露出瓶颈,比如如何表示知识、存储知识,如何推理等。其中一个探索方向就是试图把联结主义和符号主义进行融合。纯粹的基于联结主义的神经网络的输入是distributed representation,把基于符号主义的symbolic representation融合到网络中,可以大大提高效果,比如:

clipboard.png

  1. 属性抽取的实现方法

属性抽取问题可以抽象为一个序列标注问题,如下例:

clipboard.png

  1. 基于规则(rule-based)

(1)Lexicon-based

(2)CFG

(3)JSGF

(4)……

  1. 传统机器学习方法

(1)HMM

(2)CRF

(3)……

  1. 深度学习方法

(1)RNN/LSTM

(2)……

4.1 基于规则的方法

这里主要介绍基于JSGF(JSpeech Grammar Format)的方法:

JSGF is a BNF-style, platform-independent, and vendor-independent textual representation of grammars for use in speech recognition.

其基本的符号及其含义如下:

clipboard.png

比如对于如下的示例:

clipboard.png

可以展开成图:

clipboard.png

对于“帮我打开空调”,其在图中的匹配路径如下:

clipboard.png

匹配到这条路径后,可以根据标签,把“空调”抽取到device这个属性槽上。

4.2 基于传统统计的方法

经典算法为CRF,略过。

4.3 基于深度学习的方.

用于序列标注的深度学习模型主要有[7]:

  1. RNN
  2. LSTM
  3. Bi-LSTM
  4. Bi-LSTM-Viterbi
  5. Bi-LSTM-CRF

也有一些多任务联合训练的模型,比如[8]、[9]。

在我们的系统中,采用的是Bi-LSTM-CRF模型:

clipboard.png

同样的,在input上,将distributed representation和symbolic representation做了融合。

  1. 小结

在实际的系统中,基于规则的方法和基于深度学习的方法并存。基于规则的方法主要用来快速解决问题,比如一些需要快速干预的BUG;基于深度学习的方法是系统的核心。


拓端tecdat
195 声望48 粉丝