基本概念
- 自然语言理解, NLU, Understanding
形式化(标准化)的数学符号、模型, 模拟人的语言能力
- 计算语言学, Computational Linguistics
数学模型
- 自然语言处理, NLP
更宽泛的概念。
利用计算机, 对人类的书面和口头形式的自然语言的信息进行处理和加工
- 语言
一个符号系统, 意义(知识) + 规则(语法)
- 第一系统 --- 语音系统 Sound System
第二系统 --- 文字系统(书写系统) Writing System
- 口头语和书面语
- 语言和言语
- 语言单位
单个字符, 词(word), 短语(Phrase), 句子(Sentence), 语段, 篇章(Utterence)
- 自然语言的作用
思维的载体, 交流的工具
人类历史以语言文字形式记载和流传的只是占总量的 80% 以上, 图表占的比例很小
- 基本问题
如何让计算机具有语言处理的能力,如何让计算机实现自动的或人机互助的语言处理功能
如何利用计算机处理海量的语言信息,自动处理,知识挖掘,有效利用
- 学科特点 --- 交叉性学科
语言学:形式语言文法,词典、语料库(标注、分词等)、知识库
数学:概率论、统计学、信息论,自动机、Markov模型、HMM模型
计算机科学:自动机器学习,自动人工智能,状态空间的图搜索算法
心理语言学:研究人类理解自然语言的机制
- 语言学基本知识:语言研究的基本范畴
例子
- 英汉翻译
Miss Smith put two books on this table
-
形态分析
词形还原, Lemmatization, 变成原型
词汇符号化, Tokenization, 相当于中文分词
Miss Smith put
语法分析, Syntac, 主谓宾, 语音合成, 读的时候的节奏变化
[Miss Smith] [put] [two books] [on the table]
词汇转换(单词转换)
短语转换(语序转换)
优化
自然语言处理研究的不同层次
- 应用系统(数字图书馆,电子商务,电子政务,自助服务,语言学习)
- 应用技术研究(自动问答,机器翻译,信息检索,文本挖掘,自动校对,信息抽取)
- 基础研究(分词,标注,切分)
- 资源建设
- 语言学知识库建设
自然语言处理的应用
- 基于文本的应用
关键词(同近义词,模糊,自动理解自然语言)搜索引擎
翻译
自动文摘,消息抽取
- 基于对话的应用:
问答系统
教学系统
问题
- 机器能处理自然语言,但机器能理解自然语言吗
- 结构主义,理性主义:理解语言的步骤,但人自己可能也说不清自己理解语言的步骤
经验主义,功能主义:机器的表现与人相同
图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能
困难
-
歧义 ambiguity
语义,结构,词法,语音
《施氏食狮史》
石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。 - 大量位置语言现象
新的词汇,术语,含义,用法,结构
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。