拼写纠正系列
java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!
单词拼写纠正-03-leetcode edit-distance 72.力扣编辑距离
NLP 开源项目
前言
大家好,我是老马。
下面学习整理一些其他优秀小伙伴的设计、论文和开源实现。
感受
这一篇和我的理念很类似,其实就是汉字的三个部分:音 形 义
TODO: 不过目前义这个部分我做的还比较弱,考虑添加一个关于单个字/词的解释词库。
论文+实现
论文地址: https://arxiv.org/pdf/2105.12306v1
源码地址:https://github.com/DaDaMrX/ReaLiSe
摘要
中文拼写检查(CSC)旨在检测和修正用户生成的中文文本中的错误字符。
大多数中文拼写错误是由于语义、语音或图形上相似的字符被误用。
以往的研究注意到这一现象,并尝试利用相似关系来完成这项任务。
然而,这些方法要么依赖启发式规则,要么使用手工制作的混淆集来预测正确的字符。本文提出了一种名为REALISE的中文拼写检查器,直接利用中文字符的多模态信息。
REALISE模型通过以下两个步骤解决CSC任务:
(1)捕捉输入字符的语义、语音和图形信息;
(2)选择性地混合这些模态的信息来预测正确的输出。在SIGHAN基准测试上的实验结果表明,所提出的模型显著优于强基线模型。
1 引言
中文拼写检查(CSC)任务旨在识别错误字符并生成候选修正。
由于其在搜索查询修正(Martins和Silva,2004;Gao等,2010)、光学字符识别(OCR)(Afli等,2016)、自动作文评分(Dong和Zhang,2016)等基本且广泛的应用中起到重要作用,因此受到了大量研究关注。近年来,由于大规模预训练语言模型的成功(Devlin等,2019;Liu等,2019;Yang等,2019),该任务取得了迅速的进展(Zhang等,2020;Cheng等,2020)。
在像英语这样的字母语言中,拼写错误通常是由于一个或多个字符错误,导致写出的单词不在字典中(Tachibana和Komachi,2016)。然而,在中文中,只要字符能够在计算机系统中输入,它们就被认为是有效的,这导致拼写错误实际上是在计算机语言处理中被误用的字符。考虑到汉字的构成,其中一些字符最初是象形字或形声字(Jerry,1988)。因此,在中文中,拼写错误不仅是语义上混淆的误用字符,还可能是语音或图形上相似的字符(Liu等,2010,2011)。表1展示了两个中文拼写错误的例子。第一个例子中,“平”(flat)所需的语音信息可以帮助我们得到正确的字符“瓶”(bottle),因为它们共享相同的发音“píng”。第二个例子不仅需要语音信息,还需要错误字符“轻”(light)的图形信息。正确的字符“经”(go)与“轻”具有相同的右部偏旁,并且发音相似(“qīng”和“jīng”)。
因此,考虑到中文的内在特性,在CSC任务中,充分利用中文字符的语音和图形知识,以及文本语义是至关重要的。
表1:中文拼写错误的两个示例及其候选修正
类型 | 示例句子 | 错误候选 | 正确候选 | 翻译 |
---|---|---|---|---|
语音相似错误 | 晚饭后他递给我一平(píng, flat)红酒。 | 晚饭后他递给我一杯(bēi, cup)红酒。 ✗ | 晚饭后他递给我一瓶(píng, bottle)红酒。 ✓ | He handed me a bottle of red wine after dinner. |
图形相似错误 | 每天放学我都会轻(qīng, light)过这片树林。 | 每天放学我都会路(lù, pass)过这片树林。 ✗ | 每天放学我都会经(jīng, go)过这片树林。 ✓ | I go through this wood every day after school. |
在表格中,"Sent." 是指示原句,"Cand." 是候选修正,"Trans." 是英文翻译。错误字符、候选字符和正确字符在颜色上有所区分:错误字符为红色,候选字符为橙色,正确字符为蓝色。
在本文中,我们提出了REALISE(阅读、听力和视觉),一种中文拼写检查器,它利用语义、语音和图形信息来纠正拼写错误。REALISE模型采用了三个编码器来学习文本、语音和视觉模态的有用表示。首先,BERT(Devlin et al., 2019)作为语义编码器的骨干,用于捕捉文本信息。对于语音模态,我们使用汉语拼音(pinyin),即中文字符发音的拼音化拼写系统,作为语音特征。我们设计了一个分层编码器来处理拼音字母,在字符级别和句子级别上分别进行处理。与此同时,对于视觉模态,我们通过多通道的字符图像来构建图形特征,每个通道对应一种特定的中文字体。然后,我们使用ResNet(He et al., 2016)块对这些图像进行编码,从而得到字符的图形表示。
在获得三种不同模态的表示后,一个挑战是如何将它们融合为一个紧凑的多模态表示。为此,我们设计了一个选择性模态融合机制,用于控制每种模态的信息流向混合表示的程度。此外,鉴于预训练-微调程序已经被证明在各种NLP任务中有效(Devlin et al., 2019; Dong et al., 2019; Sun et al., 2020),我们提出通过在对应模态中预测正确字符来预训练语音和图形编码器。
我们在SIGHAN基准数据集(Wu et al., 2013; Yu et al., 2014; Tseng et al., 2015)上进行了实验。通过利用多模态信息,REALISE大幅超越了所有之前的最先进模型。与之前使用混淆集(Lee et al., 2019)来捕获字符相似性关系的方法(如SOTA SpellGCN(Cheng et al., 2020))相比,REALISE在检测级别和修正级别的F1值分别提高了平均2.4%和2.6%。进一步的分析表明,我们的模型在处理那些未在手工混淆集中定义的错误时表现更好。这表明,利用中文字符的语音和图形信息能更好地捕捉易被误用的字符。
总之,本文的贡献包括:
(i) 我们提出在中文拼写检查任务中除了文本语义外,还利用中文字符的语音和图形信息;
(ii) 我们引入了选择性融合机制来整合多模态信息;
(iii) 我们提出了语音和视觉预训练任务,进一步提升模型性能;
(iv) 据我们所知,所提出的REALISE模型在SIGHAN中文拼写检查基准测试中取得了最佳结果。
2 相关工作
2.1 中文拼写检查
中文拼写检查(CSC)任务是检测和纠正中文句子中的拼写错误。
早期的研究设计了各种规则来处理不同类型的错误(Chang 等, 2015;Chu 和 Lin, 2015)。
随后,传统的机器学习算法被引入到该领域,如条件随机场(Conditional Random Field)和隐马尔可夫模型(Hidden Markov Model)(Wang 和 Liao, 2015;Zhang 等, 2015)。随后,基于神经网络的方法在中文拼写检查中取得了显著进展。
Wang 等(2018)将 CSC 任务视为序列标注问题,并使用双向 LSTM 来预测正确的字符。
随着大规模预训练语言模型(如 BERT(Devlin 等, 2019))的成功,Hong 等(2019)提出了 FASpell 模型,该模型使用基于 BERT 的去噪自编码器来生成候选字符,并利用一些经验度量来选择最可能的候选字符。
此外,Soft-Masked BERT 模型(Zhang 等, 2020)采用级联架构,其中 GRU 用于检测错误位置,BERT 用于预测正确的字符。
一些先前的工作(Yu 和 Li, 2014;Wang 等, 2019;Cheng 等, 2020)使用手工制作的中文字符混淆集(Lee 等, 2019),旨在通过发现易错字符的相似性来纠正错误。
Wang 等(2019)利用指针网络(Vinyals 等, 2015)从混淆集中选择正确的字符。
Cheng 等(2020)提出了 SpellGCN 模型,该模型通过图卷积网络(GCNs)(Kipf 和 Welling, 2016)在混淆集上建模字符相似性。
然而,字符混淆集是预定义且固定的,无法覆盖所有的相似关系,也无法区分中文字符之间的相似性差异。
在本工作中,我们摒弃了预定义的混淆集,直接利用多模态信息来发现所有中文字符之间微妙的相似关系。
图1:REALISE模型的架构概览。语义、语音和图形编码器分别用于捕捉文本、声音和视觉模态的信息。融合模块选择性地融合来自三个编码器的信息。
在示例输入中,为了纠正错误字符“轻”(qīng,轻),我们不仅需要上下文的文本信息,还需要该字符本身的语音和图形信息。
2.2 多模态学习
近年来,许多研究致力于整合来自不同模态的信息,以提高性能。
例如,多模态情感分析(Zadeh 等人,2016;Zhang 等人,2019)、视觉问答(Antol 等人,2015;Chao 等人,2018)和多模态机器翻译(Hitschler 等人,2016;Barrault 等人,2018)等任务已经取得了很大进展。
最近,提出了多模态预训练模型,如 VL-BERT(Su 等人,2020)、Unicoder-VL(Li 等人,2020)和 LXMERT(Tan 和 Bansal,2019)。
为了将汉字的视觉信息融入语言模型,Meng 等人(2019)设计了 Tianzige-CNN,以促进一些自然语言处理任务,如命名实体识别和句子分类。
据我们所知,本文是首个利用多模态信息来解决中文拼写检查任务的研究。
3 REALISE 模型
在本节中,我们介绍了 REALISE 模型,该模型利用语义、语音和图形信息来区分汉字的相似性并纠正拼写错误。
如图 1 所示,首先采用多个编码器从文本、声音和视觉模态中捕获有价值的信息。
然后,我们开发了一个选择性模态融合模块,以获得上下文感知的多模态表示。最后,输出层预测错误修正的概率。
3.1 语义编码器
我们采用 BERT(Devlin 等人,2019)作为语义编码器的骨干。
BERT 提供了丰富的上下文词表示,并在大规模语料上进行了无监督预训练。
其中,L 是 Transformer 层的数量。每一层由一个多头注意力模块和一个带有残差连接(He 等人,2016)以及层归一化(Ba 等人,2016)的前馈网络组成。
最后一层的输出被用作输入标记在文本模态中的上下文化语义表示。
3.2 语音编码器
汉语拼音(pinyin)是将汉字“拼音化”的拼音系统,用于表示汉字的发音。我们在本文中使用拼音来计算语音表示。
一个汉字的拼音由三个部分组成:声母、韵母和声调。声母(共 21 个)和韵母(共 39 个)用英语字母表示。5 种声调(以“a”字母为例,{a, ¯a, ´a, ˇa, a `})可以映射为数字 {1, 2, 3, 4, 0}。尽管所有汉字的拼音词汇表大小是一个固定数值,但我们在 REALISE 中使用字母序列来捕捉汉字之间细微的语音差异。例如,“中”(中)和“棕”(棕)的拼音分别为“zhong”和“z¯ong”。这两个字符的发音非常相似,但含义完全不同。我们因此将拼音表示为符号序列,例如:“中”的拼音表示为 {z, h, o, n, g, 1}。我们将输入句子中第 i 个字符的拼音表示为 ( p_i = (p_{i,1}, \dots, p_{i,|p_i|}) ),其中 ( |p_i| ) 是拼音 ( p_i ) 的长度。
在 REALISE 中,我们设计了一个层次化的语音编码器,它由字符级编码器和句子级编码器组成。
字符级编码器 用于建模基本发音并捕捉字符之间细微的发音差异。
句子级编码器 是一个 4 层的 Transformer,隐藏层大小与语义编码器相同。
它的目的是为每个汉字获得上下文化的语音表示。由于独立的语音向量在顺序上没有被区分,因此我们预先给每个向量添加了位置嵌入。
然后,我们将这些语音向量组合起来,并应用 Transformer 层来计算音频模态下的上下文化表示。
需要注意的是,由于 Transformer 架构的存在,这种表示也会被归一化处理。
3.3 图形编码器
我们使用 ResNet(He 等人,2016)作为图形编码器。
图形编码器由 5 层 ResNet 模块(记为 ResNet5)组成,后接一层归一化操作(Ba 等人,2016)。
为了有效提取图形信息,ResNet5 中的每个模块都会将图像的宽度和高度减半,同时增加通道数。
因此,最终的输出是一个长度等于输出通道数的向量,即高度和宽度都变为 1。
此外,我们将输出通道数设置为与语义编码器中的隐藏层大小相同,以便后续的模态融合。
由于汉字的书写字体在几千年的演变中不断变化,为了尽可能捕捉字符之间的图形关系,我们选择了三种字体:简体和繁体的黑体字(Heiti)以及小篆。
三种字体对应于字符图像的三个通道,图像大小设置为 32 × 32 像素。
3.4 选择性模态融合模块
在应用了上述的语义、语音和图形编码器之后,我们获得了在文本、语音和视觉模态下的表示向量 ( H_t )、( H_a ) 和 ( H_v )。
为了预测最终的正确汉字,我们开发了一个选择性模态融合模块,将这些来自不同模态的向量进行融合。
该模块在两个层级上融合信息,即字符级和句子级。
首先,对于每种模态,使用选择性门控单元来控制信息流入混合多模态表示的程度。例如,如果一个字符因与正确字符发音相似而拼写错误,那么更多的语音模态信息应该流入混合表示。门控值通过一个全连接层和一个 sigmoid 函数来计算。输入包括三种模态的字符表示以及语义编码器输出 ( H_t ) 的均值,以捕捉输入句子的整体语义。
3.5 声学与视觉预训练
尽管声学和视觉信息对 CSC(中文拼写检查)任务至关重要,同样重要的是如何将这些信息与正确的字符关联。
为了学习声学-文本和视觉-文本之间的关系,我们提出了对语音编码器和图像编码器进行预训练。
对于语音编码器,我们设计了一个输入法预训练目标,即给定输入拼音序列,编码器应该恢复出相应的汉字序列。
这类似于中文输入法的工作方式。我们在编码器顶部添加一个线性层,将隐藏状态转换为汉字词汇表上的概率分布。我们使用训练数据中带有拼写错误的句子的拼音来对语音编码器进行预训练,并使其恢复正确的汉字序列。
对于图像编码器,我们设计了一个光学字符识别(OCR)预训练目标。
给定汉字图像,图像编码器学习视觉信息以预测相应的汉字字符,这类似于 OCR 任务,但我们的识别仅限于字符级别,并且针对的是打印字体。在预训练过程中,我们同样在顶部添加一个线性层以进行分类。
最后,我们加载语义编码器、语音编码器和图像编码器的预训练权重,并使用 CSC 训练数据进行最终的训练过程。
表 2:使用的数据集统计
数据集 | 句子数 | 平均长度 | 错误数 |
---|---|---|---|
SIGHAN13 | 700 | 41.8 | 343 |
SIGHAN14 | 3,437 | 49.6 | 5,122 |
SIGHAN15 | 2,338 | 31.3 | 3,037 |
Wang271K | 271,329 | 42.6 | 381,962 |
总计 | 277,804 | 42.6 | 390,464 |
测试集
数据集 | 句子数 | 平均长度 | 错误数 |
---|---|---|---|
SIGHAN13 | 1,000 | 74.3 | 1,224 |
SIGHAN14 | 1,062 | 50.0 | 771 |
SIGHAN15 | 1,100 | 30.6 | 703 |
总计 | 3,162 | 50.9 | 2,698 |
说明:所有训练数据已合并用于训练 REALISE 模型。测试集则单独用于评估模型的性能。
结论
本文提出了一种名为REALISE的中文拼写检查模型。由于中文拼写错误常常在语义、语音或图形上与正确字符相似,REALISE通过利用文本、声学和视觉模态的信息来检测和纠正这些错误。
REALISE模型通过量身定制的语义、语音和图形编码器来捕获这些模态中的信息。
此外,提出了一种选择性模态融合机制,用于控制这些模态的信息流。
实验结果表明,在SIGHAN基准测试集上,REALISE模型相较于仅使用文本信息的基准模型具有显著优势,这验证了利用声学和视觉信息对中文拼写检查任务的帮助。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。