理解 N 元语法语言模型和困惑度

主要观点:介绍语言模型及其应用,包括增强交流、机器翻译、拼写纠正和语音识别等。探讨语言模型的定义、估计方法(如 N-gram 模型中的 Bigram 模型)、评估方法(外在评估、内在评估、困惑度)以及泛化和零值(稀疏性)问题,还提及未知词<UNK>的处理方式。
关键信息

  • 语言模型设计用于预测序列中接下来可能出现的单词并分配概率。
  • N-gram 模型基于马尔可夫假设,Bigram 模型中概率计算采用最大似然估计法。
  • 评估语言模型有外在、内在和困惑度三种方法,低困惑度表示更好的模型。
  • 训练语料对 n-gram 模型有影响,存在稀疏性问题和零值,未知词用<UNK>表示。
    重要细节
  • 语言模型函数 f(x1, x2,..., xn)满足一定条件,是 V*中句子的概率分布。
  • 计算联合概率时常规方法存在不足,需采用特定假设和方法。
  • 外在评估需将语言模型集成到应用中测量整体性能,计算成本高;内在评估在训练集和测试集分离的情况下评估模型。
  • 泛化时随着 N 值增加模型性能提升,稀疏性导致零值问题影响模型性能和困惑度计算。
  • 处理未知词可将其转换为<UNK>,通过固定或隐式构建词汇表来估计其概率。
阅读 10
0 条评论