Bash 中的自然语言处理

主要观点:使用 Bash 实现一个工具链,利用n-gram 语言模型生成类似文本语料库的随机散文。
关键信息:

  • 介绍了 NLP 相关概念及工具链,包括从获取bash-textgen/文件夹到文本预处理(如分词、数据清理)、训练(如训练n-gram 语言模型)、文本生成(从给定初始词生成句子)等过程。
  • 以《白鲸记》为例,展示了通过计算 bigrams、trigrams 等进行文本生成的过程,如从“the”“man”“a man”“by falling”“one moment”等初始词生成的散文。
  • 提供了获取工具链使用和代码的链接https://github.com/massimo-nazaria/bash-textgen,以及学习如何组合多个命令的相关文章https://massimo-nazaria.github.io/unix-philosophy.html
    重要细节:
  • words.sh进行文本转换,包括将输入文本转为小写、去除非字母字符等。
  • ngrams.sh用于计算n-grams,如ngrams.sh 2计算 bigrams,ngrams.sh 3计算 trigrams。
  • textgen.sh根据给定的n-grams 和初始词生成文本,通过获取起始词的 bigrams 并随机打乱,选择第一个 bigram 的第二个词作为下一个词,重复此过程直到遇到句号或无下一个词。
阅读 17
0 条评论