Bash 中的自然语言处理

发布于 2025-07-27

主要观点：使用 Bash 实现一个工具链，利用n-gram 语言模型生成类似文本语料库的随机散文。
关键信息：

介绍了 NLP 相关概念及工具链，包括从获取bash-textgen/文件夹到文本预处理（如分词、数据清理）、训练（如训练n-gram 语言模型）、文本生成（从给定初始词生成句子）等过程。
以《白鲸记》为例，展示了通过计算 bigrams、trigrams 等进行文本生成的过程，如从“the”“man”“a man”“by falling”“one moment”等初始词生成的散文。
提供了获取工具链使用和代码的链接https://github.com/massimo-nazaria/bash-textgen，以及学习如何组合多个命令的相关文章https://massimo-nazaria.github.io/unix-philosophy.html。
重要细节：
words.sh进行文本转换，包括将输入文本转为小写、去除非字母字符等。
ngrams.sh用于计算n-grams，如ngrams.sh 2计算 bigrams，ngrams.sh 3计算 trigrams。
textgen.sh根据给定的n-grams 和初始词生成文本，通过获取起始词的 bigrams 并随机打乱，选择第一个 bigram 的第二个词作为下一个词，重复此过程直到遇到句号或无下一个词。

阅读 67