linux - 安装OpenCC(简体繁体转换) - 数据分析

最近使用中文维基百科数据训练Word2Vec时，发现数据里面包含了很多繁体字，这就很尴尬了。这时候就知道OpenCC的强大了。哈哈，本来打算直接使用python里面的opencc模块的，但是在安装，编译opencc时遇到了各种错误。花费了很长时间，终于安装成功，但是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC，处理的效率着实安慰了我受伤的心 -- 很快，特别快。
好啦，接下来总结下OpenCC的安装方法，万一以后又用到它了呢？主要参考这篇博客：

检查下linux环境下是否已经安装cmake以及git，如果没有，那就通过yum安装好。

$ yum install cmake
$ yum install git

克隆下OpennCC开源项目OpennCC开源项目。

$ git clone https://github.com/BYVoid/OpenCC

编译OpenCC

$ cd OpenCC
$ make
$ make install

创建libopencc.so.2链接

如果不知道libopencc.so.2的路径，可以通过find / -name libopencc.so.2查找。

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

通过查看 OpenCC 版本，检查OpenCC是否已经安装成功

$ opencc --version

测试用例

# 繁体转简体
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s
欧几里得 西元前三世纪的希腊数学家
# 简体转繁体
$ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t
歐幾里得 西元前三世紀的希臘數學家
# 可以通过以下方式直接对文件进行繁简转换
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

linux - 安装OpenCC(简体繁体转换)

xiao蜗牛

引用和评论

理解偏倚和方差权衡

rocky linux 使用记录

快捷键打开某个窗口(如网页chatGPT)

但是，I/O多路复用中是如何判断文件“可读”/“可写”的？

麒麟系统中theia终端崩溃问题排查小记

【笔记】CentOS 7 中配置 YUM

Proxmox VE 8.4 显卡直通完整指南：NVIDIA 2080 Ti 实战