可以把将日文汉字转换成平假名、片假名、罗马音的KaKaSi

RDDcoding

KAKASI

了解它!

KAKASI(Kanji Kana Simple Inverter)是语言处理过滤器,可以将 日文汉字 转换成 平假名,片假名或Romaji ,可以 方便阅读日文文本 以及 给日语学习者提供便利

比如把漢字 转换成かんじ/kanji

例子

在命令行中( 我用的是mac的terminal win的不太确定 )

# input.txt
# 漢字
#
% ls
input.txt
% kakasi -JH <input.txt -i utf8 -o utf8
かんじ

获得它!

下载

? 英文主页

? 日文主页

安装

把下载到的压缩包(.tar.gx.tar.xz)解压

% gzip -dc kakasi-2.3.6.tar.gz | tar xvf -

进入到解压出来的文件夹中

% cd kakasi-2.3.6

你可以看到文件夹中有以下内容

% ls
AUTHORS      NEWS        config.guess*  install-sh*       ltmain.sh
COPYING      ONEWS       config.h.in    itaijidict        magic-kakasi
ChangeLog    README      config.rpath*  kakasi-config.in  maintMakefile
INSTALL      README-ja   config.sub*    kakasi.spec       man/
INSTALL-ja   THANKS      configure*     kakasi.spec.in    missing*
Makefile.am  TODO        configure.in   kakasidict        src/
Makefile.in  aclocal.m4  doc/           lib/              tests/

依次输出以下命令就可以完成安装

% ./configure
% make
% su
# make install

确认

如果没有意外,到这里你已经成功安装kakasi

你可以通过以下命令来确认是否安装完毕。

# kakasi -help

它会返回如下一个命令提示

KAKASI - Kanji Kana Simple Inverter  Version 2.3.6
Copyright (C) 1992-1999 Hironobu Takahashi. All rights reserved.

Usage: kakasi -a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]
              -i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}
              -r{hepburn,kunrei} -p -s -f -c"chars"  [jisyo1, jisyo2,,,]

      Character Sets:
       a: ascii  j: jisroman  g: graphic  k: kana (j,k     defined in jisx0201)
       E: kigou  K: katakana  H: hiragana J: kanji(E,K,H,J defined in jisx0208)

      Options:
      -i: input coding system    -o: output coding system
      -r: romaji conversion system
      -p: list all readings (with -J option)
      -s: insert separate characters (with -J option)  -S"chars": set separator
      -f: furigana mode (with -J option)
      -F[rl]"chars": set parentheses around furigana
      -c: skip chars within jukugo (with -J option: default TAB CR LF BLANK)
      -C: romaji Capitalize (with -Ja or -Jj option)
      -U: romaji Upcase     (with -Ja or -Jj option)
      -u: call fflush() after 1 character output
      -t: use old romaji table
      -w: wakatigaki mode
      -{l,L}: level {hiragana,furigana} mode (-{l,L}[123456jn])
      -y: display yomi of each kanji characters

Report bugs to <bug-kakasi@namazu.org>.

用它!

使用kakasi的一个问题是,它没有提供官方文档,网络上提供链接也基本失效,不过花了一番功夫还是找到了一个能用的文档,大家若想了解更多可以阅读。

? 我也只是刚刚接触kakasi,更多使用方法,欢迎大家评论留言交流。

基本格式

kakasi 转换格式 <入口文件 >出口文件 输入输出编码设置

例子

kakasi -Ja <input.txt -i utf8 -o utf8
# 将会在命令行中返回转换结果
kakasi -JH <input.txt >output.txt -i utf8 -o utf8
# 转换结果会保持到output.txt中

转换格式设置

-a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]
Character Sets:
    a: ascii  j: jisroman  g: graphic  k: kana (j,k     defined in jisx0201)
    E: kigou  K: katakana  H: hiragana J: kanji(E,K,H,J defined in jisx0208)
    

常用的设置

  • -JH 汉字转平假名( kanji -> hiragana ) || 漢字 转换成かんじ

  • -Ja 汉字转罗马音( kanji -> ascii(roman) ) || 漢字 转换成kanji

  • -JK 汉字转片假名( kanji -> katakana ) || 漢字 转换成カンジ

  • -HK 平假名转片假名(hiragana -> katakana) || かんじ转换成カンジ

入口、出口文件设置

<input.txt

将"input.txt"作为输入文件

>output.txt

以"output.txt"为输出文件

输入输出编码设置

-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}

其他工具:
日文文本分析最强王者——Kuromoji

阅读 31.6k

RDD的代码背包
前端,游戏,嵌入式

RDD = real deep dark

130 声望
16 粉丝
0 条评论

RDD = real deep dark

130 声望
16 粉丝
文章目录
宣传栏