Oct 20, 2005

kakasiとchasen

全文検索システム「namazu」に使われる、kakasiのコマンドラインの例が『Debian辞典』に載っていて面白そうなのでやってみた。
検索するときのindex形式には、品詞分解や、ひらがら化が必須だと思う。
-JHは漢字をひらがなに、-fはルビをブラケットに入れて表示する。ルビは固有名詞などはうまくいかない場合もあるが、いろいろ利用できそうである。

shimirin@debian:~$ echo "日本語環境の設定" | kakasi -JH -w -f
日本語環境[にほんごかんきょう] の 設定[せってい]


chasenは品詞分解をする。

shimirin@debian:~$ echo "立体などがきれいに映る。" | chasen
立体 リッタイ 立体 名詞-一般
など ナド など 助詞-副助詞
が ガ が 助詞-格助詞-一般
きれい キレイ きれい 名詞-形容動詞語幹
に ニ に 助詞-副詞化
映る ウツル 映る 動詞-自立 五段・ラ行 基本形
。 。 。 記号-句点
WriteBacks
TrackBack ping me at
http://www.haizara.net/~shimirin/blosxom/blosxom.cgi/computer/linux/20051020234553.trackback
Post a comment

writeback message: Ready to post a comment.













Captcha:
To prevent comment spam, please retype the characters in this image:

Enter the text here: