講義資料

Download Report

Transcript 講義資料

自然言語処理2007(補講)
平成20年1月16日
東京工科大学
コンピュータサイエンス学部
亀田 弘之
各種ツールの紹介
形態素解析ツール
• Juman
• Chasen
構文解析ツール
• knp
その他のツール
• Chaki
• Himawari + Edamame
デモ
• Juman
– コスト最小法
Jumanの辞書・文法
• 形態素辞書:
– ConnectW.dic など
自立語:3万語,付属語:1500語,固有名詞:3万語
• 文法辞書:
– JUMAN.grammar(品詞分類)
– JUMAN.katuyou(活用)
– JUMAN.kankei(活用関係)
– JUMAN.connect.c(連接規則)
• 上記のものをコンパイルする.
– jumandic.tab(連接対応表)
– jumandic.mat(連接行列)
– jumandic.dat(データベース)
– jumandic.pat(インデックス)
辞書エントリの追加方法
1. Juman\dic にファイル usr.dic を作成.
2. その中に,以下の情報を記載する.
(名詞 ( 普通名詞 ( (読み じんぎすかん)
( 見出し語 ジンギスカン
じんぎすかん 成吉思汗)
)
)
)
3. Juman\dic 下にある makedic.bat を実行.
デモ
• knp
デモ
• Chasen
– 出力フォーマットの変更
– 辞書エントリの追加 などができる
(詳しくはマニュアルを読んでください.)
デモ
• Cabocha
デモ
• ひまわり
おまけ
• 未知語獲得システム UWAS
• 日本語文法獲得システム USRAS