Happinessの歴史と

Download Report

Transcript Happinessの歴史と

Happinessの歴史と
日本語処理のエピソード
(株)平和情報センター
沓澤 尚明
Happiness/BASE4の機能
日本語自然文
分かち書き
キーワード抽出
フリガナ付け
ローマ字化
利用者辞書
利用者ルー
ル
異体字変換
ローマ字ルール
All Rights Reserved, Copyright ©2003 (株)平和情報センター
Happinessのスタート(1982)
DBサービス事業の立ち上げ
新聞記事のディストリビューション
インデキシングの自動化
[課題] 名詞句の抽出
フリガナ付け
カナ端末用にフリガナ・キーワード
(漢字入力不可)
キーワード抽出/フリガナ付けソフトの開発
All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード1
日本語解析の出発点
日本語自然文は文節の連続
文節
文節
文節
文節
Happinessの 歴史と 日本語処理の エピソード
文節
自立語
付属語(群)
自立語は無限(膨大)に存在する。
付属語の解釈により自立語を浮き出すことが出来る。
×字種切り ~ 限界がある
All Rights Reserved, Copyright ©2003 (株)平和情報センター
Happinessの販売開始(1983)
自社DB構築の運用開始
ソフト販売への展開
1983
NHK様への導入
1984
オンラインシステムとの連動
⇒別リージョンでの稼働
(今でいうクラサバ方式)
All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード2
初期のフリガナ付け
単純な文字単位のフリガナ
前後がひらがなのとき訓読み
それ以外は音読み
Happinessのレキシとニチホンショリのエピソード
例外の辞書化
日本▲ニホン
All Rights Reserved, Copyright ©2003 (株)平和情報センター
図書館業務への適用(1985)
国立国会図書館様への導入
[条件]
名詞句の単語分割
HappinessⅡ/BASE V02L10 の開発
All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード3
名詞句の単語分割
日本語処理 ⇒ 日本語/処理
文字数による分解
日本/語処/理、日/本語/処理
接尾辞での基準
日本/語/処理
最終的には国語辞典の取り込み
All Rights Reserved, Copyright ©2003 (株)平和情報センター
Happinessの拡販(1987)
日本語処理ツールとして確立
周辺ソフト(Bride,SuperBride)の提供
販売拡大
図書館(目録作成)
マスコミ(映像情報、アンケート分析、…)
製造業(薬品・自動車・化学…:研究部門)
All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード4
解析手順の変更(V2L30)
文節切断⇒名詞句分割
Happiness/の/歴史/と/日本語処理/の/エピソード
日本語・処理
名詞句確定⇒文節切断
Happinessの歴史と日本語処理のエピソード
名詞
名詞
名詞
名詞
名詞
Happinessの歴史と日本語処理のエピソード
名詞
名詞 /と/日本語・処理
名詞
名詞 /の/エピソード
名詞
Happiness
/の/歴史
付属語判別の精度向上⇒例外用語の大幅な削減
利用者辞書の親和性
All Rights Reserved, Copyright ©2003 (株)平和情報センター
Happinessのオープン化(1995)
ダウンサイジングの流れ
オープン化要求の高まり
1990~
Happiness/BASE3.0 (1995)
クラサバ型制御の導入
Happiness/BASE3.5 (1998)
異体字変換機能
活用判別精度の向上
Happiness/BASE4
Unicode対応
ローマ字化機能
(2001)
All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード5
活用形判別
V美しい▲CFI▲ウツク
美─し─∥─┬─い
├─か─┬─っ───た
│
├─ら─┬─ざ─┬─る
│
├─り ├─ず ├─れ
│
├─れ ├─ぬ └─り───ゃ
├─き │
└─ん
├─く └─ろ───う
├─け─┬─れ
├─げ └─り───ゃ
├─さ
├─す───ぎ
├─そ───う
└─め
All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード6
ローマ字化の手順
2段階の変換処理
1st 変換
撥音(ん)、促音(っ)、長音(ー)は変換しない
メゾンイッコク ⇒ mezoンiッkoku
(めぞん一刻)
2nd 変換
撥音・促音・長音を含めた変換
「ンi」 → 「n’i」
「ッk」 → 「kk」
mezoンiッkoku ⇒ mezon’ikkoku
All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード7
今後の課題
固有名詞の精度向上
姓名
地勢名
●構文からの絞り込み
分類・要約・粗筋
構文解析⇒意味解析
国際化への対応
ハングル ~構文が類似。可能性高い
中国語
etc.
All Rights Reserved, Copyright ©2003 (株)平和情報センター