日本語テクスト解析ツールTextImiの概要(第13回慶應イノベーション

Download Report

Transcript 日本語テクスト解析ツールTextImiの概要(第13回慶應イノベーション

2006年9月27日 第13回「慶應イノベーションネットワーク」
日本語テクスト解析ツールTextImiの概要
テクイミ
慶應義塾大学大学院
政策・メディア研究科
中野智仁
[email protected]
09 / 27 / 2006 第13回慶應イノベーションネットワーク
日本語テクスト解析ツール「TextImi」
- 開発経緯
- 2003年より、慶應義塾大学深谷研究室と富士ゼロックス株式会社研究本部との協働により開発
- 21世紀COEプログラム「日本・アジアにおける総合政策学先導拠点 」内の研究プロジェクト
- 特徴
- 「コンピュータは意味を解釈するのではなく、あくまで人間の解釈を支援する」
- 大量のテクストデータからの意味解釈作業を支援するためのテクスト解析ツール
- 主な用途の想定
- 大規模社会調査、ネットマーケティング等
- 2006年にインターネットリサーチ企業の協力を得て、本ツールを用いての試験的な調査を実施
-1
09 / 27 / 2006 第13回慶應イノベーションネットワーク
ログイン画面
システムメニュー・各種アウトプット
-2
09 / 27 / 2006 第13回慶應イノベーションネットワーク
大量テクストを対象とした解析ツールが必要とされる背景
- テクストデータの取得量の爆発的増加
- 1990年代後半よりの一般へのインターネットの普及
- テクスト収集コストの低減と加工しやすいデジタルデータとしての形式
- 参考までに、ネットリサーチの市場規模の変化
「市場調査白書2005年度版」より
社団法人日本マーケティング・リサーチ協会発行
-3
09 / 27 / 2006 第13回慶應イノベーションネットワーク
ネットワーク上のテクストデータを利用した問題発
見・問題解決手法のツールとして
-4
09 / 27 / 2006 第13回慶應イノベーションネットワーク
一般的なテクスト解析ツールの情報抽出手法
- テキストマイニング
- 形態素解析によるキーワード(単語)レベルへのテクストの分解
- テクスト中の単語量の分布、共起頻度等の統計的把握
- テキストマイニングで「意味」の抽出はおこなえるのか?
「スミレの匂いは好きだが、バラは嫌いだ」?
[スミレ]
[好き]
[匂い]
[嫌い]
or
「バラは好きだが、スミレは匂いが嫌いだ」?
or
[バラ]
「匂いは嫌いだが、バラもスミレも好きだ」?
or ・・・
形態素(単語)によって得られるテクストデータ内の情報
-5
09 / 27 / 2006 第13回慶應イノベーションネットワーク
大量テクスト内の意味内容の解釈における明白な問題点
- 単純な語同士の関係の抽出では、言葉が構成する意味内容の把握までは難しい。
- かといって、分析者が原文をいちいち確認して内容の把握、解釈までをしてはいられない。
実際に解釈の対象となるテクストデータの例
-6
09 / 27 / 2006 第13回慶應イノベーションネットワーク
TextImiの情報抽出の特徴
- テクスト内の言語情報を、「ある程度の意味のまとまり」単位で抽出する
- 一つの受け語(述語)とそこに係る全ての(0個以上の)係り語のひとまとまりを抽出する
- これを「意味チャンク」と定義する。
- テクスト内の情報を、意味チャンクとそれらチャンク同士の関係の集合として解析する
意味チャンクの抽出
[バラは],[匂いが],[嫌い]
意味チャンク同士の関係の抽出
[スミレは],[好き]
「バラは匂いが嫌いだけれど、スミ
レは好き」
意味チャンクの解析によって得られるテクストデータ内の情報
-7
09 / 27 / 2006 第13回慶應イノベーションネットワーク
意味チャンクの解析
述語
「子供に携帯電話を持たせる親が増えた。」という例文の場合
-8
09 / 27 / 2006 第13回慶應イノベーションネットワーク
意味チャンクの解析
左上:「太郎が次郎に花子を紹介した。」
右上:「花子を太郎が次郎に紹介した。」
左下:「次郎に花子を紹介したのは太郎だ。」
-9
09 / 27 / 2006 第13回慶應イノベーションネットワーク
意味チャンクの解析
- 「太郎が次郎に花子を紹介する。」
- チャンク構成要素
- 述語:「紹介する」
- 係り語:「太郎-が」「次郎-に」「花子-を」
- 「花子を太郎が次郎に紹介した。」
- チャンク構成要素
- 述語:「紹介する-た」
- 係り語:「太郎-が」「次郎-に」「花子-を」
語順の違いや、副詞形容動詞等
の装飾があっても、構成要素の
マッチングにより同じチャンク(=
同じ意味内容)として抽出される
- 「太郎が弟の次郎に美しい花子を突然紹介した。」
- チャンク構成要素
- 述語:「紹介する-た」
- 係り語:「太郎-が」「次郎-に」「花子-を」
-EX1
09 / 27 / 2006 第13回慶應イノベーションネットワーク
意味チャンクの解析
-ファンデーションの使用感想についてのアンケート実文より
-(現在使用しているファンデーションの良い点)
- 「しっとり 肌になじむ 感じ、粉っぽく浮かない。」
- 「 肌に 良く なじむ 。」
- 「自分の 肌になじんでいる 。」
- 「 肌に よく なじむ 感じが気に入っている。」
- 「さらっと 肌になじむ ところ。」
- 実際の表現としては様々な書き方があるものの、「肌になじむ」という意味チャンクを含んで
いるという点で同様の意味内容を持つものとして抽出される。
- 他の類義語(「なじむ」と似たような意味の動詞等)、表記の揺れを設定し吸収することで、類
似の意味内容、意見を機械的に抽出し、集約することができる。
-EX2
09 / 27 / 2006 第13回慶應イノベーションネットワーク
テクストを意味チャンクの集合として解析する
- 前処理として、入力されたテクスト内の意味チャンクを全て解析し、索引を作成する
- 作成された索引に対し、検索UIから抽出したいチャンクの条件を指定し、リクエストをおこなう
検索結果の出力
検索条件の指定
チャンク解析
検索インターフェイス
テクストデータの集合
テクスト内意味チャンクのデータベース(索引)
-10
09 / 27 / 2006 第13回慶應イノベーションネットワーク
検索条件指定
- 抽出したい意味チャンクを構成要素から指定
- チャンク内の係り語、受け語(述語)、助詞、およびそれらの個数、パターンの指定が可能
左図の場合
係り語がnull(指定なし)
受け語が「紹介する」
さらに
係り語の個数=0個以上
係り方(連用・連体)=不問
のチャンクを抽出せよとなる
-11
09 / 27 / 2006 第13回慶應イノベーションネットワーク
検索結果のストック
- 検索した結果(テクスト内で条件にマッチするチャンクの集合)はストックされ履歴が残る
- それぞれの検索結果に対して、絞込み検索や他の結果との集合演算がおこなえる
テクスト全体から、
受け語が「紹介する」という条件に
マッチしたチャンクは104件
さらにその104件の中で、係り語に
「太郎」が含まれるものが71件
-12
09 / 27 / 2006 第13回慶應イノベーションネットワーク
検索結果のアウトプット(一覧表示)
- 検索条件にマッチした意味チャンクがすべて表示される
- 各チャンクの構成要素(係り語等)が設定されたソート順に並べられて一覧される
左図の場合は、
述語が「紹介する」
のチャンクが
係り語の助詞ソート順
に表示されている
-13
09 / 27 / 2006 第13回慶應イノベーションネットワーク
検索結果のアウトプット(一覧表示)
- 実際に実施されたアンケートを対象に検索した例
- 原文の表現は違っていても、ソートによって似たような構成要素を持つチャンクがまとめられる
「肌」を係り語に持つチャンクを検
索し一覧表示した例
「肌にしっとりする」
「肌にしっとりなじむ」
「肌にしっとりくる」
「肌にしっとりフィットする」
等のチャンクが並ぶ
-14
09 / 27 / 2006 第13回慶應イノベーションネットワーク
参考:Kwic形式の表示機能との比較
- 検索語句を中央に配置し、その前後文字列を検索語句の左右に文脈として表示するKwic
- Kwicにおける問題点:1
- 係り受け関係が離れた文節間で構成される文は、挿入をはさむために意味内容は類似していても
異なる文脈として表示されてしまう
「ビールを美味しく飲むためのシチュエーション」に関する自由回答文を、「飲む」をキーワードとして表示した例
ソートができず、類似意見として集約することが困難
- Kwicにおける問題点:2
- 同一の意味内容であっても、語順の異なる文は異なる文脈として表示されてしまう
同様に類似意見をソートすることができず、集計集約が困難
-15
09 / 27 / 2006 第13回慶應イノベーションネットワーク
検索結果のアウトプット(集計表示)
- 構成要素のパターンが同一のチャンクがテクスト内に何件あるかを集計表示
- 指定なしで検索をおこなえば、テクスト全体の中で特徴的な表現の形式が概観されることになる
係り語受け語共に指定なしの
条件でテクスト内の意味チャン
クを集計表示した結果
-16
09 / 27 / 2006 第13回慶應イノベーションネットワーク
意味チャンク抽出による利点
- 意味チャンク
- 述語を中心にした、文の骨格となる係り語(+助詞)、受け語のひとまとまり
- 単語レベル、単純な係り受けレベルよりも、比較的容易に妥当な解釈をおこなえる
- 係り受けの解析ができない文に対しても分析者自身による解釈で妥当な訂正がおこなえる
- 人間の目とコンピュータの目の協働
- 大量のテクストデータを対象に調査をおこなう場合に、
- 雑多な表現形式の中から同じ骨格を持つ表現の集合を抽出することができる
→同じような言葉の組み合わせ方(同じような発話)を言っている人を集められる
- そのようにして得られた表現の集合、意見の集合に
- 共通性を見出し、
- タグをふるなどして纏め上げていく
- 機械的には処理しづらい大量の定性的情報を集約するために有効
-17
09 / 27 / 2006 第13回慶應イノベーションネットワーク
TextImiを用いての実際の調査例
- 「ファンデーションに関する調査」」
- 回収総サンプル数
- 10859サンプル
- 「介護満足度調査」
-回収総サンプル数
- 12690サンプル
-18