自然言語処理によるテキスト分類 (PPT / 252KB)
Download
Report
Transcript 自然言語処理によるテキスト分類 (PPT / 252KB)
自然言語処理によるテキスト分類
情報学類 吉田光男
アドバイザー教官: 山本幹雄 先生
2005/12/20
1
今日の流れ
ﻪ
ﻪ
ﻪ
ﻪ
ﻪ
ﻪ
今回の演習の目的
自然言語処理とは?
テキスト分類のよさ
ベイズの定理
ナイーブベイズ
サービスとして公開(デモ)
2005/12/20
2
今回の演習の目的
ﻪ自然言語に関する取り組み方を学ぶ
ﻩ自然言語処理ってなに?
ﻩなにから手をつければいい?
ﻪサービスとして公開
ﻩ発表だけしてもね…
2005/12/20
3
自然言語処理とは?
ﻪ自然言語 = 自然発生的に生まれた言語
ﻩ人工言語 = 人為的に作られた言語
ﻪ基礎技術
ﻩ形態素解析
ﻩ構文解析
ﻪ応用技術
ﻩかな漢字変換
ﻩ検索エンジン
2005/12/20
4
テキスト分類
ﻪ最近の流行
ﻩWeb 2.0
ﻯ人が頑張ってタグ付けしたのを共有
ﻯデータを簡単に取り出せるように(Web API)
ﻳXML を API に置き換えるだけで今風
ﻩWeb 1.0
ﻯこれまでのウェブ
ﻪ文章を分野に分ける
ﻩニュースなど
2005/12/20
5
分類することのよさ
ﻪ追い風?首相も「真央が見たい」(デイリー
スポーツ 2005年12月20日)
ﻩエンターテイメント(entertainment)
ﻩスポーツ(sports)
ﻪトリノ五輪聖火リレー、鉄道トンネル反対派
が妨害 (読売新聞 2005年12月19日)
ﻩ社会(national)
ﻩ国際(world)
2005/12/20
6
テキスト分類
ﻪ代表的なアルゴリズム
ﻩ
ﻩ
ﻩ
ﻩ
ﻩ
ﻩ
決定木
ナイーブベイズ
k-最近隣法
最大エントロピー法
ブースティング
サーポートベクタマシン
2005/12/20
7
ベイズの定理
ﻪP(A)
ﻩ事象Aが発生する確率
ﻪP(A|B)
ﻩ事象Bが既に発生している場合に、事象Aが発生する
確率(条件付確率)
ﻪP(B|A)
ﻩ事象Aが発生した場合に、事象Bが発生していた確率
ﻪベイズの定理
ﻩP(B|A) = P(A|B)P(B) / P(A)
2005/12/20
8
ナイーブベイズ(1/4)
ﻪベイズの定理より
P(x|c)P(c)
c arg max P(c|x) arg max
arg max P(c)P(x|c)
c
c
c
P(x)
c クラス(カテゴリ)
x (x1,x2 ,,xn ) 文書ベクトル(文書の
概念)
^
ﻪベイズの定理 + 仮定
ﻩトークン(単語)が互いに独立である
ﻯ例: アメリカはテロと戦います
2005/12/20
9
ナイーブベイズ(2/4)
ﻪ仮定を付加する
n
P(x|c) P(x1,x2 ,,xn|c) P(xi|c)
i 1
n
c arg max P(c) P(xi|c)
^
c
i 1
ﻪ実装する上での留意点
ﻩあるクラスで出現しなかったトークン
ﻯ出現を推測
2005/12/20
10
ナイーブベイズ(2/4)
文書x
P(x2|c)
P(x1|c)
P(x|c)
クラスc
P(x3|c)
今日
x1
情報
x2
特別
x3
○○
xn
P(xn|c)
2005/12/20
11
ナイーブベイズ(4/4)
ﻪ今日は、情報特別演習の発表会です。
今日
情報
特別
演習
発表会
2005/12/20
クラスA クラスB クラスC クラスD
10%
50%
20%
20%
15%
60%
20%
5%
40%
40%
10%
10%
25%
40%
25%
10%
5%
20%
15%
60%
12
確率処理以外
ﻪ文書ベクトルの生成
ﻩトークン(単語)の切り出し
ﻯ形態素解析
ﻯ2-gram(n-gram)
ﻯ同種文字列の切り出し
ﻩ例文
ﻯ今日は、情報特別演習の発表会です。
ﻯiPod nano は、クリエイティブである。
2005/12/20
13
実装
ﻪ環境
ﻩPerl
ﻯ素晴らしいプログラミング言語
ﻩMySQL
ﻯトークンの管理
ﻩCEEK.JP NEWS
ﻯテストデータ
ﻯhttp://news.ceek.jp/
2005/12/20
14
テスト結果
ﻪ学習:各2000記事 / 判定:各500記事
2005/12/20
15
テスト結果
0.5
90
0.45
88
0.4
86
0.35
84
0.3
82
0.25
80
0.2
78
0.15
76
0.1
74
0.05
72
0
70
形態素解析
2-gram
速さ(秒/doc)
2005/12/20
同種文字列
精度(パーセント)
16
サービスとして公開
ﻪText Classification with CEEK.JP NEWS
ﻩhttp://labs.ceek.jp/classify/
ﻪHatena Bookmark News
ﻩはてなブックマークをニュースのように分類
ﻩhttp://labs.ceek.jp/hbnews/
2005/12/20
17