Transcript PPT

データマイニングアルゴリズム
「アプリオリ」と「ID3」の比較
菊池研
阿久津忍 倉野奈央子
はじめに
データマイニング
大量のデータの中から有益な情報、知識を抽出す
る技術。
金曜日に紙おむつと缶ビールを一緒に買う男性が多い
朝食用にシリアルを購入する来店客は同時にバナナを買う
例が多かっ た
主要な二つのアルゴリズム
-アプリオリ
-決定木
[Rakesh Agrawalら 1993]
アプリオリ(Apriori)
最小サポート・確信度による相関ルール
X⇒Yの効率的な検索
サポート(支持度)
ルールの出現頻度
Supp(X⇒Y)=b/N
確信度
ルールの確からしさ
Conf(X⇒Y)=b/a
条件を満たす全てのルールの抽出
X⇒Y,Y⇒X,X∧Y⇒Z,・・・
[John Ross Quinlan 1979]
決定木(ID3)
エントロピー最小化に
よる分類
知りたい項目(ターゲット属
性)がある時に使う。
誤差の少ない決定木が1つ
抽出
 単一の決定木の抽出
ターゲット属性
アプリオリと決定木(ID3)の違い
出力
アプリオリ
決定木(ID3)
複数のルール
単一の木
ターゲット属性 なし
原理
あり
サポート・確信度 エントロピー
目的
2つのアルゴリズムでは同じ結果が得られる
か?
1.アプリオリシステムの性能
2.出現属性の比較
3.論理関係の比較
アンケートデータ
対象:東海大学生100人(男63、女37)
実施期間:2006年5月下旬~7月上旬
形式:2択の質問項目(20問)を属性として
用いる
属性は恋愛感について。(無関係の属性も含
む)
束縛する人について興味がありました!
目的
2つのアルゴリズムでは同じ結果が得られる
か?
1.アプリオリシステムの性能
2.出現属性の比較
3.論理関係の比較
重要属性の比較
(例1)
 アプリオリ
 相手色に染まらない⇒
海外ある
 ダイエット中でない∧
相手色に染まらない⇒
海外ある
 感情を表に出さない⇒
海外ある
決定木
海外に行った経験があるか
相手色に染まるか
感情を表に出すか
重要属性の比較・適合率
アプリオリ
属性 ターゲット
Q1
Q4
Q12
Q9
Q14
Q18
Q19
Q20
ID3
アプリオリ
Supp=0.3,Conf=0.6
m=2
m=3
Q12
○
3
4
1
2
1
2
1
1
1
3
Q9
Q18
Q14
Q19
1
アプリオリの適合率は2/3
決定木の適合率は1/2
決定木
N=20,m=2
1.アプリオリシステムの性能
2.出現属性の比較
3.論理関係の比較
論理関係の比較
アプリオリとID3の出力したルールに矛盾が
ないかを確かめる。
アプリオリ:菊池研⇒つぶあん派
決定木:菊池研⇒こしあん派
矛盾!!
全ルールを確かめた結果
矛盾はなかった
一致するルールが少なかった
→両者のルールのサポートの違いに起因
サポートと確信度の散布図
0.9
Apriori
ID3
0.8
0.7
conf
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.05
0.1
0.15
0.2
supp
0.25
0.3
0.35
0.4
まとめ
決定木で上位に出現する属性は、アプリオリ
でも相関が高い。
抽出された知識の論理的な関係に矛盾はな
いが、アプリオリでの相関ルールに対応する
葉は少なかった。
両者の出力形式の違いや、抽出ルールのサ
ポートの違いに起因している。
束縛する人はこんな人!
ご清聴ありがとうございました
予備スライド
 Q1 あなたの性別は? 男
女
 Q2 異性の友達が・・・ 多い 少ない
 Q3 異性間の友情は・・・
成立する
成立しない
 Q4 海外に行ったことが・・・ ある ない
 Q5 さびしがり屋ですか?
はい いいえ
 Q6 犬と猫ならどっちが好き? 犬
猫
 Q9 感情を表に出すタイプ? はい いいえ
 Q11 付き合った経験が・・・ ある ない
 Q14 相手色に・・・
染まる 染まらない
 Q15 いつでも自分を1番に考えてほしい? はい いいえ
 Q16 人のケータイを黙ってみたことが・・・ ある ない
 Q17 一人の時間は大切ですか? はい いいえ
 Q20 あなたは束縛をする人ですか?
はい いいえ
1.アプリオリシステムの性能
2.出現属性の比較
3.論理関係の比較
アプリオリシステムの性能
 最小確信度とルール数の関
係
12000
 最小サポートとルール数の関
係
80
supp=60
supp=70
supp=80
supp=90
supp=100
70
60
Number of rules
10000
8000
6000
4000
conf=60
conf=70
conf=80
conf=90
conf=100
50
40
30
20
2000
0
10
0
20
40
60
min conf
80
100
0
20
30
40
50
60
70
min supp
80
90
100
出現属性の比較
決定木とアプリオリにおける出現属性の一致
度を確かめる。
重要属性の比較
高さや出現回数に注目
出現属性の再現率
一致の度合い(再現率)
重要属性の比較
(例2)
 アプリオリ
 異性の友情は成立する⇒
一人の時間は大切
決定木
人のケータイを黙って見たこ
とがあるか
交際経験があるか
ケータイ見てない⇒
一人の時間は大切
束縛しない⇒
一人の時間は大切
 異性の友情は成立する∧
交際経験ある⇒
一人の時間は大切
異性間の友情
は成立するか
出現属性の再現率
ターゲット属性
ID3
アプリオリ
Q4
2/4
2/7
Q7
3/4
3/5
Q9
3/3
3/14
平均再現率
0.75
0.37
 アプリオリの方が多くの相関ルールが出力される
ため、平均値は小さい。
論理関係の比較
抽出された規則の論理的な矛盾がないかど
うか検討する。
アプリオリとID3
8個中1個完全一致、残り7個無矛盾
ルール
染まらない∧
感情出す⇒
海外ある
自分嫌い∧
感情出さない⇒
海外ない
染まる⇒
海外ない
supp conf
0.20
0.80
染まる
0.20
0.69
0.28
0.64
染まらない
感情出す
属性
ターゲット
Q1
Q2
Q3
Q4
Q5
Q6
Q7
Q8
Q9
Q10
Q11
Q12
Q13
Q14
Q15
Q16
Q17
Q18
Q19
Q20
ID3
m=5,C=9
アプリオリ
Supp=0.3,Conf=0.6
m=2
m=3
1
○
3
4
2
1
1
1
1
1
3
2
1
2
1