Transcript ppt

ロジステック判別とその最近の発展
「高次元データの解析」研究会@広島大学
2002.1.10-11
発表者: 江口真透
(統計数理研,総研大学院)
共同研究者:J. Copas
(University of Warwick)
1
識別の例題
● 文字認識 (OCR,郵便番号の自動読み取り)
● 音声認識 (電話自動予約、第二言語の教育)
● 画像認識 (土地利用区分・交通量計測・犯人捜査)
☆ 天気予測 (アメダス ,確率予報, 気象予報士)
☆ クレジットスコアリング (信用リスク,貸倒れ率)
☆ メディカルスクリーニング (電子カルテ, EBM)
☆ 鑑定問題
(DNA, 法的証拠)
2
識別問題
出力
入力
判別関数
から判別ルール
3
2値判別
入力
判別関数
出力
の符号を使って
判別ルール
トレーニングデータ
判別関数
から
を推定する.
4
確率的考察
同時分布
から
条件付き分布は
ベイズルール
5
推定的 vs 予測的
トレーニングデータ
1. Estimative
2. Predictive
6
指数型モデル
Bayes rule
7
推定的 vs 予測的 @ 指数型モデル
1. Estimative
2. Predictive
Okamoto (1963), Efron (1975), Siotani, Hayakawa, Fujikoshi (1985)
Wakaki (1990), MaLachlan (1992), Bishop (1995), Nishii and Tanaka (1999)
8
全尤度 vs 条件付尤度
全尤度
条件付き尤度
9
判別関数のロス
s の単調増加関数 U(s) と V(s) を取ってくる.
判別関数
に対するロスを
と定めよう.
が小さなロス D をもつためには
を大きく, かつ
を小さくすればよい.
10
エラーレイト
エラーレイト
は あるロス D(S) と等価
ここで H(s) は Heaviside 関数,
11
ロスの Bayes 最適性
定理1
ロス D( S ) の生成関数 U(s) と V(s) が
を満たすならば D( S ) は
をもつ.ここで
のとき最小値
は Bayes ruleの判別関数.
12
証明
13
経験ロス
が得られた.
トレーニングデータ
パラメトリックな判別関数
に対する経験ロスは
と計算できる.
を求めて,判別関数を
と提案する.
14
ロジスティック・ロス
条件付き期待尤度
ここで
15
エラーレイト (2)
2値判別において エラーレイトは2種の誤りからなる.
フォールス・ネガティブ
フォールス・ポジティブ
ここで u は閾値.
16
エラーレイトに関連したロス
クレジットスコアリング
診断のスクリーニング
17
ROC曲線
ジニ係数
A
18
推定方程式
期待値版
経験版
ここで
ロジスティック
重み付け最小2乗法
glm(formula, family = binomial, data, weights =W,・・・ )
19
Neyman-Pearson 補題, 再訪
 (u )  err( S , u )  err(  , u )
ここで err(  )   1FP(  , u)   0 FN(  , u)
Neyman-Pearson 補題
(u )  0
(  u R )

d (  , S )    (u )w(u )du ( w(u )  0)

[ cf. http://www.ism.ac.jp/~eguchi/recent_frame.html ]
20
ダイバージェンス
u
U (u ) 
 w( s)ds

定理 2.
d (S,  )
u
, V (u ) 
 exp( s) w( s)ds

d (  , S )  D( S )  D(  )
d の非負性から D ( S )  D (  )
D( S )   err( S , u ) w(u )du
21
Fisher一致性
の分布につぎを仮定:
定理 3.
このとき、
証明.
定理1より
が D(S) を最小にする.
仮定から
22
漸近近似
トレーニングデータの分布に次の仮定をする.
は,
23
漸近分布
ここで
24
漸近効率
1 1
ˆ
var (  )  J (  )V (  ) J 1 (  )
n
A
漸近分散
Cramer-Rao type 不等式


1
1
T
ˆ
var (  ) 
E{ p(1  p )x x }
n
A
等号は
(ロジスティック判別)に限る.
25
リスク評価(モデルが正しい場合)
期待
ロス
Risk ( ˆ , D )  I{D( ˆ )}
トレーニングデータの分布に対する
の仮定のもとで
は
1
ˆ
ˆ
Risk (  1 , D )  Risk (  0 , D )  o( ) ( D )
n
26
リスク評価(モデルが誤りの場合)
トレーニングデータの分布に次の仮定をする.
 (x)   T x  O(n

1
2
)
このとき,
1
ˆ
Risk (  1, D)  D(  1 )  2 tr{var A ( ˆ 1 )Hesse(D)}
ここで
 1  argmin D1 (  )

27
判別ルールのαファミリィ
ターゲットのリスク risk (  , D )
ロスのαファミリィ
D (  )  (1   )D(  )  D0 (  )
判別関数のαファミリィ
S (x , ˆ )
ˆ  arg min D emp (  )

  arg min D (  )

28
α opt の存在
定理 4.
(概証)
29
α optの推定
提案:
30
α optの推定の実際
leave-one-out 近似:
31
ロジスティック判別の破綻
つぎのケースを考えよう:
このとき,
の解となり,ロジスティック判別は破綻.
それ以外の方法では
32
シミュレイション
経験ROCカーブの下側面積
経験ROCカーブ
33
シミュレイションの結論
ターゲットロスをROCカーブの
下側面積
α-法を
を考えよう.
ROCカーブの下側面積 は
から
によって A = 0.99
最適α=0.7
34
α-エラーレイト法
閾値 u のエラーレイト
35
α-エラーレイト法のスムージング
s
s
36
α-エラーレイト法のウェイト
0.90
0.50
-1.5
1.5
s
37
乳がん診断データ
n = 683
悪性のケース (y=1) 239 人
良性のケース (y=0) 444人
www.ics.uni.edu/mlearn/MLSummary.html
腫瘍の細胞の特性 9項目,10点評価
2. Clump Thickness
3. Uniformity of Cell Size
4. Uniformity of Cell Shape 5. Marginal Adhesion
6. Single Epithelial Cell Size 7. Bare Nuclei
8. Bland Chromatin
9. Normal Nucleoli
10. Mitoses
38
解析
Fix u st FN(u , S (  ,  ) )  0.01
ターゲットのリスク
FP(u, S (  ,  ))
0.15  arg min cv( )
0  1
1
cv( )   yi H ( S ( x i , ˆ )  e( x i , ˆ )  u )
n
ただし
39
解析結果
 opt  0.15
によって
フォールス・ポジテブを
0.435 から 0.423
に改良できた.
40
ブースティング法
入力
出力
ブースティング
弱学習機
Bishop (1995), Friedman, Hastie, Tibishirani (2000), Schapire, Bartlett, Lee (1998)
Hastie, Tibishirani, Friedman (2001), Lebanon, Lafftry (2001), Schapire (1990).
41
AdaBoost とは?
更新則: (t = 1, …, T)
1. トレーニングデータに重み
2.
3.
をかけて次を求める.
を計算する
と更新.
42
AdaBoost の特徴
出力:
43
AdaBoost のロス
とおくと
がなりたつ.
44
U ブーストとは?
つぎのロスを考えよう
ここで U(s) は
を満たすと仮定する
更新則: ( t = 1, …, T )
45
U ブーストの特徴
定理 5.
より
46
おわりに
判別関数 S (x ) のロスのクラスを
D( S )   err( S , u ) w(u )du
と提案し,経験量の陽な形導出された.
D によるリスク関数を規準にするとき,
D ( S )  (1   ) D0 ( S )   D( S ) , 0    1
の中から最適なαを選ぶ方法が考察した.
47
参考文献(1)
Bishop, C. (1995),.Neural Networks for Pattern Recognition, Clarendon Press,
Oxford.
Eguchi, S. and Copas, J. (1998). A class of local likelihood methods and nearparametric asymptotics. J. Royal Statist. Soc. B, 60, 709-724.
Eguchi, S. and Copas, J. (2001). Recent developments in discriminant analysis
from an information geometric point of view. J. Korean Statist. Soc. 30, 247264 (2001). (The special issue of the 30th aniversary of the Korean Statist. Soc)
Eguchi, S. and Copas, J. (2002). A class of logistic type discriminant functions.
In press Biometrika 89. (http://www.ism.ac.jp/~eguchi/recent_preprint.html)
Efron, B. (1975), The efficiency of logistic regression compared to normal
discriminant analysis. J. Amer. Statist. Asoc.70, 892-898.
Friedman, J., Hastie, T. and Tibishirani, R. (2000). Additive logistic regression:
A statitistical view of boosting. Ann. Statist. 28, 337-407.
48
参考文献(2)
Hastie, T. Tibishirani, R. and Friedman J. (2001). The elements of statistical
learning. Springer, New York.
Lebanon, G. and Lafftry, J. (2001). Boosting and maximum likelihood for
exponential models. to appear in Advances in Neural Information Processing
Systems (NIPS), 14, 2001. (http://www-2.cs.cmu.edu/~lafferty/)
MaLachlan, G. J. (1992). Discriminant analysis and statistical pattern
recognition. Wiley, New York.
Nishii, R. and Tanaka, S. (1999). Accuracy and inaccuracy assessments in landcover classification, IEEE Tans. On Geosci. Remote Sens. 37(1), 491-498.
Okamoto, M. (1963), Asymptotic expansion for the distribution of the linear
discriminant function. Ann. Math. Statist. 34, 1286-1301.
Schapire, R. (1990). The strength of the weak learnability. Machine Learning 5,
197-227.
49
参考文献(3)
Schapire, R. Freund, Y, Bartlett, P. and Lee, W. (1998). Boosting the margin: a
new explanation for effectiveness of voting methods. Ann. Statist., 26, 1651-1686.
Siotani, M., Hayakawa, T. and Fujikoshi, Y. (1985). Modern Multivariate
Statistical Analysis: A Graduate Course Handbook. Columbus, Amercan Science
Press.
Wakaki, F. (1990), Comparison of linear and quadratic discriminant functions.
Biometrika 77, 227-229.
50