Transcript ppt

数量化II類
数量化II類: 複数の母集団を設定し,あるサンプルがどちらの
母数団に属するのかを推定する方法.
ただし,説明変数は質的変数である.
被説明変数
判別分析
質的変数
数量化II類 質的変数
説明変数
量的変数
質的変数
8.1 適用例と解析ストリー
(1) 適用例と解析の目的
表8.1 健常者・患者の症状データ
サンプル 健常者・患者 吐き気x1 頭痛x2
1
健常者
無
少
2
健常者
少
無
3
健常者
無
無
4
健常者
無
無
5
健常者
無
無
6
患者
少
多
7
患者
多
無
8
患者
少
少
9
患者
少
多
10
患者
多
少
(2) 数量化II類の解析ストーリー
(1) 健常者を母集団[1],患者を母集団[2]とする.
・質的変数をダミー変数に変換する.
・ダミー変数を量的変数と考えて,それぞれの母集団への
マハラノビスの距離の2乗を求める.
・マハラノビスの距離の2乗値の小さい母集団に属すると
判別する.
(2) 誤判別確率を求め,判別方式の精度を評価する.
(3) 変数選択を行い,有用な変数を選択する.
(4) 得られた判別方式を利用して,どちらの母集団に属するのか
不明なサンプルの判別を行う.
8.2 変数が1個の場合の解析方法
(1)マハラノビスの距離と判別方式
「吐き気x1」のような質的な変数
「多」 「少」 「無」のような値
:アイテム
:カテゴリー
X1(1): 「無」:使用しない
X1(1) + X1(2) + X1(3) =1
X1(2): 「少」:1(少のとき),0(少でないとき)
X1(3): 「多」:1(多のとき),0(多でないとき)
例: 無の人 X1(2) =0, X1(3) =0
ダミー変数(1)
ダミー変数:二つの値のうちのどちらかをとる
(特に 0 か 1 かいずれかの値をとる)ような変数
ダミー変数の数=カテゴリー数ー1
ダミー変数を用いれば,連続変数に対して適用できる多くの
分析手法が使用可能
注)ダミー変数は正規分布に従わないので,正規分布に基づ
いた誤判別の確率計算は正確でなく,参考程度に留める
ダミー変数(2)
サンプルNo. 診断
y
1
健常者
2
健常者
3
健常者
4
健常者
5
健常者
6
患者
7
患者
8
患者
9
患者
10
患者
吐き気
x1
無
少
無
無
無
少
多
少
少
多
頭痛
x2
少
無
無
無
無
多
無
少
多
無
吐き気
x1(1) x1(2)
0
0
0
1
0
0
0
0
0
0
0
1
1
0
0
1
0
1
1
0
頭痛
x2(1) x2(2)
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
1
1
0
0
0
(2)誤判別の確率
ダミー変数は正規分布の従わないので,誤判別の確率は
判別表を作成し手金等する.
判別結果
健常者 患者
4
1
データ 健常者
患者
0
5
計
4
6
計
5
5
10
「本当は健常者なのに患者と誤判断した割合:0.20」
「本当は患者なのにと健常者誤判断した割合:0.00」
例題1
表8.2に基づいて吐き気x1のみを用いた判別方式を導け
各母集団の平均値,平方和,偏差積和を求める.(p.121)
8.4 変数に量的変数と質的変数が混在する場合
サンプルNo. 診断
y
1
健常者
2
健常者
3
健常者
4
健常者
5
健常者
6
患者
7
患者
8
患者
9
患者
10
患者
吐き気
x1
0無 0
0少 1
0無 0
0無 0
0無 0
0少 1
1多 0
0少 1
0少 1
1多 0
頭痛 検査値1検査値2
x2
x3
x4
50
15.5
0少 1
69
18.4
0無 0
93
26.4
0無 0
76
22.9
0無 0
0無 0
88
18.6
1多 0
43
16.9
0無 0
56
21.6
0少 1
38
12.2
1多 0
21
16.0
0無 0
25
10.5