「多変量解析法入門」 の前のイントロ
Download
Report
Transcript 「多変量解析法入門」 の前のイントロ
「多変量解析法入門」
準備
新納浩幸
多変量解析とは
多変量データを解析して有効な
情報を見つける統計的な手法
たくさんの手法がある
テキストの手法は
代表的なもの
データのタイプ
質的データ(カテゴリーデータ)
リンゴ、バナナ、ミカン
○、△、× (順序がある)
量的データ(数量データ)
温度(原点に意味がない)
重さ、長さ (原点に意味がある)
目的変数と説明変数
1次元
目的変数・・・結果
説明変数・・・原因
例)
目的変数: 売り上げ
説明変数: 広告費、営業マンの数、
開発費、店舗数
多数の要因
多次元
多変量解析
目的変数ある or ない
目的変数がある
原因と結果の関係を分析
多変量解析
目的変数がない
標本の類似性、関連性を分析
多変量解析の分類
データのタイプ
目的変数
の有無 目的変数
説明変数
数量
数量
数量
カテゴリ
有
カテゴリ
数量
カテゴリ
カテゴリ
数量
無
カテゴリ
解析手法
重回帰分析
数量化1類
判別分析
数量化2類
主成分分析、因
子分析、数量化
4類
数量化3類
クラスター分析
確率との関係
背後にある関係は?
厳密
目
的
変
数
説明変数
確率的
確率変数
試行
標本空間
1, 2 , 3 ,, n
数値化
X x1, x2 , x3 ,, xn
P( X xi ) P({i })
ただしこれは離散型
確率密度関数
標本空間
試行
X (, )
F ( x) P( X x)
f ( x) F ' ( x)
分布関数
確率密度関数
P(a X b) f ( x)dx
b
a
f ( x)dx 1
平均と分散
確率変数を特徴付ける量
E( X ) xf ( x)dx
V ( X ) ( x ) f ( x)dx
2
2
正規分布
最も重要な分布、自然界の現象の基本
(x )
f ( x)
exp
2
2
2
2
1
2
X~N (, )
2
注意)
f ( x)dx 1
を示すには
x2
e dx
2次元分布
X ,Y
確率変数
( X ,Y )
共分散
C( X ,Y ) E(( X x )(Y y ))
相関係数
C( X , Y )
( X ,Y )
V ( X )V (Y )
母集団と標本
母集団
標本
サンプリング
x1, x2 ,, xn
X
確率変数
X
と
Xi
の分布は同じ
Xi
統計量
標本
x1, x2 ,, xn
X1, X 2 ,, X n
X1, X 2 ,, X n
の合成式が統計量
確率変数
推定
パラメトリックモデル
母集団
標本
X
の密度関数にはパラメータ
X1, X 2 ,, X n
から
を含む
を推定する合成式を
作成すること
推定量
統計量
確率変数
分布を持つ!
標本平均と標本分散
1 n
X Xi
n i 1
標本平均
平均に対する代表的な推定量
n
標本分散
1
2
S ( X i X )
n i 1
2
分散に対する代表的な推定量
区間推定
パラメータ
が区間
[a, b]
に入る確率が
信頼係数
具体的な手法は検定と同じ
問題の
タイプによって
いろいろ
検定
H 0 : 0
H1 : 0
帰無仮説
対立仮説
標本からどちらの仮説が正しそうかを判定する
帰無仮説をとりあえず正しいと考えて、ある統計量を導入
標本からその統計量の値を求める。この値が有意水準
(通常、0.05) 以下の確率で起こる値であれば
対立仮説を採択する