クリック - ODN

Download Report

Transcript クリック - ODN

多変量データ分析B 第2回
第2章:モニタリング
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.4.21. SFC5限
第2章 モニタリングⅠ
1/43
第2章 モニタリング 1/2
データの可視化によるデータの性質の評価
MDAの出力だけで判断をすると,うっかりデータに騙さ
れてしまうかも知れない.
MDAは多変量空間の縮約であり,多変量空間を別の方向
から眺める.
我々が生活しているより高次の次元を処理する方法であ
る.
影響力の強い少数個のデータの癖により結論が変ってし
まうことがある.
2/43
第2章 モニタリングⅠ
第2章 モニタリング 2/2
目次
2.1 モニタリングの手順
2.2 一変量の分布
2.2.1
2.2.2
2.2.3
2.2.4
2.2.5
2.2.6
ヒストグラム
ヒストグラムの注意点
正規分位点プロット
箱ひげ図
基本統計量
変数変換
第2章 モニタリングⅠ
3/43
2.1 モニタリングの手順 1/2
1変量の分析:基本統計量
頻度の確認:ヒストグラム,度数表
・代表値
:平均値
・ちらばり
:平方和→分散(標準偏差)
範囲
・かたよりなど:歪み,尖り
2変量の関係:変量間の結びつき
変量1
変量2
関連性の指標
量的
量的
(ピアソン)相関係数
量的
質的
相関比(分散分析→寄与率)
質的
質的
クラメールの連関係数
第2章 モニタリングⅠ
4/43
2.1 モニタリングの手順 2/2
モニタリングの着眼点と活用する主なグラフ
調べる目的
ポイント
グラフ
1
変
量
・分布の形の確認
・欠測値,ゼロ値
・外れ値
・正規分布か
・層別の必要はあるか
・外れ値はあるか
・ヒストグラム
・正規分位点プロット
・箱ひげ図
2
変
量
・2次元分布の確認
・独立性の検討
・外れ値
・散布図
・モザイク図
・層別ヒストグラム
多
変
量
・多次元分布の確認
・独立性の検討
・外れ値
・相関関係や関連性は
あるか
・層別の必要はあるか
・外れ値はあるか
・特異な変量はあるか
・相関関係はあるか
・外れ値はあるか
第2章 モニタリングⅠ
・散布図行列
・層別散布図
・外れ値分析
5/43
2.2 一変量の分布
目的
データの分布を調べる
連続尺度
中心位置,左右対称性,歪み,尖り,外れ値の探索
グラフ(ヒストグラムなど)や統計量により検討
順序尺度&名義尺度
カテゴリ比率
サンプルデータのビッグクラス.JMPを使う
第2章 モニタリングⅠ
6/43
2.2.1 ヒストグラム
JMPの起動
スクリプトが保存
・分析手順一覧
列:変量情報
・データの尺度に
注意
行:個体情報
・分析からの除外や
外れ値検討に使う
図2.1 ビッグクラスのデータウインドウ
第2章 モニタリングⅠ
7/43
操作2.1:ヒストグラムの作成
図2.2 変量選択ウインドウ
①メニューの“分析(A)”から“一変量の分布”をクリックすると,図
2.2のウインドウが表示される.
②図2.2の“列の選択”から性別,身長(インチ),体重(ポンド)をク
リックし,その状態で“Y,列”ボタンをクリックする.
③“OK”ボタンをクリックするとヒストグラムが表示される.
第2章 モニタリングⅠ
8/43
活用術2.1:リンク機能
図2.3 ヒストグラムの表示
ヒストグラムの活用(図2.3参照)
例えば,棒グラフの性別で“M”をカーソルでクリックすると,
データテーブルは連動して男子生徒が選択状態になり背景が
反転する.また,身長,体重のヒストグラムも同様に男子生徒
に該当する領域の色がリンクして濃くなる.
第2章 モニタリングⅠ
9/43
棒グラフ
“x
”
…

€
“x
”
Š„
‡ Š„
‡‚Ì•W
€Œë
·
—ݍ
ÏŠ„
‡
F
18 0.45000
0.07866 0.45000
M
22 0.55000
0.07866 1.00000
‡Œv

40 1.00000
0.00000 1.00000
Œ‡‘ª’lN
0
2
…
€
割合の標準誤差や累積割合は,度数のブロックにカーソ
ルを移動し,右クリックでメニューを表示させて,“列
”の“割合の標準誤差”などをクリックする
標本誤差 p 1 p / n の大き
さから計算している
図2.4 性別の棒グラフと度数
質的データ(名義尺度&順序尺度)ではカテゴリ比率に着目
第2章 モニタリングⅠ
10/43
操作2.2:ヒストグラムオプション
①タイトルの“性別”の左の赤い▼を
クリックして,メニューを表示させる.
②メニューの“モザイク図”をクリック
すると図2.4のモザイク図が描画される.
③再び,赤い▼をクリックして,メニュー
の“ヒストグラムオプション”をクリックし,
下位メニューの“標準誤差バー”をクリッ
する.
図2.5
標準誤差バーが棒グラフに追加される.
度数軸,割合軸…を同様な操作で追加する.
第2章 モニタリングⅠ
ク
棒グラフオプション
11/43
2.2.2 ヒストグラムの注意点 1/2
ヒストグラムの読み方
ヒストグラムは分布を調べるためのグラフ
適当なデータ区間に区切ったときに,そこに入る頻度を柱
状に表現にしたものである.
ヒストグラムでは,分布の中心位置,分布の対称性,分布
からの外れ値に着目する.
ヒストグラムは,データ区間の取り方により形が変ることが
ある
第2章 モニタリングⅠ
12/43
2.2.2 ヒストグラムの注意点 2/2
240
240
230
230
220
220
210
210
200
200
190
190
180
180
170
170
160
160
150
150
140
140
130
130
240
240
230
230
220
220
210
210
200
200
190
190
180
180
170
170
160
160
150
150
140
140
130
130
図2.6
VTRの録画時間の差(秒)のヒストグラム
第2章 モニタリングⅠ
13/43
操作2.3 ヒストグラムのデータ区間変更
ダブルクリック
図2.7 ヒストグラムのデータ区間の変更
①メニューの“ツール(O)”をクリックし,“手のひらツール”をクリックする.
②ヒストグラムが描画されている領域に,カーソルを異動させると,ポインタは,
図2.7の左にある手のひらに変る.
③手のひらを上下左右に動かすとヒストグラムの柱の太さや目盛りが変る.
④Y軸の領域をダブルクリックすると,図2.7の右のウインドウが表示され,そこで
目盛りの間隔や最大値,最小値などを変えることができる.
第2章 モニタリングⅠ
14/43
2.2.3
正規分位点プロット
³ ‹K•ª•z

3
正規分布に従うデータ
であれば,
プロットは直線的傾向を
示す
+‘¤‚ɐ
ž‚ðˆø‚­• ª•z
3
.01 .05
.10.25 .50 .75.90
.95 .99
2
2.5
1
2
0
1.5
-1
1
-2
0.5
-3
ë “x ‚Ì‘å‚«‚¢• ª•z

4
3
3
.01 .05
.10.25 .50 .75.90
.95 .99
尖りのある分布
0
-1
-2
-3
-3 -2 -1 0
1
2
³ ‹K• ªˆÊ“_ ƒvƒ

ƒ bƒg
3
.01 .05
.10.25 .50 .75.90
.95 .99
.01 .05
.10.25 .50 .75.90
.95 .99
双山分布
-3 -2 -1 0
1
2
³ ‹K• ªˆÊ“_ ƒvƒ

ƒ bƒg
7
6
1
3
.01 .05
.10.25 .50 .75.90
.95 .99
順序尺度
5
0
4
-1
-3
3
‡

˜ ŽÚ“x‚Ì—á
2
-2
-3 -2 -1 0
1
2
³ ‹K• ªˆÊ“_ ƒvƒ

ƒ bƒg
“ñŽR•ª•z
7
6
5
4
3
2
1
0
-1
-2
-3
1
ŠO‚ê’l‚ ‚è
3
歪みのある分布
0
-3 -2 -1 0
1
2
³ ‹K• ªˆÊ“_ ƒvƒ

ƒ bƒg
2
.01 .05
.10.25 .50 .75.90
.95 .99
3
外れ値
2
1
-4
-3 -2 -1 0
1
2
³ ‹K• ªˆÊ“_ ƒvƒ

ƒ bƒg
3
-3 -2 -1 0
1
2
³ ‹K• ªˆÊ“_ ƒvƒ

ƒ bƒg
3
図2.8 色々な分布の正規分位点プロット
第2章 モニタリングⅠ
15/43
2.2.4 箱ひげ図
4分位値
中央値
4分位値
外れ値
候補
平均
描画された長方形を箱といい,
長方形の真ん中の線が中央値(データを小さい方から順に並べたときの全
体に対する50%点),
上下の辺が4分位値(25%点,75%点)を表している.
4分位範囲とは,2つの4分位値の差である.
ひし形の左右の頂点を結ぶ線が標本の平均である.
長方形から上下に伸びる線はひげといい,
ひげは箱の両端から,次のように計算された範囲内にある最も遠いデータ
点までをつないでいる.
上側4分位点+1.5×(4分位範囲)
下側4分位点-1.5×(4分位範囲)
第2章 モニタリングⅠ
16/43
操作2.4 ヒストグラムオプション
正規分布曲線
図2.9 身長のヒストグラムと
正規分位点プロットなど
①“身長(インチ)”の左の赤
い▼をクリックして,メニュー
を表示させる.
②メニューの“正規分位点プ
ロット”をクリックすると図2.9
の正規分位点プロットが描画
される.
③再び,赤い▼をクリックして,
メニューの“ヒストグラムオプ
ション”をクリックし,下位メ
ニューの“標準誤差バー”を
クリックする.標準誤差バー
が棒グラフに追加される.度
数軸,割合軸…を同様な操
作で追加する.
第2章 モニタリングⅠ
17/43
活用術2.2 外れ値のラベル表示と処理
70
70
65
65
60
60
55
50
図2.11
LILLIE
ROBERT
55
ラベル表示(左)と除外されたヒストグラム(右)
図2.9の身長のヒストグラムには,身長の低い側で外れ値の候補
が2点ある.
個体の特徴や性質を調べるにはプロットの横にラベルを表示する.
外れ値を一時的に分析から除外して影響をみたいならば,“行(R)”メ
ニューのコマンドの“除外する/除外しない”を活用する.
第2章 モニタリングⅠ
18/43
操作2.5 ラベル表示と分析からの除外
①”ツール(O)”メニューの“なげなわ”をクリックし,身長のヒストグラムの
位置までカーソルを移動させる.このとき,カーソルがなげなわになって
いることを確認する.
②箱ひげ図の下側にある2つのプロットをクリックしながら,なげなわで囲
むと,2つのプロットが選択されて,プロットが大きな点に変る.同時に
データテーブルの対応する行が選択されて,表示色が反転する.
③この状態で,“行(R)”メニューの
“ラベルあり/ラベルなし”をクリック
するとプロットの近くに生徒の名前
が表示される(図2.11左参照).
④“行(R)”メニューの“除外する/除
外しない”をクリックする.
⑤ヒストグラムの上側にある“一変
量の分布”の左の赤い▼をクリック
し,“スクリプト”から“分析のやり直
図2.10 スクリプトの下位コマンド一覧
し”をクリックする(図2.10参照).
⑥2つの外れ値を除外して,再分析
が行われる.
第2章 モニタリングⅠ
19/43
基本統計量 1/2
•ªˆÊ“_
ƒ‚
[ƒ
ƒ“ƒg
100.0%
Å‘å’l

99.5%
97.5%
90.0%
75.0%
4•ªˆÊ“_
50.0% ’†‰›’l(ƒ
ƒ fƒBƒAƒ“)
25.0%
4•ªˆÊ“_
10.0%
2.5%
0.5%
0.0%
ō

¬’l
70.000
70.000
69.975
68.000
65.000
63.000
60.250
56.200
51.025
51.000
51.000
•½‹Ï
62.55
•W
€ •Î
·
4.2423385
•½‹Ï‚Ì•W
€ Œë
·
0.6707726
•½‹Ï‚̍
ã ‘¤95%
M—ŠŒÀŠE 63.906766
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
61.193234
N
40
オプションで統計量を増やす
ƒ‚
[ƒ
ƒ“ƒg
図2.12ビッグクラスの身長の統計量
活用術 2.3:高次のモーメント
より高次のモーメントまで必要な場合には,タイトルの“身長(インチ)
”の
左の赤い▼をクリックして,メニューを表示し,
“表示オプション”から“より
高次のモーメント”をクリックする.
•½‹Ï
62.55
•W
€ •Î
·
4.2423385
•½‹Ï‚Ì•W
€ Œë
·
0.6707726
•½‹Ï‚̍
ã ‘¤95%
M—ŠŒÀŠE 63.906766
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
61.193234
N
40
d ‚݂̍

‡ Œv
40
‡ Œv

2502
•ªŽU
17.997436
˜c“x
-0.781526
ë “x

0.8768985
•Ï“®ŒW
”
6.7823157
Œ‡‘ª’l N
0
図2.13
高次のモーメントを表示
JMPの基本統計量:モーメント&分位点
第2章 モニタリングⅠ
20/43
基本統計量 2/2
(a)
1
(b)
2 3 4 5 6 7 8
1
(c)
2 3 4 5 6 7 8
1
2 3 4 5 6 7 8
平均が同じデータ
(a)
(b)
1
2 3 4 5 6 7 8
1
2 3 4 5 6 7 8
平均が同じデータ
範囲6
範囲6
範囲も同じデータ
(1-4)×(1-4)=9
(1-4)×(1-4)=9
(3-4)×(3-4)=1
(6-4)×(6-4)=4
(5-4)×(5-4)=1
(7-4)×(7-4)=9
(2-4)×(2-4)=4
(7-4)×(7-4)=9
平方和20
平方和26
分散6.67
分散8.67
標準偏差2.58
標準偏差2.94
第2章 モニタリングⅠ
21/43
平均の意味 1/3
平均値の意味
SFCの学生であるA,B,C,D,Eは友人である.
今度,5人の家で多変量回解析Bの単位取得のための作戦会議
を開くことにした.誰の家で開催するのが距離的に合理的か?
海老名
二俣川
A
湘南台
E
C
星川
D
横浜
B
いずみ野
B
海老名
A
湘南台
E
二俣川
C
いずみ野
D
横浜
東京
浦
和
星
川
第2章 モニタリングⅠ
22/43
平均の意味 2/3
• データを代表させること
– 考え方として,代表値とデータとの
差(残差)をできるだけ小さくしたい
データ:1,2,3,4,5
それには,データをならしてやればよい
1+2+3+4+5=15/5=3
数学記号で一般的に示すと
n
x
i
n
1
x  i 1   xi
n
n i 1
第2章 モニタリングⅠ
23/43
平均の意味 3/3
平均値の意味-2
1
2
3
4 5
データを小さいほうから並べてシーソーする
シーソーの位置が平行(バランス)した
点が平均
平均値は3
5
 x  x   1 3  (2  3)
i
i 1
 (3  3)  (4  3)  (5  3)  0
5
5
5
5
 x  x    x   x   x  5  x
i 1
i
i 1
i
i 1
i 1
i
5
  xi ( 合計)  5  x ( 合計)  0
i 1
一般的:
n
 x  x   0 恒等的に0である
i 1
i
第2章 モニタリングⅠ
24/43
平方和の意味 1/4
2


Sxx   xi  x    x    xi  / n
i 1
i 1
 i 1 
• データの平均からずれ(偏差)を考える
• そのまま差をとると差の和は0で意味がない
• そこで,差の2乗を考える,それを最小にす
る値は何か考えよう
n
n
2
 x  x   0
i 1
i
n
n
2
i
n
 x  x 
i 1
第2章 モニタリングⅠ
i
2
0
25/43
平方和の意味 2/4
n
Q  a    xi  a 
2
i 1
これは,aの値をいろいろ動かして
aからの偏差2乗和を計算する
ƒ`ƒƒ
[ƒg
平均のときが一番小さい
40
1
s
30
n
 x  x 
20
i 1
10
Œv(a=5)
‡
Œv(a=4)
‡
Œv(a=3)
‡
Œv(a=2)
‡

‡ Œv(a=1)
ƒ‰ƒxƒ‹
Œv(a=1)
‡
‡ Œv(a=5)

Œv(a=2)
‡
Œv(a=3)
‡
: Q  a  x   min
平方和Sは偏差2乗和の値が
最小となるもの
0
ƒ‰ƒxƒ‹
i
2
Œv(a=4)
‡
この意味で平均は代表値として
偏差が一番小さくなるからよい指標
図:偏差平方和
第2章 モニタリングⅠ
26/43
平方和の意味 3/4
偏差が最小となる証明
Q  a    xi  a    xi  x    x  a 
n
n

2
i 1
n
2
i 1
   xi  x   2  xi  x  x  a    x  a 
i 1
n
2
n
n
i 1
i 1
2

  xi  x   2  x  a   xi  x    x  a 
2
i 1
n
n
  xi  x   2  x  a   xi  x   n  x  a 
i 1
2
2
2
i 1
=0
偏差平方和が最小となるのは
第2章 モニタリングⅠ
ax
27/43
平方和の意味 4/4
• データから代表値(平均)までの偏差の和が最
小となる値:
– 意味のあるよい指標である
• 欠点:データ数に依存して,データ数が増えれ
ば,平方和も大きくなる
• そこで,データ1単位当りの平方和を考えよう
第2章 モニタリングⅠ
28/43
分散の意味
n
分散:
 x  x 
i 1
i
n
n
2
,Vx 
 x  x 
i 1
2
i
n 1
分散には2とおりある
データ数が多いときには左を使う
データ数が少ないときは右を使う
不偏標本分散という
小標本のときには,左の分散は
小さい方に偏りを持つので,それを補正する意味で
n-1を分母にする:理由は自由度という概念
第2章 モニタリングⅠ
29/43
標準偏差の意味
• 分散はよい指標であるが,測定単位が異な
るので困る.
• 例えば,長さをはかったのに,その変動の大
きさの単位が面積になると直感的にわから
ない
• そこで,元の測定単位に戻すために平方根
(√)をとる
n
2
 xi  x 

標準偏差: s x  i 1
n 1
第2章 モニタリングⅠ
30/43
標準化
標準化
データのばらつきについて平均0,標準偏差1に標準化する
この操作は非常に重要となる
xi  x
ui 
sx
i  1,2,
, n
意味:測定されたデータは,平均から標準偏差の何倍離れた
距離にあるかということ.
利点:測定単位に影響されないこと
他の項目との比較ができる
-英語の成績と数学の成績の比較
使い道:推定や検定に使われる
主成分分析やグラフィカルモデルなどの多変量解析
第2章 モニタリングⅠ
31/43
統計モデル
統計的モデル
x     x  x  e
・データには,ばらつかない部分とばらつく部分がある
・ばらつかない部分の推定値は平均値 ˆ  x
・ばらつく部分のばらつきの大きさは分散(標準偏差)
 x1  x    x2  x  
2
2
 e e 
2
1
2
2
  xn  x 
2
n
 e   ei2
2
n
i 1
・ばらつく部分の大きさを1に標準化したら
e xx
u 
sx
sx
第2章 モニタリングⅠ
32/43
歪度
n
 xi  x 
Skew 

(n 1)(n  2) i1  s 
n
3
歪度は,分布の平均周辺の両側の非対称度を表す指標であ
る.
正の歪度は,対象となる分布が正の方向へ伸びる非対称な
側を持つ事を示す.
負の歪度は,逆に負の方向に伸びる側を持つ事を示す.
歪度が0のときが左右対称の分布になる.
標本から歪度を計算する場合,その値が-1.5~1.5の間にあ
れば,ほぼ左右対称であるという表現をする.
なお,歪度は標本数が3未満,あるいは標準偏差が0のときは
計算できない.
第2章 モニタリングⅠ
33/43
尖度
4
n

x

x
n(n  1)
3(n 1)2


 i
 
Kurt  





 (n 1)(n  2)(n  3) i 1  s  
 (n  2)(n  3)
尖度は正規分布と比較して,分布の相対的な鋭角度あるい
は平坦度を表す指標である.
尖度が正の値をとると尖った分布であり,
尖度が負の値ならば平坦な分布である.
尖度の場合も-1.5~1.5の間にあれば,ほぼ標準的な分布
と考えて良い.
なお,尖度は標本数4未満,あるいは標準偏差が0のときは
計算できない.
第2章 モニタリングⅠ
34/43
分布の形状と歪度,尖度
500
400
Skew=0
Kurt>0
300
200
100
Skew<0
Kurt=0
Skew>0
Kurt=0
0
-7 -5 -3
-1
1
3
5
200
400
200
150
300
150
100
200
100
50
100
50
0
0
0
-7
-5 -3
-1
1
3
-7
5
-5 -3
-1
1
3
5
-7 -5 -3
-1
1
3
5
150
100
Skew=0
Kurt<0
50
0
-7
-5 -3
-1
1
3
5
第2章 モニタリングⅠ
35/43
標準誤差
確率
0.16
標本数を変えたときの標本平均の確率密度
sx  s / n
0.14
n=1
n=4
n=10
n=50
0.12
0.1
0.08
0.06
0.04
0.02
0
-3
-2
-1
0
1
標準化距離;u=(x-μ)/σ
2
3
標準誤差は平均値が持つ標準偏差である.
その値は標準偏差を標本数の平方根で割ったものとして
求められる.
これは分散の加法性により導かれる結果である.
第2章 モニタリングⅠ
36/43
分散の加法性
注)分散の加法性による平均値x の分散
分散の加法性から次のような重要な性質が求まる.
xi  i  1, 2, , n  が互いに無関係 ―独立という― で同じ大きさの誤差分散
2
を持つとき,
その平均x の分散は, 2 / n となる.
1
 1
V  x   V   xi   2 V  x1   V  x2    V  xn 
n
 n
 1
1  2 2
2
 2      2  n 2    2 / n
 n
n 
n個


第2章 モニタリングⅠ
37/43
2.2.6 変数変換
 y 1
 0

y   
log y   0
 e
 y  0 JMPでは
Box-Cox 変換を使う
分布に歪みや尖りがある場合には適当な変数変換を行う
とよい.
例えば,所得や寿命,抵抗値といった変量には,対数変
換を行うと歪みや尖りが消えて左右対称の分布になるか
も知れない.
このようにヒストグラムや箱ひげ図から分布に無視でき
ない歪みや尖りがある場合には,べき変換を行うとよい.
対数変換は,べき変換の特別な場合である.
ベキ変換とは,変量xをp乗することである.
ベキ変換は非負であるから,変量の変域に負があれば任意
の数を加え,原点移動してからベキ変換する.
38/43
第2章 モニタリングⅠ
活用術2.4 変数変換の指針
活用術 2.4:変数変換の指針
①最大値と最小値の比が 20 以上ならばベキ変換する.
②データに上限 b と下限 a があれば,(x-a)/(b-a)という変換が有効である.
③±の符号を取り,限界がないデータ(間隔尺度)はべき変換しない.
サンプルデータから,会社情報を使いBox-Cox変換
のご利益を体験してみよう
第2章 モニタリングⅠ
39/43
操作2.6 Box-Cox変換 1/3
図2.15
因子プロファィルメニュー
①JMP起動後,“サンプルデータ”フォルダ内にある「会社情報」を読み込む.
②“分析(A) ”メニューの“モデルのあてはめ”をクリックする.
③表示されたウインドウで,“列の選択”リストから“従業員数”をクリックして
“Y”ボタンをクリックする.
④“モデルの実行”ボタンをクリックする.
⑤モデルのあてはめウインドウの上側にある,“応答 従業員数”の左の赤い
▼をクリックして,メニューの“因子プロファイル”の“Box-Cox Y変換”をクリッ
クする.
⑥ウインドウの縦スライダを下げて,一番下にあるタイトルの“Box-Cox変
換”の左にある赤い▼をクリックして,“最良の変換を保存”をクリックすると,
Box-Cox変換後の値がデータテーブルに保存される.
第2章 モニタリングⅠ
40/43
操作2.6 Box-Cox変換 2/3
ヒストグラムで確認
ˆê•Ï—Ê‚Ì•ª•z
]‹Æˆõ

”
400000
350000
300000
250000
200000
150000
100000
50000
0
.01.05
.10.25.50.75.90
.95.99
.01.05
.10.25.50.75.90
.95.99
640000
620000
600000
580000
560000
540000
-3 -2 -1 0 1 2 3
³‹K•ªˆÊ“_ƒvƒ

ƒbƒg
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
38234.781
•W
€•Î
·
67684.998
•½‹Ï‚Ì•W
€Œë
·
11965.13
•½‹Ï‚̍
㑤95%
M—ŠŒÀŠE62637.825
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
13831.737
N
32
d‚݂̍

‡Œv
32
‡Œv

1223513
•ªŽU
4.58126e9
˜c“x
4.5478633
ë“x

23.170701
•Ï“®ŒW
”
177.02468
Œ‡‘ª’l N
0
図2.14
]‹Æˆõ

” X
660000
-3 -2 -1 0 1 2 3
³‹K•ªˆÊ“_ƒvƒ

ƒbƒg
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
601284.81
•W
€•Î
·
20999.668
•½‹Ï‚Ì•W
€Œë
·
3712.2519
•½‹Ï‚̍
㑤95%
M—ŠŒÀŠE 608856
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
593713.62
N
32
d‚݂̍

‡Œv
32
‡Œv

19241114
•ªŽU
440986060
˜c“x
-0.055047
ë“x

-0.463578
•Ï“®ŒW
”
3.4924661
Œ‡‘ª’l N
0
Box-Cox変換の効果(左が変換前,右が変換後)
第2章 モニタリングⅠ
41/43
操作2.6 Box-Cox変換 3/3
Žc 
·•½•û˜a
Žc
·•½•û˜a
λ係数について
Box­Cox•ÏŠ·
1.5e+12
Box­Cox•ÏŠ·
-0.2
1.5e+121e+12
-0.2
1e+125e+11
5e+11
0
-2.0 -1.0 .0 .5 1.01.52.0
0
-2.0 -1.0
.0 Lambda
.5 1.01.52.0
図 2.15 因子プロファィルメニュー
図2.16
Lambda
図 2.16 Box-Cox 変換のラムダ
Box-Cox変換のラムダの推定
の推定
活用術 2.5:Box-Cox 変換の係数 (ラムダ)
ラムダは,データから自動的に計算されるが,その値に意味を見出すもので
はない.この例では,ラムダが-0.2 であるが,意味的には,ラムダを 0 とした
対数変換で十分であり,その方が変数変換の意図は分かりやすい.
第2章 モニタリングⅠ
42/43
べき変換の効果
 x  p  0

Tp  x   log x  p  0
cx p  p  0

p
もとのデータ
範囲へ戻す
P=3
P=-3
P=2.5
P=-2

xp  x
x  p1

 p  0

px
Tp*  x   
 x  log x  log x  p  0

0.4343/ x
P=-1
P=2
P=-0.5
P=1.5
P=1
0
1
2
3
4
5
6
7
8
P=0
-10
-8
第2章 モニタリングⅠ
-6
-4
-2
0
43/43