STATWEB 統計セミ.. - nc

Download Report

Transcript STATWEB 統計セミ.. - nc

2014-6-22
担当:若田 忠之








なぜ“統計”が必要か/ “統計”の重要性
“データ”の基礎「4つの尺度」

30分
平均値・分散・標準偏差(説明)
平均値・分散・標準偏差(演習)

30分
t検定(説明)
t検定(演習)

50分
標準化・相関・回帰分析(説明)
標準化・相関・回帰分析(演習)

50分
休憩:適宜

「何かの傾向を示すだけならわざわざ統計処理などしない
で、アンケートの結果などで十分ではないか?」

例えば、この後紹介するt検定は平均値やそのデータのバ
ラツキを使って、その差が意味のある差なのか、偶然見ら
れている差なのかを検討する
データの「科学的な裏付け」をとる役割が統計の目的の1つ
統計学とは

数量的比較を基礎として、多くの事実を統計的に観察
し、処理する方法を研究する学問
統計とは

集団における個々の要素の分布を調べ、その集団か
らの傾向・性質などを数量的に統一的に明らかにす
ること
広辞苑 第5版より

何かに差があると言いたいときには「証拠」が求められ、そ
の裏付けとして統計学を使うことができる

統計学のもう一つの重要な役割
「データを分かりやすくする」


平均値はデータの中心、標準偏差はデータのバラツキと
いったように、そのデータの性質や特徴をより簡潔に示す
ことができる
さらに、複雑な分析をすることで今までは見えていなかっ
たような面を捉えることもできる
例えば、相関や回帰分析では、複数の事象の関連を数値
で表したり、予測したりすることができる
統計学の役割


科学的な証拠「裏付け」をとる
データを分かりやすくし、ただの集計では見えなかっ
た面を見えるようにする
このセミナーでは、統計の数学的な背景よりも、「その分析が何の
為の分析なのか」に焦点を当てます。自分で分析を行うときには
分析の手順や内容を知っていないとできませんが、まず「何のた
めの分析なのか」、「その結果は何を示すのか」を分かっていない
と、どうしようもありません。
そこで、まずは「結果を読み取れる」といった部分をマスターしま
しょう。
データの
“バラツキ”
が異なる
Q:2つのクラスに100点満点の学力テストを行った結
果、どちらのクラスも平均点が50点でした。
2つのクラスの理解度は同程度と言えるでしょうか?
Aクラス
平均:50点
人数/
人数/
60
60
50
50
40
40
30
30
20
20
10
10
0
0
0点
50点
Bクラス
平均:50点
100点
0点
50点
100点

統計を料理に例えると、次のようなイメージです。
料理
材料
調理方法
(下ごしらえ)
(調理)
料理
食べ方
レシピ
統計
=
データ
=
統計処理
=
(基礎統計)
= (検定、分析)
=
結果
= 結果の見かた
=
計算式
(パソコンの
操作方法)
「データ」とは

何らかの意図をもって得られた数値
データの分類

量的変数・・・
数値で表されたデータ (順位、間隔、比率)
5段階評価の得点、長さ、重さなど

質的変数・・・
数値であらわされていないデータ (名義)
アンケートの自由回答、感想など
名義尺度・・・
名前を数字に置き換えたもの
「男性=1、女性=2」、「文学部 =101、医学部=201」など
数字の大きさに意味はなく、仮に「男性=20、女性=0」でも問題ない
順序尺度・・・
順番に意味はあるが、その間隔に意味がない。マラソンの順位を決め
るときに、1秒差でも10秒差でも1位と2位の関係は変わらない
間隔尺度・・・
順序に加え、その間隔に意味があるもの。定義上の「0」が存在する
が、「何もない」という意味の「0」ではない。温度は28度と27度の差
は「1度」、-5度と-4度の差も同じ「1度」
比率尺度・・・
間隔にも意味があり、「0」が存在する。長さ「0m」、重さ「0g」は長さ
も重さも「何もない」という意味での「0」が存在する。事実上での負の
値はない
質的データ
名義尺度
順位尺度
量的データ
・・・名前を数字に置き換えたデータ
この数字を計算しても意味がない
☆地域、性別、クラスなどに付けられる番号
・・・順序を表すデータ
数字順番に意味があっても、その間隔には意味がない
☆マラソンの順位、CDの売上のランキング
間隔尺度 ・・・間隔が等間隔で定義上の「0」が存在する
☆温度、5段階や7段階のアンケートなど
比率尺度
名義
順位
間隔
比率
数値の
大小関係
なし
あり
あり
あり
・・・間隔が等間隔で四則演算すべてに意味がある
「何もない」という意味での「0」が存在する
☆長さ、重さ、時間など
「0」の意味
計算
用いる分析
なし
なし
定義上あり
あり
不可
不可
可
可
χ2検定
メディアン検定
t検定、因子分析
分散分析、回帰分析
例:マラソン大会でのデータ
名義尺度
順序尺度
背番号
順位
427
716
117
525
205
520
419
113
365
891
1
2
3
4
5
6
7
8
9
10
比率尺度
タイム
11'03
11'20
13'59
13'72
13'81
14'09
14'45
14'80
15'00
17'81
間隔尺度
好感度
4.5
3.1
2.9
4.9
3.6
4.2
1.1
2.8
3.7
1.9
所属
早稲田
慶応
慶応
フェリス
日大
フェリス
早稲田
早稲田
慶応
早稲田
※好感度はそれぞれの選手の好感度
を1~5段階評価して平均したもの。
平均値・分散・標準偏差
代表値
平均値・・・
データの総和をデータ数の総和で割ったもので、データの中心を示す
最も一般的な代表値
中央値・・・
データを最大値から最小値まで並べた中での一番中心の値
それぞれの値の間隔の大きさに関わらず、その順序に着目した値
中央値を境に上下半分ずつデータがあることを示す
データが左右対称でない場合は平均値よりも中央値の方が優れている
最頻値・・・
文字通り最も頻繁に出現する値のこと
例:
15名の対象にある企業のイメージを5段階評価で評価してもらった
被験者1
被験者2
被験者3
被験者4
被験者5
被験者6
被験者7
被験者8
被験者9
被験者10
被験者11
被験者12
被験者13
被験者14
被験者15
評価
1
1
1
1
1
1
2
2
2
3
3
4
5
5
5
平均値
中央値
最頻値
2.47
2
1
一つのデータでも、用いる代表値に
よって、値が変わってきます。
それぞれの代表値の特徴をとらえ
て、適切なものを用いましょう。
散布度

データのバラツキ具合を示す

代表値ではデータの「見た目」を示すとすると、散布度
はデータの「質、中身」を示した値といえる

散布度を見ることで、それが実際にはどんなデータな
のかを知ることができる重要な値
偏差・・・
平均と個々のデータの差
分散・・・
偏差を二乗して合計し、データ数で割ったもの
データのバラツキを示すが、算出した値が元のデータの範囲よりも大きい
場合があり、直感的にわかりずらい
標準偏差・・・
分散の平方根。値の範囲を分散からもとのデータの範囲に戻したもの
平均値から±どれくらいの範囲にデータが散らばっているかを示す
標準偏差が大きいほどバラツキが大きく、小さいほどバラツキが少ない
つまり、標準偏差が大きいデータの平均値はたまたまその値になっただけ
の可能性が大きくて信用できない
偏差
平均=53.6
分散=774
標準偏差=27.8
学生 1
学生10
学生21
= -34 ・・・ (20-53.6)
= 6.4 ・・・ (60-53.6)
= 46 ・・・ (100-53.6)
平均が「53.6」に対して、バラツキを見ようと
思ったときに分散をみると「774」と値の範囲が元
の単位と異なる為、分かりづらい。
そこで、標準編差を用いると「27.8」なので、こ
のデータは平均の「53.6」を中心に「±27.8」の範囲
に大体のデータが散らばっていることがわかる。
学生1
学生2
学生3
学生4
学生5
学生6
学生7
学生8
学生9
学生10
学生11
学生12
学生13
学生14
学生15
学生16
学生17
学生18
学生19
学生20
学生21
学生22
学生23
学生24
学生25
20
50
60
40
30
50
70
80
90
60
40
60
80
90
10
20
30
20
80
90
100
30
80
50
10
演習
このデータの
平均、標準偏差を計算してみましょう
学生1
学生2
学生3
学生4
学生5
学生6
学生7
学生8
学生9
学生10
学生11
学生12
学生13
学生14
学生15
学生16
学生17
学生18
学生19
学生20
学生21
学生22
学生23
学生24
学生25
20
50
60
40
30
50
70
80
90
60
40
60
80
90
10
20
30
20
80
90
100
30
80
50
10
検定(t検定)

まずは、検定と分析の違いについてです。t検定、χ2検定、
分散分析、回帰分析、因子分析・・・など、統計の中では、
「検定」と「分析」がある
大まかな違いとしては、
 検定は「データの差を比較するもの」
 分析は「データを使って、新しく何かを見るもの」

「検定は答えが1つ」、「分析は様々な答えがある」とも言える

検定では、それぞれの「統計量」という値を算出して、それを
「境界値(臨海値)」と比較することによって、それぞれのデータ
に「差があるかどうか」を検討し、データに「有意な差がある」と
いう統計的な裏付けをとることが検定の役割

有意な差(有意差)とは、「統計的に意味のある差」を指す

「有意差あり」となった場合は、「このデータの差は偶然ではな
く、何かしらの要因に基づいてこういう差がある」と解釈する

「有意差なし」となった場合は、「今回差があるように見えるの
は偶然で、本来は差がない」という解釈となる
帰無仮説と対立仮説(研究仮説)
 検定を行う上では「帰無仮説」と「対立仮説」が存在する。そして
それは基本的にすべての検定に共通である
 帰無仮説は「無に帰る」仮説で、棄却することを前提とした「比
べる群に有意な差はない」という意見を支持する仮説
 対立仮説は、「比べる群に有意な差がある」という意見を支持す
る仮説
帰無仮説・・・
有意差はない(今回偶然こういう結果になっただけ)
対立仮説・・・
有意差がある(偶然ではなく、何かしらの要因によってこう
いう結果になった)
統計量
統計量とはt検定でいえば「t値」を指し、それぞれの検定で算出する独自の値のこと。
この値を次の境界値と比べることで、有意差の有無を検討する
境界値(臨界値)
それぞれの検定で定められた有意差の有無を分ける境界の値のこと
この値と統計量を比べることで、有意差の有無を判断する
第1種の誤り(Type 1 error)
本当は差が有意ではないのに、有意であると誤認すること
有意水準(有意確率)
有意水準とは、どれくらいの確率で有意であるかを示す水準のことで、5%水準、1%
水準などがある
この水準は、上記の第1種の誤りを犯す確率と同義であり、一般的に5%以下で「差が
ある=有意である」と判断できる
対応のあり・なし
 要因、水準と一緒にもう一つ重要なのが、対応のあ
り・なしでで、これは平たく言うと同じ人のデータを比
べるのか、違う人のデータを比べるのかの違い
 男女や国籍の場合男と女は違う人、日本人、アメリカ
人、イタリア人も違う人なので、対応なし
 10人の人に3種類のケーキを食べてもらって、それぞ
れケーキについて評価したものを比較する場合など、
同じ人のデータを比べる場合には対応あり
対応の有無で分析の選択が異なる
平均
標準偏差

A支店 B支店
500.0
460.0
89.9
103.1
2つのデータの平均値の差の検定
平均値に差がある場合に、有意意な差であるかを調べる
結果の記述
t(98) = 2.068, p < .05
[t(df) = t値,有意確率]
例
ある企業の支店間の年間50週の平均売り上げについて、
支店Aは500、支店Bは460であった。2つの支店の平均値
についてt検定を行った結果、5%水準で有意差がみとめら
れた(t(98) = 2.068, p < .05) 。以上のことから支店Aの
ほうが平均的に成績が良いことが分かる

得られた標本が既知の平均との差の検定・・・1標本のt検定①
データの対応の有無で用いるt検定が異なる
 対応がある場合・・・対応のあるt検定②

対応がない場合・・・2標本に対するt検定
等分散を仮定できる③
等分散を仮定できない④
等分散の仮定については、F検定を用いて確認をする
2つデータが等分散をなしているかを調べる
結果の記述
F(24,24) = 2.54, p < .05
[F(分子のdf,分母のdf) =F値,有意確率]
例
t検定を行うにあたり、実験群、統制群についてF検定
を行ったところ、等分散は認められなかった(F(24,24)
= 2.54, p < .05)。
演習
t検定、F検定を行ってみましょう
標準化・相関・回帰分析



どんなデータでも、平均を「0」、標準偏差を「1」にする
平均と標準偏差を揃えることで、範囲が違うデータでも比べる
ことができる
例えば、身長と体重を比べる、ドルと円を比べるなど
例:同じケーキを片方は5段階評価、もう一方は7段階評
価で評価した結果を比較する
ケーキ1
ケーキ2
ケーキ3
ケーキ4
ケーキ5
ケーキ6
ケーキ7
ケーキ8
ケーキ9
ケーキ10
平均
標準偏差
①
②
(5段階) (7段階)
5
7
4
2
2
6
3
5
4
6
3
3
1
4
2
5
4
6
4
4
3.20
4.80
1.23
1.55
ケーキ1
ケーキ2
ケーキ3
ケーキ4
ケーキ5
ケーキ6
ケーキ7
ケーキ8
ケーキ9
ケーキ10
平均
標準偏差
①
②
(5段階) (7段階)
1.46
1.42
0.65
-1.81
-0.98
0.77
-0.16
0.13
0.65
0.77
-0.16
-1.16
-1.79
-0.52
-0.98
0.13
0.65
0.77
0.65
-0.52
0.00
0.00
1.00
1.00





2つのデータの関係の度合いを表す
例えば、車の売り上げと景気のよさ、その日の気温と飲み
物の販売数など
このような片方が上がるともう一方もつられて動くような関
係は、あくまでも2つの関連をあらわす指標であって因果
関係まではわからない(大まかに推測はできますが)
車と景気を例にすると、景気が上がったから車が売れたと
も、車が売れたから景気が上がったという場合もありえる
実際には相互に関係している場合がほとんどなので、そう
いったあたりは状況考察や検定、分析などで明らかにす
る必要がある


相関は相関係数という数値で表す。(記号は「r」)
範囲は –1~1
正の相関 (正の値)
 正の相関とは車の例のように一方が上がればもう一方も上がる、
一方が下がればもう一方も下がるといったように、2つの変数が
同じ動きをする関係を表す
負の相関 (負の値)
 負の相関とは、正の相関とは逆に、一方が上がればもう一方が
下がり、一方が下がればもう一方も上がるといった、逆の動きを
する関係を表す
無相関(0に近い値)
 2つの変数の動き方に特徴がない関係を表す
相関の強さ




「0~±0.2」
「±0.2~0.39」
「±0.4~0.69」
「±0.7~1.0」
・・・ 無相関
・・・ 低い相関
・・・ 中程度の相関
・・・ 高い相関
相関係数が「r=0.9」の場合、「強い正の相関がある」と言える
反対に、「r=-0.5」の場合は「中程度の負の相関がある」となる

例 アイスコーヒーの売り上げと関連する情報
アイス売り上げ
1月
50
2月
52
3月
60
4月
100
5月
300
販
6月
350
売
7月
600
月
8月
530
9月
550
10月
300
11月
120
12月
22
気温
5.2
3.4
7.8
13.2
19.1
27.3
34.9
35.5
28.2
18.1
15.3
6.3
ホット売り上げ 内閣の支持率 帽子の売り上げ
400
10
160
589
13
90
300
5
234
450
19
320
170
14
573
210
15
819
120
16
922
90
9
845
150
8
846
200
7
543
340
9
450
440
11
160
アイス売り上げ
気温
ホット売り上げ
内閣の支持率
帽子の売り上げ
アイス売り上げ
1.00
0.96
-0.87
0.06
0.96
気温
0.96
1.00
-0.88
0.14
0.98
ホット売り上げ 内閣の支持率 帽子の売り上げ
-0.87
0.06
0.96
-0.88
0.14
0.98
1.00
0.18
-0.90
0.18
1.00
0.11
-0.90
0.11
1.00
正の相関 r=.96
無相関 r=.06
負の相関 r=-.87
正の相関 r=.96
演習
相関係数を求めてみましょう
回帰分析の目的

データ①とデータ②の関係を調べること
データ①からデータ②を予測する予測式を作ること

いづれも、「回帰式」と呼ばれる式を作って結果を見る

回帰式


回帰式①:Y = aX + b
回帰式②:Y = aX1 + bX2 + C
・・・単回帰
・・・重回帰
従属変数と独立変数
 独立変数(X)・・・影響を与えるデータ(予測するための値)
 従属変数(Y)・・・影響を与えられるデータ(予測される値)
単回帰と重回帰
 単回帰は予測するための値である独立変数が1つ
 重回帰は予測するための値である独立変数が2つ以上
偏回帰係数
 分析結果で見るべき値は、「係数」と呼ばれる値で、回帰式では
「a」 、「b」の部分にあたる。この部分が影響力を示す
従属変数
独立変数
Y= 0.82X1 + -0.68X2 + 0.2
偏回帰係数
重決定係数「R2」
 回帰式がどれくらい当てはまっているかを示す値
 見方は相関と同じで「0~1」までの範囲で表される
 「1」に近いほど当てはまりがよく、「0」に近いほど当て
はまりが悪い。

※Cの部分はあまり着目しません


単回帰:アイスの売り上げと気温の関係
Y = 57.544 + 13.857X (R2 = .60)
アイス売り上げ
1月
300
2月
200
3月
60
4月
100
5月
200
販
6月
350
売
7月
600
月
8月
530
9月
550
10月
300
11月
460
12月
10
気温
5.2
3.4
7.8
13.2
19.1
27.3
34.9
35.5
28.2
18.1
15.3
6.3
単回帰:アイスの売り上げと気温の関係
Y = -48.004 + 4.449X1 + 458X2 (R2 = .837)
Y=
0.000 + 0.258X1 + 0.723X2 (R2 = .837)

アイス売り上げ
1月
300
2月
200
3月
60
4月
100
5月
200
販
6月
350
売
7月
600
月
8月
530
9月
550
10月
300
11月
460
12月
10
気温
来客数
5.2
500
3.4
600
7.8
220
13.2
340
19.1
500
27.3
550
34.9
820
35.5
1200
28.2
970
18.1
550
15.3
800
6.3
90
販
売
月
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
アイス売り上げ
-0.025
-0.528
-1.232
-1.031
-0.528
0.226
1.484
1.132
1.232
-0.025
0.780
-1.484
気温
来客数
-1.110 -0.303
-1.267
0.016
-0.882 -1.196
-0.408 -0.813
0.109 -0.303
0.828 -0.143
1.494
0.717
1.546
1.929
0.907
1.196
0.021 -0.143
-0.224
0.654
-1.013 -1.610
演習
回帰分析を行ってみましょう
なぜ統計が必要か?
 科学的な証拠「裏付け」をとる
 データを分かりやすくし、ただの集計では見えなかっ
た面を見えるようにする
4つの尺度
質的データ
名義尺度
順位尺度
量的データ
・・・名前を数字に置き換えたデータ
この数字を計算しても意味がない
☆地域、性別、クラスなどに付けられる番号
・・・順序を表すデータ
数字順番に意味があっても、その間隔には意味がない
☆マラソンの順位、CDの売上のランキング
間隔尺度 ・・・間隔が等間隔で定義上の「0」が存在する
☆温度、5段階や7段階のアンケートなど
比率尺度
・・・間隔が等間隔で四則演算すべてに意味がある
「何もない」という意味での「0」が存在する
☆長さ、重さ、時間など
平均・標準偏差
 平均値だけでなく、データのバラツキである標準偏差を見ることに
よって、データの質を理解する
t検定
 比較する平均値を差とみなしてよいのかを確かめる
相関
 2つの変数の関係性を数値で表す
回帰分析
 変数間の関係性を予測する式を構成することができる
 単回帰と重回帰があり、重回帰では説明する変数間の影響の度
合いなどを比較することができる
統計学を用いることで多角的な視点で
物事をみることができるようになる