講義資料ppt

Download Report

Transcript 講義資料ppt

確率と統計
メディア学部2011年後期
No.3
平成23年10月6日(木)
前回の内容
• データ解析の演習
1. 度数分布表の作成
2. ヒストグラムの作成
2
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
今日の内容
• データ解析
1. 度数分布表の作成(復習)
2. ヒストグラムの作成(復習)
3. グラフの分析
• (データの)代表値
• (データの)散らばり
3
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
調査課題:新生児の体重
• 調査方法
• 調査場所
• 調査対象者
• 調査実施者
• 調査実施日時
• 必要経費 など
4
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
5
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
新生児60人の体重(1998)
表. 新生児の体重 (1998年)
3740
2550
2920
2530
3280
2840
2520
3350
3610
3430
3020
3320
2790
3050
3620
3260
3320
3800
2640
3360
3320
4100
2720
4050
3850
3380
3040
2710
4150
3200
4120
2780
3220
2780
2490
2950
2580
2020
3010
2010
2800
2760
4480
2990
3700
2960
2320
3060
3200
3380
3100
2840
2990
3100
3530
3270
2600
3640
3300
4570
単位はグラム
6
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
度数分布表の作成
1.
2.
3.
4.
5.
最大値=____, 最小値=___
範囲R=最大値-最小値
区間数k=____
区間幅h=____
最小値と最大値とを勘案して、区間の両端
を決める。
7
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
新生児の体重(1998年)
体重(g)
人数
~2000
0
2000~2400
3
2400~2800
14
2800~3200
16
3200~3600
14
3600~4000
7
4000~4400
4
4400~4800
2
8
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
ヒストグラム
16
14
12
10
8
6
4
2
0
47
00
44
00
41
00
38
00
35
00
32
00
29
00
系列1
26
00
23
00
人数
新生児の体重(1998年)
体重(g)
9
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
グラフに関する考察(思考実験)
• データの個数nをどんどん増やすと
– 棒グラフの背がどんどん高くなる
– 度数がゼロの区間がなくなっていく
• 区間の幅hをどんどん小さくすると
– 棒グラフの背がどんどん低くなる
– 度数がゼロの区間が増えていき、ほとんどの区
間で度数がゼロ、あっても1になる。
10
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
グラフに関する考察(思考実験)
• nを増やすとともにhを減らしていくと...
• ヒストグラムがある形状に落ち着く!
• これは統計的性質の1つ。
– (大数の法則)
11
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
集団としての特徴値(代表値)
• いろんなグラフを比べてみよう!
• (正規分布、所得分布、双峰分布など)
12
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
正規分布
13
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
集団としての特徴値(代表値)
• いろんなグラフを比べてみよう!
• (正規分布、所得分布、双峰分布など)
14
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
所得分布
16
14
12
10
8
Series1
6
4
2
0
15
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
集団としての特徴値(代表値)
• いろんなグラフを比べてみよう!
• (正規分布、所得分布、双峰分布など)
16
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
いろいろなグラフ
17
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
集団構造の記述
• 調査や測定により得られるデータの集まりに
対して、その集団の構造(特徴)を端的に表現
する指標(代表値)を求めることを、集団構造
の記述という。
• 平均(平均値)はその代表例。
18
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
平均値
• 例(身長のデータ):
– データ群A = {167, 150, 161, 158, 164}
– データ群B = {169, 174, 160, 165, 172}
(単位:cm)
150
155
160
165
170
175 cm
19
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
平均値の数学的定義
平均m = (x1 + x2 + x3 + … + xn)÷n
20
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
いろいろな代表値
• 算術平均 (いわゆる平均のこと)
• モード (mode、最頻値)
• 中央値 (Median)
21
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
ここまでのまとめ
22
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
記述統計学
1. まず、データ(data)ありき
2. データの分析
–
–
–
–
–
全体を眺める
整列(ソート)する
度数分布表の作成 => どんな値が何個あるのか?
ヒストグラムの作成 => よりvisualな表現へ
分布曲線(ヒストグラムの概形)を求める
=> 数式表現可能
以上により、データ全体の様子(分布の形状)が
視覚的・感覚的にわかる。
23
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
記述統計学
1. まず、データ(data)ありき
2. データの分析
–
–
–
–
–
全体を眺める
整列(ソート)する
度数分布表の作成 => どんな値が何個あるのか?
ヒストグラムの作成 => よりvisualな表現へ
分布曲線(ヒストグラムの概形)を求める
=> 数式表現可能
以上により、データ全体の様子(分布の形状)が
視覚的・感覚的にわかる。
24
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
ポイント
• 個々のデータ1つ1つに目を奪われることなく
– (データを)全体的にとらえる
– (データの)集団としての特徴をとらえる
ことがポイント。
 データの集団としての特徴を数値的にとらえら
れないか?
 代表値という考えが生まれる。
25
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
代表値
例:
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
データの個数 n=
26
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
代表値
例:
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
データの個数 n=12
それでは、簡単に分析してみよう!
27
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
例:
データ:
{1, 1, 2, 3, 3, 3,
4, 4, 6, 6, 7, 8}
個数 n=12
合計 T=48
表.度数分布表
度数
データの分布の様子
3.5
3
2.5
2
1.5
1
0.5
0
系列1
1
2
3
4
5
6
7
データ値
図.ヒストグラム
8
データ 個 数 小 計
値
(度数)
1
2
2
2
1
2
3
3
9
4
2
8
5
0
0
6
2
12
7
1
7
8
1
8
n=12 T=48
合計
28
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
ヒストグラム
度数
データの分布の様子
3.5
3
2.5
2
1.5
1
0.5
0
系列1
1
2
3
4
5
6
7
8
データ値
図.ヒストグラム
29
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
特徴を分析してみよう
• データの重心(平均)
m = (データの合計)÷(データの個数)
=T/n
= _____
30
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
31
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
• モード(最頻値)
– 出現頻度が一番多いの
はどれ?
– Mode= _____
度数
データの分布の様子
3.5
3
2.5
2
1.5
1
0.5
0
系列1
1
2
3
4
5
6
7
8
データ値
32
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
• 最大値maxと最小値min
max = _____
min = _____
33
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
• 中央値(median)
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
大きさの順番に並べたとき、真ん中にある
データの値が中央値
今の場合、med = _____ 3 ? 4 ?
左から6個目
右から6個目
34
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
• 中央値(median)
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
大きさの順番に並べたとき、真ん中にある
データの値が中央値
今の場合、med = (3 + 4)÷2
= 3.5
35
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
分析結果
例:
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
データの個数
n = 12
(算術)平均
m= 4
モード(最頻値)
mode = 3
中央値(メディアン) med = 3.5
最大値
max = 8
最小値
min = 1
<= 代表値
<= 代表値
<= 代表値
36
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
• 例2:
データ:
{-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18}
データの個数
n=
(算術)平均
m=
<= 代表値
モード(最頻値)
mode =
<= 代表値
中央値(メディアン) med =
<= 代表値
最大値
max =
最小値
min =
37
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
• 例2:
データ:
{-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18}
データの個数
n = 12
(算術)平均
m=4
<= 代表値
モード(最頻値)
mode = 3
<= 代表値
中央値(メディアン) med = 3.5
<= 代表値
最大値
max = 18
<= 分布の位置
最小値
min = -9
<= 分布の位置
38
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
例1と例2のデータの比較
• 例1:
{1, 1, 2, 3, 3, 3,
4, 4, 6, 6, 7, 8}
データ数
n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 8
最小値
min = 1
• 例2 :
{-9, -7, -4, -1, 3, 3,
4, 6, 8, 12, 15, 18}
データ数 n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 18
最小値
min = -9
分布が異なっているにもかかわらず、代表値は同じ! => 何がいけないのか?
39
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
平均が同じでも分布の形状が違う例
O
40
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
平均が同じでも分布の形状が違う例
• データの重心(平均)が同じでも、
データの散らばり方が違っている!
=> 散らばりを定式化してみよう!
41
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
散らばりの定式化
• アイデア1:
– データの存在範囲
範囲(range) R = 最大値 – 最小値
42
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
アイデア1
• 範囲(range) R = 最大値 ー 最小値
• 長所:
– 単純(計算が楽)
• 短所:
– 2個のデータしか利用していない。
つまり、最大値と最小値の間に存在するデータを利用し
ていない。n-2個のデータが無駄。
=> すべて(n個)のデータを利用するには…?
43
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
アイデア2
• 平均からのズレの総和Sの平均
– 平均mから各データがどれだけズレているかが偏差。
偏差 di = xi – m (i=1,2,3, … , n)
– 偏差の和 S = (x1 – m) + (x2 – m) + … + (xn – m)
= 0 <= いつも必ずゼロ
– 偏差の和の平均
mean of S = S÷n = 0 <= いつも必ずゼロ
• 長所
– すべてのデータの情報を利用
• 短所
– いつもゼロになり意味がない。
44
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
アイデア3
• 平均からの距離の総和Sの平均
– 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n)
– S = | x1 – m | + | x 2 – m | + … + | xn – m |
– 偏差の絶対値の平均(平均偏差M.D.) = S÷n
• 長所
– すべてのデータの情報を利用
• 短所
– 数学的取り扱いが大変(どうやって絶対値をはずす?)
45
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
アイデア4
• 平均からの距離の二乗の総和Sの平均
– 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n)
– S = (x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2
– 距離の自乗の平均 = S÷n
• 長所
– すべてのデータの情報を利用
– 数学的に取り扱いやすい
• 短所
– 計算が大変? <= コンピュータを利用すればOK!
– 解釈は?(データxやmと、Sの次元がちがう!)
46
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
分散と標準偏差
• 分散S 2 = {(x1 – m) 2 + (x2 – m) 2 + … +
(xn – m)2}÷n
• 標準偏差 s 
2
(分散の平方根)
(短所の2番目を配慮して平方根をとった。)
s
47
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
散らばり
• 以上のような経緯により、データの散らばりの
尺度として、
– 標準偏差 S
– 分散 S 2
– 範囲 R
– 平均偏差 M.D.
<= 一般によく利用される。
<=一般によく利用される。
<= 工場等でよく利用される。
<= これも利用されることが
ある。
などが用いられる。
48
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
平均の考え方の重要性
• データ{xi | i=1, 2, 3, …, n}
• 平均 m = (x1 + x2 +…+ xn)÷n
• 分散:
xi から (xi – m)2 を作り出し、この平均を求め
ている。
49
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
例1と例2のデータの比較
• 例1:
{1, 1, 2, 3, 3, 3,
4, 4, 6, 6, 7, 8}
データ数
n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 8
最小値
min = 1
分散
• 例2 :
{-9, -7, -4, -1, 3, 3,
4, 6, 8, 12, 15, 18}
データ数 n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 18
最小値
min = -9
分散
分布が異なっているにもかかわらず、代表値は同じ! => 散らばりも考慮しよう!
50
Copyright© 2011 Tokyo University of Technology ( H. Kameda )
おまけ
http://www.stat.go.jp/ の「統計学習サイト」
をクリックすると「How to 統計」のページが出
てきます。そを参考に、自習することをお勧め
します。特に、世の中にどのような統計データ
が収集・公開されているのかを知ってください。
(統計学習も経験の積み重ねが大切。)
ここをクリック!
51
Copyright© 2011 Tokyo University of Technology ( H. Kameda )