情報科学の基礎

Download Report

Transcript 情報科学の基礎

統計学入門(1)
第3回
-- データの整理 --
今日の内容

データとは


データの型・尺度


観測対象、変数…
質的・量的、4つの尺度
バラツキの様子の把握の方法

質的データの場合:集計とグラフ
統計学入門(1)第3回
2
変数とオブザベーション

変数(variable)
観測項目
資本金、従業員数、・・・

オブザベーション
(observation)
観測対象
資本金 従業員数 売り上げ
(万円)
(人)
(百万円)
A工業
78660
1152
44064
B精機
2338400
9370
370040
Cエンジニアリング
559400
660
34023
D自動車
609600
4318
223078
E時計電機 234000
1269
22255
Fホーム
40000
150
13347
企業名
個々の企業
統計学入門(1)第3回
3
バラツキ(Variability)

観測対象(オブザベーションまたはケース)を通
して、観測項目(変数)に関するデータ値が一定
ではない様子
資本金 従業員数 売り上げ
(万円)
(人)
(百万円)
A工業
78660
1152
44064
B精機
2338400
9370
370040
Cエンジニアリング
559400
660
34023
D自動車
609600
4318
223078
E時計電機 234000
1269
22255
Fホーム
40000
150
13347
企業名
統計学入門(1)第3回
バラツキ
4
データの型

量的データ


数字で表現されるデータ
 身長、年収、得点
質的データ

カテゴリで表現されるデータ
 性別、職種、学歴
統計学入門(1)第3回
5
質的変数(データ)と量的変数(データ)

少数個のカテゴリー
のどれかが応答値
となる観測項目
性別(男性・女性),
職種(事務職・管理職)
改善度(有効・無効)
質的変数(Qualitative
variable) 質的データ

数量値が応答値と
なる観測項目
売上高, 生産指数
給与総額,在庫率
量的変数(Quantitative
variable) 量的データ
統計学入門(1)第3回
6
4つの尺度
質的データ
量的データ
名義尺度
 順序尺度
 間隔尺度
 比尺度

統計学入門(1)第3回
7
名義尺度

区別だけの情報



名前、 性別
出身県、 国籍
…
統計学入門(1)第3回
8
順序尺度

順序情報を含む


ABCD評価の成績
満足,好みの調査
満足 - 普通 - 不満

…
統計学入門(1)第3回
9
間隔尺度

順序に加え間隔が意味を持つ

通常の数字データ
統計学入門(1)第3回
10
比尺度
原点 (0) が意味を持つ
 何倍という概念が存在


物の長さ、重さ、…
統計学入門(1)第3回
11
尺度と演算
名義尺度
順序尺度
間隔尺度
比尺度
違いのみ
大きさの比較
足し算や引き算が可
掛け算や割り算が可
統計学入門(1)第3回
12
分析において

どのような情報を使用しているかを注意す
ること

たとえば、
名義尺度として…
 順序情報を利用しているか?
 間隔尺度とみなした分析…
(順序尺度であるが間隔尺度とみなした分析)

統計学入門(1)第3回
13
順序尺度を間隔尺度として…


間隔尺度のデータを便宜上順序尺度とみ
なして分析することは多い
A,B,C,Dに数字(たとえば、1,2,3,4)を割り
当て、平均を計算することも…


グループの比較を行う場合に便利
ただし、分布自体を確認することも重要
統計学入門(1)第3回
14
データ分析の視点
全体のバラツキをみる
 層別してグループ間の特徴を比較
 変数間の関係をみる
 時点変化をみる

統計学入門(1)第3回
15
データ分析の視点

全体のバラツキをみる!


層別して、グループ間の特徴を比較!


水準化(コード化)、層別
変数間の関係をみる!


ヒストグラム・箱ヒゲ図、基礎統計量
多変量解析:(3年生の講義)
時点変化をみる!

時系列分析法
統計学入門(1)第3回
16
分析目的と尺度

分析目的に合うような情報の取得が必要



名義尺度のデータで優劣の判断はできない
差が必要な場合に順序尺度情報では不十分
…
統計学入門(1)第3回
17
質的データの分析(1変数の場合)

質的データの場合、バラツキの様子の把
握は比較的簡単

度数分布表


値ごとに度数を求め、その比率を計算する
グラフ化の方法



棒グラフ・パレート図
円グラフ
…
統計学入門(1)第3回
18
例:松坂投手の投球の分析

球種:質的なデータ

知りたいこと

どのような球種をどの
ような割合で投げてい
るか
試合年月日ホームチーム名略
ビジターチーム名略
球種名
球速
20050326 西武
オリックス ストレート
20050326 西武
オリックス ストレート
20050326 西武
オリックス スライダー
20050326 西武
オリックス ストレート
20050326 西武
オリックス ストレート
20050326 西武
オリックス ストレート
20050326 西武
オリックス ストレート
20050326 西武
オリックス ストレート
20050326 西武
オリックス ストレート
20050326 西武
オリックス スライダー
20050326 西武
オリックス スライダー
統計学入門(1)第3回
19
146
145
126
146
147
147
148
147
147
133
126
度数分布表
まず、集計
球種名
度数
カーブ
172
カットボール
339
ストレート
1560
スライダー
814
チェンジアップ
281
フォーク
155
総計
3321
2006年シーズン
度数順に並べ替え
相対度数(比率)を求める
球種名
度数 相対度数
ストレート
1560
47%
スライダー
814
25%
カットボール
339
10%
チェンジアップ
281
8%
カーブ
172
5%
フォーク
155
5%
総計
3321
統計学入門(1)第3回
20
なぜ、相対度数を求めるのか?

一般的な話としたいため


「何球投げた」というより、「どの程度の割合投
げた」というほうが一般的
何かと比較したいため

比較するためには度数では無理な場合が多
い
統計学入門(1)第3回
21
比較の例:
度数だけでの比較は難しい


渡辺(ロッテ)
松坂(西武)
球種名
度数
球種名
度数
シンカー
1185 ストレート
1729
ストレート
872 スライダー
871
スライダー
781 カットボール
372
カーブ
185 チェンジアップ
310
カーブ
184
フォーク
158
総計
3023
総計
3624
松坂投手と他の投手
の比較
対戦相手が右打者と
左打者の場合の比較
球種名
ストレート
スライダー
カットボール
チェンジアップ
カーブ
フォーク
総計
左
950
337
271
297
88
97
2040
右
779
534
101
13
96
61
1584
計
1729
871
372
310
184
158
3624
注:データは上下とも2005年シーズン
統計学入門(1)第3回
22
比率に直せば…
対戦相手が右と左の比較
球種名
ストレート
スライダー
カットボール
チェンジアップ
カーブ
フォーク
総計
左
右
47%
17%
13%
15%
4%
5%
100%
統計学入門(1)第3回
49%
34%
6%
1%
6%
4%
100%
計
48%
24%
10%
9%
5%
4%
100%
23
グラフ化すると
50%
40%
左
右
30%
20%
10%
0%
ス
ト
レ
ー
ト
ス
ラ
イ
ダ
ー
カ
ッ
ト
ボ
ー
ル
チ
ェ
ン
ジ
ア
ッ
プ
カ
ー
ブ
統計学入門(1)第3回
フ
ォ
ー
ク
24
パレート図(Pareto chart)
度数分布表(質的データ)をグラフにしたもの
相対累積度数
(人)
20
相対累積曲線
100.00%
15
80.00%
60.00%
10
40.00%
5
20.00%
0
.00%
アジア
アメリカ
ヨーロッパ
オーストラリア
アフリカ
図3-1 パレート図(質的変数:海外旅行先)
統計学入門(1)第3回
度数の大きな順
25
パレート図に関連する事項

パレートの法則



ニッパチの法則(2割8割)
2割の原因が8割の結果を占める
ロングテール


パレート図の右側に小さい度数の項目がたくさん並ん
だ部分
昔は軽視(または無視)すべきとされた部分だが、
web2.0(または1 to 1マーケティング)などの世界で注
目すべきとされている
統計学入門(1)第3回
26
練習問題
問題1
ある政策について、支持するかどうかを調査し、次のようなデータを得た。
No. 性別 賛成反対 No. 性別 賛成反対 No. 性別 賛成反対 No. 性別 賛成反対
1
男
反対
11 女
反対
21 女
反対
31 女
反対
2
男
賛成
12 男
反対
22 男
賛成
32 男
反対
3
女
賛成
13 女
賛成
23 男
賛成
33 男
賛成
4
男
賛成
14 男
賛成
24 男
賛成
34 男
賛成
5
男
反対
15 男
賛成
25 男
反対
35 女
賛成
6
女
反対
16 男
賛成
26 女
賛成
36 女
反対
7
男
賛成
17 男
賛成
27 男
賛成
37 男
賛成
8
男
賛成
18 女
賛成
28 男
賛成
38 男
賛成
9
男
賛成
19 男
賛成
29 女
反対
39 男
反対
10 女
反対
20 男
賛成
30 女
反対
40 男
反対
Q1 全体についての度数分布表を完成させなさい。
回答
度数
相対度数(%)
賛成
反対
計
統計学入門(1)第3回
27
練習問題(続き)
Q2 男女別に度数分布表を完成させ、政策の支持に関する男女の違いについて
コメントしなさい。
統計学入門(1)第3回
28
練習問題:解答
Q1
回答
度数
相対度数(%)
賛成
25
63%
反対
15
38%
計
40
Q2
賛成
反対
総計
男性
20
7
27
74%
26%
女性
5
8
13
38%
62%
コメント例: 男性に賛成が多く、女性には反対が多いという傾向がみられる
統計学入門(1)第3回
29