Transcript データ分析
データから情報を読み取るために、次の技術を身に
つける
1.
2.
3.
4.
5.
データを適切な図表に表す
データの数量的要約の方法とその意味について学ぶ
データ間の関係を説明する
統計調査の方法(課題解決的アプローチ)を学ぶ
統計的推測、確率的思考の基礎を学ぶ
参考書
1.
2.
3.
4.
実データで学ぶ、使うための統計入門
D. ムーア、G. マッケイブ
日本評論社
完全独習 統計学入門
小島 寛之
ダイヤモンド社
読む統計学 使う統計学 広田 すみれ
慶応義塾大学出版会
統計学の基礎
中西寛子
多賀出版
成績評価:課題・小テスト・レポート
データとは・データの収集と分類
1次元データの記述(分布を見る)
正規分布
多次元データの記述(関係を見る)
時系列データの記述
経済時系列
回帰分析入門
統計的推測に向けて・確率論的思考
金曜日 16:10~17:00
2号館8階 経済学部第10研究室
メールによる質問も受け付けますが、必ず学籍番号と
氏名を入れてください!
携帯 OFF!
私語・遅刻 厳禁
質問はいつでもOK!
授業中に発言(反応)しよう!
関係ないホームページを見ないこと!
5月13日(水)は4:30pmより行います
(1年生は懇親会に出席してください)
数量的情報(データ)はあらゆるところに存在
情報の賢い消費者になる
図表の読み方、数量情報に関する議論を理解する必要
私達の日常生活に影響を及ぼす様々なものが、統計的手
法により決定されている
病気の治療法・薬の認可 水道水の品質 保険料
将来、どのような職業についても、データに基づく意思決定
が必要に
1.
データを見やすく要約・記述
記述統計学
2.
データの規則性を探す
3.
1,2をもとに予測・推測、意思決定
データから学ぶ!
そのための手段が統計学
推測統計学
統計:集められた‘データの集合’自体
データ:ばらつきのある観測値の集合
統計学: データから有益な情報(法則性)を引き出す方法
---情報の賢い消費者になるために必要な技術
データを収集し、処理し、解釈するために用いられる手法
360 300 420 300 840 360 420 330 300 420 360 400 300 240
480 360 360 400 300 300 420 360 420 300 420 600 360 240
300 300 180 300 400 360 300 300 300 330 300 300 420 360
360 540 360 360 360 360 420 380 360 600 300 480 240 360
360 420 420 330 300 360 300 240 420 360 420 270 300 300
360 540 360 300 300 360 300 330 360 360 360 360 300 180
240 420 420 360 300 120 360 300 360 240 300 300 420
420 280 300 300 360 360 420 360 300 300 420 360 300
180 300 360 480 300 360 420 360 300 300 360 180 360
450 330 360 360 300 180 420 360 360 420 480 360 420
360 300 330 360 600 300 360 300 300 360 300 300 300
360 300 480 360 360 360 480 360 360 420 360 400 420
人
睡眠時間のグラフ
60
50
40
30
20
10
0
120 180 240 300 360 420 480 540 600 660 720 780 840
睡眠時間・分
1.
2.
3.
4.
5.
調査企画(計画)
問題は何か? どのようなデータが必要か?
データ収集
適切なデータの収集方法を計画、実行
データ整理(加工)
図表・数字を用いてデータを表現
データ分析
データの持つ情報を読み取る 結果を解釈
発表
必要であれば1.に戻る
統計調査:あるグループ(母集団)についての情報を得るた
めに、データを収集、分析
データ:観測または実験によって得られる値
他の人が集めたものを使うことも
データ収集:母集団の要素(個体)を観測し、変数の値(デー
タ)を測定
変数(変量): 各要素の性質 (特徴)
要素毎に異なる値
* 値に影響を及ぼさないよう観測することが大事
何のために集められたデータか(目的)
何(誰)に関するデータか
どのような特徴があるか
(変数はいくつあるか・変数は何か・各変数の単位
は?)
全数調査:興味の対象となる集団(母集団)のすべての
構成員について調査
例) 国勢調査 商業統計 工業統計
標本調査:興味の対象となる集団の一部についてのみ
調査
例) 家計調査 労働力調査
選ばれた一部:標本
母集団
標本調査
×
×
× ×
×
×
×
要素
×
×
×
記述統計学
×
×
標本
×
推測統計学
記述統計学:データを 読みやすい形に要約、編集
推測統計学:標本データをもとに母集団の性質につい
て推論
費用の節減
時間の短縮 (データの調査及び集計)
母集団が無限である場合
情報の範囲の拡大
精度の向上
標本調査の欠点
地域別等の細分が困難
標本の偏り
調査しやすい要素を選択
例)箱詰めオレンジの品質調査
例)百貨店の客に対する調査
回答者が自らが調査に参加するか否かを決定
例)電話による意思表示
恣意的な選択はバイアスをもたらす!
有意抽出法 :調査者が意識的に標本の構成員を選ぶ
調査の精度、評価できない
無作為抽出法 :調査者の主観が入らないように、機械
的な方法で標本を抽出すること(“偶然”を利用)
調査の誤差、客観的に評価可能
無作為抽出
① 単純無作為抽出法
② 層別抽出法(単純無作為抽出の精緻化)
③ 系統抽出法
④ 多段抽出法
母集団の構成要素のそれぞれに1~Nまでの番号を
ふる(母集団リスト作成)
くじ引きの要領でn個抽出(乱数を用いる)
全ての構成要素に等しいチャンス
他の要素とは独立(無関係)に抽出
母集団が大きい場合、母集団リストの作成は困難
調査費用大
母集団に関する予備知識の利用により精度を上げる
ことが可能
層化三段抽出法
第1段階:市町村の層別と抽出
第2段階:調査地区の無作為抽出
第3段階:調査世帯の無作為抽出
調査拒否をどれだけ減らすことが出来るか?
家計調査
標本抽出誤差(標本調査に固有)
たまたま偏りのある標本が選ばれる
誤差の大きさ、客観的に評価可能
非標本誤差(全数調査においても発生)
調査漏れ(リスト欠落・調査拒否)
回答・測定の偏り
こちらの方が深刻!
質的データと量的データ
1次元データと多次元データ
クロスセクションデータ・時系列データ・パネルデータ
性別
所有するPCのメーカー
郵政民営化への賛否
住居のある都道府県
etc.
数値として観測することができない
あるカテゴリー(項目)に属していることや、ある状態
にあることだけがわかる
質的データ
家族の子供の数
預金残高
東京の年間降水量
所有するCDの枚数
etc.
本質的に数字で表されるもの
量的データ
① 離散的データ…とりうる数値がとびとびの場合
典型的には数えることにより得られる
② 連続的データ…数直線上の特定の範囲でどのよう
な値でも取れる場合
典型的には測る(量る)ことにより得られる
① 名義(名目)尺度を持つデータ
項目間に自然な順序は存在しない
例)性別 PCのメーカー ビール会社
② 順序(順位)尺度を持つデータ
項目間に自然な順序が存在
例)ある商品をどう思うか
1.非常に良い 2.良い 3.まあまあ
4.悪い 5.非常に悪い
例)成績 S/A/B/C/D/E/F
クロスセクション(横断面)データ
各観測値が同一の時点(期間)のデータ
時系列データ
各観測値が時間の順序に並んでいるもの
パネルデータ
同一集団が繰り返し調査される場合