Transcript Document

1
ビッグデータ時代のデータ活用術
成蹊大学理工学部情報科学科
教授 岩崎 学
(静岡県立浜松北高卒)
[email protected]
2
ケーブルフェスタ2013では
• 演題:統計学とケーブルテレビ
• アジェンダ
統計学ブーム!?
統計学の考え方
こういうことに注意
ケーブルテレビ
これから
諸外国では
統計検定
3
The Sexy Job
• Hal Varian on how the Web challenges managers (2009)
• Google’s chief economist
• I keep saying the sexy job in the next ten years will be
statisticians.
• The ability to take data—to be able to understand it, to
process it, to extract value from it, to visualize it, to
communicate it—that’s going to be a hugely important skill
in the next decades, not only at the professional level but
even at the educational level for elementary school kids, for
high school kids, for college kids.
4
セクシー・ジョブ
• グーグルのチーフエコノミストの Hal Varian は 2009 年のインタ
ビュー記事で次のように語った。
• 私は,今後10年間での魅力的な仕事(セクシー・ジョブ)は統計
家だといい続けてきた.
• データを取り,それを理解し,解析し,そこから価値を見出し,視
覚化し,人に伝える力,これらは,今後何十年にもわたって極め
て重要なスキルとなる.それは,専門家だけでなく,小中学校や
高校の生徒から大学の学生といった教育現場でもしかり.
5
さまざまなマスコミで (2013)
6
現代思想 (2014年6月号)
特集:ポスト・ビッグデータと統計学の時代
【イントロダクション】
ビッグデータと統計学/竹内 啓
【インパクト】
統計学にとって情報とは何か/竹村彰通
ビッグデータブームを考える/水田正弘
ビッグデータは科学を変えたか?/出口康夫
【統計学の現在】
統計的因果推論の考え方/岩崎 学
統計学・確率論の有効性とその限界/小島寛之
統計・実証主義・社会学的想像力/太郎丸 博
ほか
7
日経産業新聞
(2014. 6.10)
• 統計解析最前線
• ビジネスの場で生かす
統計解析
• 欧米で当たり前の統計解
析がなぜ日本企業で遅れ
ているのか
• 統計解析を企業利益につ
なげる人材の登用・育成が
カギ
• データが「集まる」時代こそ
より質の高い統計解析を
8
ビッグデータ関連の招待講演
• 岩崎 学:「統計学とケーブルテレビ」,ケーブルフェスタ2013
•
•
•
•
(ホテル名古屋ガーデンパレス)2013.10.
岩崎 学:「今,改めて問う統計解析の価値」,IBM SPSS統
計フォーラム2013特別講演(日本IBM).2013.10.
岩崎 学:「統計的因果推論から見たビッグデータ」,第5回
ビッグデータと統計学研究集会依頼講演(北海道大学)
2014.4.
岩崎 学:「データ分析における「第三の変数」の功罪」,SAS
ユーザー総会2014 基調講演(東京大学)2014.7.
岩崎 学:「ビッグデータ時代の統計活用術」,ケーブルフェス
タ2014(ホテル名古屋ガーデンパレス)2014.10.
9
講演での結論:統計家はこう考える
• 因果関係の確立には実験研究が gold standard
• 実験研究が必ずしも可能とは限らない
• 観察研究による因果推論では,実験研究に近づける努力
• 後ろ向き研究しかできないことも多い
• 稀な事象の場合には,ほとんど唯一の方法論
• 現在そこにあるデータについては
• データの素性を明確に
• データ取得の 5W1H
10
統計分析の流れ
• 研究目的の設定
• データ収集法の立案:実験,観察研究,調査
• データの収集(モニタリング)
• データの電子化
• データのチェック(クリーニング),マージ
• データの集計とグラフ化(予備的検討):記述統計
• 統計的推測ないしは予測:推測統計
• 分析結果のプレゼンテーション:文書化,口頭発表
• 意思決定(終了もしくは最初に戻る)
11
データ収集法と分析法
• データを主体的に取る
目的:処置効果の評価
• 実験研究:データ取得の計画が研究者自らの手でできる
• 観察研究:データ取得の計画が研究者自らの手ではできない
目的:現状を把握し,今後の政策立案などに生かす
• 調査:全数調査,標本調査
• データが集まっている(集まって来る)
データマイニング:データベースからの知識発見
ビッグデータ:多種多様かつ無秩序でダイナミックな数値情報,
文字情報,映像情報などを整理し,そこから新たな価値を
生み出す.
12
データ取得の 5W1H
• Who, What, When, Where, Why + How
• 統計では特に How が重要
• Whom と How Much を加えて 6W2H (Wikipedia より)
• 統計分析の目的は,母集団の性質を知ること
• 統計分析の敵は,かたよりとばらつきでござる
母集団
標本
13
サンプリング法とサンプルサイズ
• 郵送法,留置き法,WEB調査,訪問調査,インタビュー
• 手法による結果の傾向(ウェブアンケートとほかの手法)
• ウェブアンケートは回答者の年令が若い
• ウェブアンケートは評価がハッキリ出やすい
• データ数 N は多いほうがいい?
• 教科書的にはYES
• 母集団はある意味均一,ランダム抽出
• 実際には「場合による」
• 調査・研究の目的は何か,母集団でのばらつきはどうか
• データの質は保たれているか,予算はいくらか
• 回答率の目安はあるか?
• 「回答」と「無回答」では差があるか
• 新薬開発の臨床試験では,欠測率が15%を超えると試験の質が疑問視
14
1変量,2変量,多変量
• 1変量:データの要約(平均,標準偏差),グラフ化(棒グラフ,
円グラフ,ヒストグラム)
• 2変量:2つの観測データ X,Y 間の関係(相関係数,散布
図,回帰式 Y = a + bX)
• 相関関係(相関係数,散布図),X と Y は対等の関係
• 因果関係:X が原因で Y が結果
• 多変量:3つ以上の調査項目間の関係(要約統計量,グラフ
化上の工夫),各種多変量解析手法
• 多変量間の関係の吟味
• ある特定の Y の予測(重回帰分析)
15
統計は,易しくない-1
• 「統計検定」運営でのつぶやき:計算問題は簡単だが,解釈は
難しい
• 下の表において,男子で数学好きの人の比率はいくらか.
• 男子かつ数学好き?
30/100 = 0.3
• 男子の中で数学好き? 30/50 = 0.6
どちらの教科が好き?
度数
数学
国語
計
男子
30
20
50
女子
15
35
50
計
45
55
100
• 下の表で,「薬剤A」かつ「有効」の比率はいくらか.
どちらの薬が効く?
度数
有効
無効
計
薬剤A
30
20
50
薬剤B
15
35
50
計
45
55
100
16
統計は,易しくない-2
• 下の表で,事故総数は二輪車の事故の何倍か.
• 全体の20%が二輪車の事故である.(YES, NO)
交通事故件数
自転車 オートバイ 自動車 トラック
10
10
60
20
計
100
• 勉強時間 (x 時間) とテストの点数 (y 点) に関する回帰式を
y = 30 + 4 x とする.
• x = 5 とすると y = 50, x = 7 とすると y = 58
• 勉強時間が多い人ほどテストの点数が高い (YES, NO)
• 勉強時間を2時間増やすとテストの点数は何点上がるか
17
例1(2013年統計検定1級(理工))
• 新開発のタイヤB(処置)が既存品のタイヤA(対照)に比べ走
行距離に異なる影響を与えるかどうかの実験結果
• 各自動車に対しいずれのタイヤを装着するかは無作為に割
付け.
表1.1:タイヤAおよびBの走行テストの結果
タイヤA
ID
総排気量 走行距離
A1
1.3
19.4
A2
1.5
17.7
A3
1.5
16.2
A4
1.8
15.9
A5
1.8
16.1
A6
2.0
14.3
平均
1.65
16.60
分散
0.067
3.048
ID
B1
B2
B3
B4
B5
B6
平均
分散
タイヤB
総排気量 走行距離
1.5
20.3
1.5
18.3
1.8
18.5
1.8
16.1
2.0
14.6
2.2
14.2
1.80
17.00
0.076
5.848
18
例1(分析結果)
• 総排気量 (x) を考慮せずに群間差 z のみの分析では,走行距
離の平均の差 (b1) は0.4で,2標本 t 検定のP値は 0.749 と統
計的に有意ではない
• 説明変数を z と x とした共分散分析を行なうと,走行距離の平
均の差は 1.46 となり,P値も 0.037 と小さく,統計的に有意
タイヤA
ID
総排気量 走行距離
A1
1.3
19.4
A2
1.5
17.7
A3
1.5
16.2
A4
1.8
15.9
A5
1.8
16.1
A6
2.0
14.3
平均
1.65
16.60
分散
0.067
3.048
ID
B1
B2
B3
B4
B5
B6
平均
分散
タイヤB
総排気量 走行距離
1.5
20.3
1.5
18.3
1.8
18.5
1.8
16.1
2.0
14.6
2.2
14.2
1.80
17.00
0.076
5.848
19
例1(グラフ表示)
• 図1.1.
(a) 走行距離の群間比較
(c) 共分散分析
20
例2.逆回帰-1
• Y :1日あたりの賃金(単位:千円)
• X :労働時間(単位:時間)
• (X, Y) の分布:
男性:N(7, 7, (0.5)2, (0.5)2, 0.125),
女性:N(6, 6, (0.5)2, (0.5)2, 0.125),
(共に時給1,000円!)
• 共変量の労働時間 X を無視して,「一日
あたりの平均賃金が男性では7,000円,
女性では6,000円であるので差別だ」とい
う議論はもちろんナンセンス
21
例2.逆回帰-2
• X から Y への回帰式:
男性:y = 3.5 + 0.5x,女性:y = 3.0 + 0.5x
• 同じ労働時間(6.4時間)では,
男性:y = 3.5 + 0.5  6.4 = 6.7,女性:y = 3.0 + 0.5  6.4 = 6.2
• 男性のほうが500円多く,性差別(女性に不利)が存在
• X Y から Y X への回帰式:
男性:x = 3.5 + 0.5y,女性:x = 3.0 + 0.5y
• 同じ賃金(6,400円)を得るためには,
男性:x = 3.5 + 0.5  6.4 = 6.7,女性:x = 3.0 + 0.5  6.4 = 6.2
• 男性のほうが 0.5 時間多く働く必要がある,という意味で性差別
(男性に不利)が存在
22
例2.逆回帰-3
• (X, Y) の分布:
• 男性:N(7, 7, (0.5)2, (0.5)2, 0.125),
• 女性:N(6, 6, (0.5)2, (0.5)2, 0.125),共に時給1,000円.
賃
金
労働時間
23
オンライン教材(統計の授業で使用)
総務省統計局 データサイエンス・スクール
• 「総務省統計局データサイエンス・スクール」で検索
• 初級,中級,上級の各テキストのダウンロード
• 初級,中級,上級の各問題への解答
JMOOC gacco「統計学Ⅰ:データ分析の基礎」
• 会員登録をして,「統計学Ⅰ」を受講(無料)
• 受講期間:11月12日から5週間
• 小テストと最終テストに解答
• オプション:スタディーノートの購入(1,000円)
24
統計検定 (JSSC) 2014
• 日本統計学会公式認定
• 2014年11月30日(日)
• 試種目別合格率 (2013)
• 1級(統計学)記述式.120分(32/227=14%)
• 2級(統計学基礎)5択.90分(635/1510=42%)
• 3級(データの分析)4択.60分( 737/1217=61%)
• 4級(資料の活用)4択.60分( 146/195=75%)
• 統計調査士(統計調査実務の基礎知識)( 170/403=42%)
• 専門統計調査士(高度な専門的知識)( 93/229=41%)
25
統計検定 (JSSC) 2014
• 2014年11月30日(日)
• 学習マテリアル