Transcript Document

1
統計学とケーブルテレビ
成蹊大学理工学部情報科学科
教授 岩崎 学
[email protected]
2
本日の話
• 要旨
• 今、統計学がビジネスをはじめとする様々な分野で注目を集めています。
• データに基づく合理的な判断の重要性が、認識されているからでしょう。
• 本講演では、ケーブルの現状および将来について、統計学的観点から
の考えを述べさせていただきます。
• アジェンダ
• 統計学ブーム!?
• 統計学の考え方
• こういうことに注意
• ケーブルテレビ
• これから
• 諸外国では
• 統計検定
3
The Sexy Job
• Hal Varian on how the Web challenges managers (2009)
• Google’s chief economist
• I keep saying the sexy job in the next ten years will be
statisticians.
• The ability to take data—to be able to understand it, to
process it, to extract value from it, to visualize it, to
communicate it—that’s going to be a hugely important skill
in the next decades, not only at the professional level but
even at the educational level for elementary school kids, for
high school kids, for college kids.
最強の学問(!?)
• 西内 啓 著
• ダイヤモンド社.1680円
• 2013.1出版
• あえて断言しよう。あらゆる学問のなかで
統計学が最強の学問であると。
• どんな権威やロジックも吹き飛ばして正解
を導き出す統計学の影響は、現代社会で
強まる一方である。
• 「ビッグデータ」などの言葉が流行ることも
そうした状況の現れだが、はたしてどれだ
けの人がその本当の面白さを知っている
だろうか。
5
さまざまなマスコミで
6
こういう書物もありますが...
7
NHK でも
• 2013年7月3日(水)クローズアップ現代
• 数字のカラクリ・データの真実~統計学ブームのヒミツ~
• 視聴率:10.7%(関東地区)
8
統計学の考え方-1.1
• データサイエンティスト 引く手あまたの状況をどう見る?
• データの種類と量の爆発的な増加
• 以前には,データを取る専門家がデータを取り,コンピュータに入力
• 最近では,一人ひとりがデータを入力している
• いろいろな種類のセンサーによるデータ取得
• 官公庁が積極的にデータを公表
• その種のデータを扱える人材が求められている
• データはあっても、欠損してるものが多々見られる?
データ = 数値 + 背景情報
• 最近は,数値だけでなく,テキストなどさまざまなもの
• 背景情報があればデータの欠損に対し,何らかの対処可能
• データがどう取られたのかを知ることが重要
9
統計学の考え方-1.2
• ビッグXを探す
• 昔は,「巨人,大鵬,卵焼き」のように,嗜好が均一
• 最近では,価値観の多様化
• ダイレクトメールの送付でも,グループによって効果の程度が異なる
⇒ 顧客のセグメンテーション
• ビッグXを、公共政策などで導き出せる可能性は?
• データをきちんと取る
• ランダム化比較実験 (RCT) の応用
• 因果関係の確立により,税金の有効的活用を図る
• 日本は、統計学を使える人たちが少ない?
• 人材の育成が急務
• 日本の大学にも統計学科を
10
統計学の考え方-2.1
• 確率は不確かさの確かな尺度
• 不確かさ,不確実性の客観的定量的評価が確率
• データ = 数値 + 背景情報
• コンピュータにできるのは数値解析,データ解析ではない
• データ = 構造 + 偶然変動 (Y = f(X) + e)
• データ解析では,「偶然変動」とは,分析者がそうみなすものであって,
もともとあるものではない
• データの持つ主要な部分(構造)とそうでもない部分(偶然変動と見なし
てしまうもの)との切り分けが分析者の腕の見せ所
• 偶然変動項の大きさとの比較で構造部分の有意性は偶然変動項との
比較で評価
• 現状認識と,予測(統計モデルの重要性)
11
統計学の考え方-2.2
• 研究目的の設定
• データ収集法の立案:実験,観察研究,調査
• データの収集(モニタリング)
• データの電子化
• データのチェック(クリーニング),マージ
• データの集計とグラフ化(予備的検討):記述統計
• 統計的推測ないしは予測:推測統計
• 分析結果のプレゼンテーション:文書化,口頭発表
• 意思決定(終了もしくは最初に戻る)
12
統計学の考え方-2.3
• データを主体的に取る
目的:処置効果の評価
• 実験研究:データ取得の計画が研究者自らの手でできる
• 観察研究:データ取得の計画が研究者自らの手ではできない
目的:現状を把握し,今後の政策立案などに生かす
• 調査:全数調査,標本調査
• データが集まっている(集まって来る)
データマイニング:データベースからの知識発見
ビッグデータ:多種多様かつ無秩序でダイナミックな数値情報,
文字情報,映像情報などを整理し,そこから新たな価値を
生み出す.
13
女子学生の名前
• お茶大での2文字名前の比率
=19/43=44.2%
• 成蹊大での2文字名前の比率
=6/35=26.2%
お茶大 (12)
24
19
NUM 3文字 2文字
1
あかり あい
2
あつみ あや
3
あやか えり
4
かおり かな
5
かおる くみ
6
かなこ
さき
7
くみこ
しほ
8
さおり
まお
9
ちあき まな
10
ちあき みき
11
ともみ
みさ
12 なつみ みさ
13 のぞみ みほ
14 はるか ゆか
15 はるか ゆみ
16
ひろこ
りえ
17 みずき りお
18 みなこ りか
19
ゆうこ
りさ
20
ゆうこ
21
ゆきこ
22
ゆりか
23
りかこ
24 れいな
43
8
「子」
佳奈子
久美子
寛子
美奈子
優子
由布子
由紀子
理香子
14
ちなみにこれは(調査時)
• 2文字名前の比率
=13/47=27.7%
• 最後に「か」の付く3文字名前が多い
• 今はかなり変わっているようだ
34
13
NUM 3文字 2文字
1
あいか あき
2
あすか あみ
3
あつこ かな
4
あみな さえ
5
あやか まゆ
6
あやか みか
7
さきこ
みく
8
さやか みほ
9
さやか ゆい
10
しずか ゆか
11
しほり
ゆき
12 じゅりな りえ
13 すみれ りな
14
ちさと
15
ともみ
16
ともみ
17
ともみ
18
なつき
19
なつみ
20
はるか
21
はるか
22
はるか
23
はるな
24
まゆみ
25
まりこ
26
まりや
27
みさき
28
みさと
29 みなみ
30 みなみ
31
みゆき
32
もえの
33
ゆうこ
34
れいな
15
お茶大と成蹊大との比較
• お茶大:19/43=44.2%
• 成蹊大: 6/35=26.2%
• 統計的検定:もし両大学で2文字名前の比率が同じとしたらこの
程度の差以上に差がある確率は0.0063でしかない
• 結論:お茶大と成蹊大では2文字名前の比率は異なるといえる
• お茶大のほうが2文字名前が入学しやすい?
16
過去8年間の推移
• 全体としては,両大学間で
•
•
•
•
顕著な差は見られない
ではなぜ統計的検定で両
大学間で差ありという結果
となったのか
たまたま両大学で差が大
きい年に気づいた
結果を見てから検定しては
ならない
教訓:たまたまに過ぎない
事を,あたかも真実のよう
に思い込んでしまう
17
女子学生と TOEIC
• ある大学における9学科の「女子学生比率」 (x) と「TOEIC の点
数の平均」 (y) との関係(相関係数 r = 0.80)
• 回帰直線 y = 305.71 + 1.96 x (%)
• 女子学生の比率が多いほど TOEIC の点数が高い,といえるか.
18
どう解釈すればいいのか
• 女子学生の比率が高いほど TOEIC の平均点が高いか
• どういうデータが必要か
• この例では,女子学生の TOEIC の点数が高い学科では,男
子学生の平均も高く,女子学生の平均の低い学科では男子
学生の平均も低い.
• 全体として,男女差は
なし
• Ecological inference
集計データからの統計的
推測
19
相関と因果
• 回帰式:y = 300 + 2 x
• x が1% 大きいと,y は 2 だけ大きい
• x を1%増やせば,y は 2 だけ増える
• 相関関係 (correlation) :現状把握
• 因果関係 (causality) :将来の予測に有用
• 統計的因果推論 (statistical causal inference)
20
生まれ月と性格
• 第一子の男性:細かいところまで気が回り,客観的.組織で働くこと
•
•
•
•
•
•
•
が得意だが,説教くさい一面も.感情表現が苦手.
第一子の女性:面倒見がよく,責任感も強い.ダメ男に引っかかり
やすい.可愛い弟がいる場合,婚期が遅れることも.
真ん中っ子の男性:空気を読むのがうまく,自分の評価を気にする.
兄がいる場合は,家を空けがちで自立が早い.中間管理職向き.
真ん中っ子の女性:空気は読むが,アピールすることも忘れない.
妹がいる場合,女らしい女子に厳しい.子供を3人欲しがる傾向が.
末っ子の男性:好きなことは突き詰める.甘え上手だが,部下にも
恵まれ,案外リーダータイプ.宵越しの金は持たない.
末っ子の女性:人のものは自分のもの.華があって甘えるのもうま
いが,責任感はない.姉がいる場合,気が強くなる傾向が.
一人っ子の男性:跡取りとして責任感はある.他人や組織には興味
はないが,自分の世界にはこだわりが.人との距離を測るのが苦手.
一人っ子の女性:極端なマイペース.おしゃべりで自己アピールは
得意だが,甘えるのは得意ではない.人当たりはかなりソフト.
21
統計学の寄与
• 調査研究の効率化,客観化,妥当性の向上
• 研究目的の設定
• 現状把握,因果関係の確立,将来予測
• データ収集法の設計
• 実験研究,観察研究,調査(全数調査,標本調査)
• 調査法:単純無作為抽出,層化抽出,集落抽出
• サンプルサイズの設計
• データの集計,グラフ化
• 種々の統計グラフ
• 基本統計量の導出
• 統計的推論
• 各データ解析手法
22
ケーブルテレビと統計
• 「テレビばっかり見てないで,勉強しなさい!」は過去の話
• 「たまにはテレビでも見たらどう?」が最近の台詞
• 共通の話題の欠如
• 問:「統計的に独立」というけど,野球の選手の各打席は独立だと思う?
• 答:野球ってなんですか.(お前,男か!)
• 「巨人,大鵬,卵焼き」も過去の話か
• 価値の多様化,顧客のセグメンテーション
• 新規契約者の確保
• 契約者の解約阻止(ロイヤリティの確保)
• 上質なサービス(どういうサービス)
• 地域密着
23
具体的には
• 現状把握
• 標本調査(パネル調査):調査法の設計,サンプルサイズの決定
• 調査結果の集計とグラフ化
• 基本統計量の算出,各種統計グラフ
• 多変量解析手法
• 主成分分析,因子分析,クラスター分析
• 介入とその効果の予測
• 実験的な研究(主体的介入研究)
• 統計的モデリング
• 各種予測手法モデルに基づく)
• 重回帰分析,判別分析
• 客観的評価
24
米国における AP Statistics
• AP = Advanced Placement
• 米国の高校における特別コース
• 5月に行なわれるテストで5段階の4以上のスコアを取ると,大
学初年級の初等統計の単位となる
• Section Ⅰ: 多肢選択型問題(5者択一)
• 40問,90分
• 正答=4点,誤答=-1点,無答=0点
• Section Ⅱ: 自由記述型問題
• 5問,13分×5 = 65分
• 1問,25分 (調査研究型)
• 11万人以上が履修する人気コース
⇒ 統計学はすべての学問の基礎としての認識
25
AP Statistics 内容
1.データの集計とグラフ化
• データのグラフ表現,分布の要約,分布の比較,2変量デー
タ,カテゴリカルデータ
2.標本調査と実験の方法
• データ収集の方法,標本調査の設計と実施,実験の計画と
実施
3.確率と確率分布
• 確率の基礎,確率変数の和と差,正規分布,標本分布
4.統計的推測
• 信頼区間,比率と平均に関する検定,適合度の検定と回帰
直線に関する推測
26
Harvard University: Empirical
and Mathematical Reasoning
• Teach the conceptual and theoretical
tools used in reasoning and problem
solving, such as statistics, probability,
mathematics, logic, and decision
theory.
• Also learn how to make decisions and
draw inferences that involve the
evaluation of data and evidence, and
how to recognize when an issue
cannot be settled on the basis of the
available evidence.
27
Harvard University, Statistics 100
• Quantitative Reasoning
• 15 weeks (Sep – Jan)
• Lectures: Three times a week (Mon, Wed, Fri)
• Sessions: Twice a week (Wed, Thu by Teaching fellow)
• Homework: Eight times. due Friday 16:00
• Exams: Two one-hour exams and final exam
• Project: Poster presentation
28
統計検定 (JSSC) 2013
• 日本統計学会公式認定
• 第3回試験:11月17日(日)
• 試種目別合格率 (2012)
• 1級(統計学)記述式.120分(25/158=16%)
• 2級(統計学基礎)5択.90分(319/840=38%)
• 3級(データの分析)4択.60分( 390/658=60%)
• 4級(資料の活用)4択.60分( 43/62=70%)
• 統計調査士(統計調査実務の基礎知識)( 149/302=50%)
• 専門統計調査士(高度な専門的知識)( 107/205=52%)