第3回講義資料

Download Report

Transcript 第3回講義資料

データ分析第2回授業
第2章データ分析の進め方
第3章データの収集と編成
データ分析の手順





研究テーマの選択
仮説の設定
計画の立案
データの収集
収集したデータの吟
味





データの分析
分析結果の検討
考察と結論
報告書の作成
発表
研究のデザイン
研究計画書を書く
 研究計画書に含まなければならない項目

目的
 関連先行研究の検討、提案研究の位置づけ
 (予算配分)
 研究の枠組み
 研究の内容
 期待される成果、社会的意義

研究の枠組み
研究の仮説
 作業計画(タイムスケジュール)
 作業分担

研究の内容
データ収集の方法
 分析の手法
 予算

テーマの選択
自分が興味を持てるテーマ
 自分がこの研究をすることによってオリジ
ナルな成果が出せる。
 文献をよくサーベイする(すでにされている
ことを繰り返しても意味がない)
 結果についてある程度見通しがつく(自分
なりの仮説がある)

データの収集と分析
既製データの利用
 自分でデータを収集

既製データの利用
データの出所
 データ項目の意味と分類基準
 他のデータとの整合性
 異常値や欠損値のチェック

自分でデータを収集
実験あるいは調査をデザイン
 倫理上の問題に留意
 被調査者、被験者に実験の趣旨を説明、
同意を得る

データの吟味
はずれ値、欠損値のチェック
 問題が生じる原因

データが異常な現実を反映
 測定に問題
 値の収集、処理のミス(入力ミスなど)

第3章 データの収集と編成
データの収集と編成

我々のまわりには多くのデータが存在している。


気温、身長、足の大きさ、タレント好感度、結婚件数、出生
率、株価、偏差値…….
あなたの関心のあるデータは何だろうか?考え
てみよう。



そのデータを集める意味は何だろうか?
そのデータはどのような性質を備えているだろう
か?
どのようにそのデータを集めるのか?
データとは何か?





「推論・判断の基礎となる情報を含んでいる事
実・数値」
「コンピューターのよる情報処理などのために記
号化・数値化した資料」
「知りたい対象を数値で測定し、表現するもの」
⇒数値で表現できないデータも存在する。
⇒しかし、「データ分析」で対象とする多くのデー
タは数値で表現できるデータを前提としている。
なぜ「数」を使うのか?





正確さ
客観的で正確な記述が可能
曖昧性の排除
汎用性
比較性



ある基準を設定して他のデータと比較することが可能。
確率判断からある種の予測を行うことが可能。
要約性(数値的要約、視覚的要約)



多くのデータを特定の視点からまとめることが可能。
簡潔な表現によって、データ全体の特徴や傾向を知ることが可能。
統計処理が可能
データのもつ情報の要約性
3大都市の観光客数(架空データ)
90
80
70
60
東京
名古屋
大阪
平均
50
40
30
20
10
0
1月
2月
3月
4月
データのタイプ

表現される対象の性質によって、データの
取り扱いも異なる。

データのタイプを見分ける3つのポイント



量的データか、質的データか?
離散変量か、連続変量か?
測定尺度(ものさし)は何か?
量的データの性質
対象の属性、特徴を数量によって表現
 量的に変化する特性を備える。
 数値、数量で表すのが容易なもの
 一定の基準により計算することが可能
⇒間隔尺度、比率尺度から得られる。
⇒カテゴリー区分にすると、質的データに変
換することも可能

質的データの性質
対象の属性や性質を表す。
 属性や言葉など質的な特性を表すもの
 数値や数量で表すのが難しい、あるいは
馴染まない。
⇒名義尺度や順序尺度から得られる。
⇒データの性質、必要に応じて「数量化」の
手続きを行う。

連続変量と離散変量

連続変量


連続的に変化する変量(小数点値もある)
例;長さ、広さ、重さ、時間など


一般的に、連続変量は量的データに分類される。
離散変量



頻度
整数値をとるデータ( 1つ、2つ、3つと数えられる)
例;人数や回数、個数など

離散変量は、量的データに分類されることが多いが、数量
化された質的データの中にも一部離散変量として扱えるも
のがある。
基本的な測定尺度(1)

名義尺度
数としてではなく単なる記号として任意の数字を用いている。

大小関係、差異に関する比較はできない。
⇒例;支持政党を問う時、自民党なら「1」、民主党なら「2」、公明党
なら「3」というように回答を数で表す方法。


順序尺度
測定値間の大小関係(順位関係)は表すが、その差異は表現
しない。平均をとる意味ない。

1番と2番の差は3番と4番の差と等しい保証は何もない。
⇒例;タレントの好き嫌いを問うとき、“とても嫌い”なら「1」、“やや
嫌い”なら「2」、“どちらでもない”なら「3」、“やや好き”なら「4」、
“とても好き”なら「5」

基本的な測定尺度(2)

間隔尺度
大小関係だけでなく、数値の間に等間隔性がある。

数値の差や和に意味があるが、測定値間の剰余は不可能。

間隔尺度で測定されるものの例は極めて少なく、比率尺度と
取り扱い上の共通点が多い。
⇒例:温度(摂氏、華氏)、知能指数など。


比率尺度 (比例尺度)




原点0が一義的に決まっている。
間隔尺度に原点を加えたもの。(絶対原点からの等間隔な目
盛りづけ)
ある対象の程度が別の対象の何倍であるかという比率を評価
できる。
⇒例;時間、長さ、重さ、人数など
量的データの分類まとめ
・量的に変化する特性を備える
・数値、数量で表すのが容易なもの
・一定の基準により計算することが可能
⇒比率尺度か間隔尺度で測定
量的データ
連続変量
連続的に変化
計量データともいう。
例:身長、気温、距離
離散変量
離散的に変化(常に整数値)
計数データともいう。
例:バスケットの得点差
質的データの分類まとめ
属性や言葉など質的な特性を表すもの
数値や数量で表すのが難しいもの
質的データ
数
量
化
順序づけ可能
例:顧客満足度、政治不信度、賛否意見
⇒順序尺度で測定
順序づけ不可能
例:血液型、性別、職業、出身地
⇒名義尺度で測定
数量化に馴染まないもの
例:日記、生活記録
どの尺度を用いているか???







1.好きなお酒の種類(“日本酒、ビール、ワイン、ウ
イスキーの中でどれが最も好きか?という質問に対
する回答)
2.結婚式にかけるお金の額
3.横綱、大関、関脇という相撲取りの番付
4.都道府県別交通事故数
5.“呼びすて”“君づけ”“さん付け”といった呼称の
様式
6.学年別「データ分析」の受講者数
7.生活満足度アンケート調査の回答(“大変満足し
ている”を「1」、“満足している”を「2」、“あまり満足
していない”を「3」、“満足していない”を4とした場
合)
どの尺度を用いているか?回答








1.好きなお酒の種類⇒名義尺度
2.結婚式にかけるお金の額⇒比率尺度
3. 相撲取りの番付⇒順序尺度
4.都道府県別交通事故数⇒比率尺度
5. 呼称の様式⇒名義尺度
6.学年別「データ分析」の受講者数⇒比率尺度
7.生活満足度アンケート調査の回答⇒順序尺度
間違っていた人はよく復習してください。
主要なデータの収集方法


実験⇒9週
調査⇒9週


質問紙法と面接法
図書館の活用



統計書
データベース
各種年鑑や資料
※分析用のデータ収集の前に、関心あるテーマに関する
基本的な書物も読んでおこう。
統計データの種類

集計データ


最初から個別調査の結果を集計量として提
示されているもの
個票データ
集計される前の個別のデータとして利用さ
れているもの
※但し、日本では、プライバシーの観点から個
票データが入手できる可能性は低い。

データ調査・作成主体

政府機関のデータ

政府統計

調査統計※統計作成自身が目的


業務統計


例;通関統計、出入国管理統計、犯罪統計、司法統計
加工統計


例;国勢調査、事業所統計調査、商業統計調査
例;国民経済統計
行政情報

各官庁が独自の調査
※政府統計と異なり必ずしもデータが公開されるとは限らない

民間調査機関や業界団体などの諸機関
統計データの探索

統計情報の索引から統計調査項目で探す


統計データを収録した年鑑類から数字を見なが
ら探す


『統計情報インデックス』、『統計調査総覧』、『~白書』
新聞社の年鑑、『民力』、『地域経済総覧』『理科年表』
統計データベースとインターネットの利用




日経NEEDS
DIALOG
官公庁のホームページ
SFCのデータベース活用⇒『データベースガイド』参考
統計データの探索例


例えば、貯蓄の動向についてのデータを
入手したい場合
http://www.stat.go.jp/data/chochiku/index.
htm
データの編成

時系列データ


クロスセクションデータ


時間軸に沿って並べられているデータ
時点を一定に保って、異なった対象を観測し
て得られるデータ
パネルデータ

クロスセクションデータがまとまって時系列
的に並んでいるデータ
課題

自分の関心のあるテーマに関する複数の
データを収集する具体的な方法を考えな
さい。