Transcript 第3回講義資料
データ分析第2回授業
第2章データ分析の進め方
第3章データの収集と編成
データ分析の手順
研究テーマの選択
仮説の設定
計画の立案
データの収集
収集したデータの吟
味
データの分析
分析結果の検討
考察と結論
報告書の作成
発表
研究のデザイン
研究計画書を書く
研究計画書に含まなければならない項目
目的
関連先行研究の検討、提案研究の位置づけ
(予算配分)
研究の枠組み
研究の内容
期待される成果、社会的意義
研究の枠組み
研究の仮説
作業計画(タイムスケジュール)
作業分担
研究の内容
データ収集の方法
分析の手法
予算
テーマの選択
自分が興味を持てるテーマ
自分がこの研究をすることによってオリジ
ナルな成果が出せる。
文献をよくサーベイする(すでにされている
ことを繰り返しても意味がない)
結果についてある程度見通しがつく(自分
なりの仮説がある)
データの収集と分析
既製データの利用
自分でデータを収集
既製データの利用
データの出所
データ項目の意味と分類基準
他のデータとの整合性
異常値や欠損値のチェック
自分でデータを収集
実験あるいは調査をデザイン
倫理上の問題に留意
被調査者、被験者に実験の趣旨を説明、
同意を得る
データの吟味
はずれ値、欠損値のチェック
問題が生じる原因
データが異常な現実を反映
測定に問題
値の収集、処理のミス(入力ミスなど)
第3章 データの収集と編成
データの収集と編成
我々のまわりには多くのデータが存在している。
気温、身長、足の大きさ、タレント好感度、結婚件数、出生
率、株価、偏差値…….
あなたの関心のあるデータは何だろうか?考え
てみよう。
そのデータを集める意味は何だろうか?
そのデータはどのような性質を備えているだろう
か?
どのようにそのデータを集めるのか?
データとは何か?
「推論・判断の基礎となる情報を含んでいる事
実・数値」
「コンピューターのよる情報処理などのために記
号化・数値化した資料」
「知りたい対象を数値で測定し、表現するもの」
⇒数値で表現できないデータも存在する。
⇒しかし、「データ分析」で対象とする多くのデー
タは数値で表現できるデータを前提としている。
なぜ「数」を使うのか?
正確さ
客観的で正確な記述が可能
曖昧性の排除
汎用性
比較性
ある基準を設定して他のデータと比較することが可能。
確率判断からある種の予測を行うことが可能。
要約性(数値的要約、視覚的要約)
多くのデータを特定の視点からまとめることが可能。
簡潔な表現によって、データ全体の特徴や傾向を知ることが可能。
統計処理が可能
データのもつ情報の要約性
3大都市の観光客数(架空データ)
90
80
70
60
東京
名古屋
大阪
平均
50
40
30
20
10
0
1月
2月
3月
4月
データのタイプ
表現される対象の性質によって、データの
取り扱いも異なる。
データのタイプを見分ける3つのポイント
量的データか、質的データか?
離散変量か、連続変量か?
測定尺度(ものさし)は何か?
量的データの性質
対象の属性、特徴を数量によって表現
量的に変化する特性を備える。
数値、数量で表すのが容易なもの
一定の基準により計算することが可能
⇒間隔尺度、比率尺度から得られる。
⇒カテゴリー区分にすると、質的データに変
換することも可能
質的データの性質
対象の属性や性質を表す。
属性や言葉など質的な特性を表すもの
数値や数量で表すのが難しい、あるいは
馴染まない。
⇒名義尺度や順序尺度から得られる。
⇒データの性質、必要に応じて「数量化」の
手続きを行う。
連続変量と離散変量
連続変量
連続的に変化する変量(小数点値もある)
例;長さ、広さ、重さ、時間など
一般的に、連続変量は量的データに分類される。
離散変量
頻度
整数値をとるデータ( 1つ、2つ、3つと数えられる)
例;人数や回数、個数など
離散変量は、量的データに分類されることが多いが、数量
化された質的データの中にも一部離散変量として扱えるも
のがある。
基本的な測定尺度(1)
名義尺度
数としてではなく単なる記号として任意の数字を用いている。
大小関係、差異に関する比較はできない。
⇒例;支持政党を問う時、自民党なら「1」、民主党なら「2」、公明党
なら「3」というように回答を数で表す方法。
順序尺度
測定値間の大小関係(順位関係)は表すが、その差異は表現
しない。平均をとる意味ない。
1番と2番の差は3番と4番の差と等しい保証は何もない。
⇒例;タレントの好き嫌いを問うとき、“とても嫌い”なら「1」、“やや
嫌い”なら「2」、“どちらでもない”なら「3」、“やや好き”なら「4」、
“とても好き”なら「5」
基本的な測定尺度(2)
間隔尺度
大小関係だけでなく、数値の間に等間隔性がある。
数値の差や和に意味があるが、測定値間の剰余は不可能。
間隔尺度で測定されるものの例は極めて少なく、比率尺度と
取り扱い上の共通点が多い。
⇒例:温度(摂氏、華氏)、知能指数など。
比率尺度 (比例尺度)
原点0が一義的に決まっている。
間隔尺度に原点を加えたもの。(絶対原点からの等間隔な目
盛りづけ)
ある対象の程度が別の対象の何倍であるかという比率を評価
できる。
⇒例;時間、長さ、重さ、人数など
量的データの分類まとめ
・量的に変化する特性を備える
・数値、数量で表すのが容易なもの
・一定の基準により計算することが可能
⇒比率尺度か間隔尺度で測定
量的データ
連続変量
連続的に変化
計量データともいう。
例:身長、気温、距離
離散変量
離散的に変化(常に整数値)
計数データともいう。
例:バスケットの得点差
質的データの分類まとめ
属性や言葉など質的な特性を表すもの
数値や数量で表すのが難しいもの
質的データ
数
量
化
順序づけ可能
例:顧客満足度、政治不信度、賛否意見
⇒順序尺度で測定
順序づけ不可能
例:血液型、性別、職業、出身地
⇒名義尺度で測定
数量化に馴染まないもの
例:日記、生活記録
どの尺度を用いているか???
1.好きなお酒の種類(“日本酒、ビール、ワイン、ウ
イスキーの中でどれが最も好きか?という質問に対
する回答)
2.結婚式にかけるお金の額
3.横綱、大関、関脇という相撲取りの番付
4.都道府県別交通事故数
5.“呼びすて”“君づけ”“さん付け”といった呼称の
様式
6.学年別「データ分析」の受講者数
7.生活満足度アンケート調査の回答(“大変満足し
ている”を「1」、“満足している”を「2」、“あまり満足
していない”を「3」、“満足していない”を4とした場
合)
どの尺度を用いているか?回答
1.好きなお酒の種類⇒名義尺度
2.結婚式にかけるお金の額⇒比率尺度
3. 相撲取りの番付⇒順序尺度
4.都道府県別交通事故数⇒比率尺度
5. 呼称の様式⇒名義尺度
6.学年別「データ分析」の受講者数⇒比率尺度
7.生活満足度アンケート調査の回答⇒順序尺度
間違っていた人はよく復習してください。
主要なデータの収集方法
実験⇒9週
調査⇒9週
質問紙法と面接法
図書館の活用
統計書
データベース
各種年鑑や資料
※分析用のデータ収集の前に、関心あるテーマに関する
基本的な書物も読んでおこう。
統計データの種類
集計データ
最初から個別調査の結果を集計量として提
示されているもの
個票データ
集計される前の個別のデータとして利用さ
れているもの
※但し、日本では、プライバシーの観点から個
票データが入手できる可能性は低い。
データ調査・作成主体
政府機関のデータ
政府統計
調査統計※統計作成自身が目的
業務統計
例;通関統計、出入国管理統計、犯罪統計、司法統計
加工統計
例;国勢調査、事業所統計調査、商業統計調査
例;国民経済統計
行政情報
各官庁が独自の調査
※政府統計と異なり必ずしもデータが公開されるとは限らない
民間調査機関や業界団体などの諸機関
統計データの探索
統計情報の索引から統計調査項目で探す
統計データを収録した年鑑類から数字を見なが
ら探す
『統計情報インデックス』、『統計調査総覧』、『~白書』
新聞社の年鑑、『民力』、『地域経済総覧』『理科年表』
統計データベースとインターネットの利用
日経NEEDS
DIALOG
官公庁のホームページ
SFCのデータベース活用⇒『データベースガイド』参考
統計データの探索例
例えば、貯蓄の動向についてのデータを
入手したい場合
http://www.stat.go.jp/data/chochiku/index.
htm
データの編成
時系列データ
クロスセクションデータ
時間軸に沿って並べられているデータ
時点を一定に保って、異なった対象を観測し
て得られるデータ
パネルデータ
クロスセクションデータがまとまって時系列
的に並んでいるデータ
課題
自分の関心のあるテーマに関する複数の
データを収集する具体的な方法を考えな
さい。