データの入手/ヒストグラム(sb041)

Download Report

Transcript データの入手/ヒストグラム(sb041)

統計の基礎
第4回
データの入手/ヒストグラム
5月20日
【目標】
• 既存データの入手・活用ができるようになる。
• 度数分布を表すヒストグラムを作成できるよう
になる。
【構成】
データの入手/ヒストグラム
1.データの入手
2.ヒストグラム
(1)区間設定
(2)カウント(計数)
(3)グラフ化
(4)累計化
Excel分析ツール/グラフ
1.データの入手
(1)業務での蓄積データ
情報システムの浸透の中で、
膨大なデータが蓄積されている
• ETL (Extra/Transform/Load)
• DWH データウェアハウス(Data warehousing)
• DM(Data Mart)部分DB
• OLAP(On Line Analysis Procces)
• データマイニング(Data mining)
• モニタリング (ダッシュボード)
データマイニング(Data mining)
POSやオンラインショッピングによる大量のITデータの中から
法則性を見つけ出す
• 相関分析
• セグメンテーション分析
• マーケット・バスケット分析
主に共起現象を探り、セールスに結び付け
•
•
例1:スーパーでビデオとガムテープが共に売れる →
両者を同じ場所に置く。
オムツとビール、日曜大工道具とシップ薬
例2:本Aを買う人は、後に本Bを買うことが多い
購入者に本Bを薦めるダイレクトメールを送る。
(2)公式統計
•
•
•
•
•
•
•
インターネットからの統計入手
【話題の統計】
【政府統計】 政府統計の総合窓口
【県等の統計】
【各国の統計】
【国際機関の統計】
【その他】
(3)統計調査
⇒第6講 統計調査の実際
• ワーディング
• サンプリング
2.ヒストグラム
新しいデータを入手した時、まず何をやるか
→全体の様子を見る
• 度数分布グラフ
度数 出現頻度(の数)
◎Histogram
カール・ピアソン 1895年創案
ギリシャ語 histos「すべてのものを直立にする」
gramma「記録すること」
(1)区間設定
•
最大・最小値を求める
• 適宜、階層を設定する
階層区分
標本数から凡その区分数を考える
区切りのよい区分を設定する
多少の試行錯誤
山型の分布を想定
区分数の目安
スタージェスの公式 logN/log2+1
(平方根 N^0.5)
50→7,100→8,500→10,1000→11,5000→13
境界線に注意
• 以上、未満
• 超、以下
●─
○─
─○
─●
• 対数尺度の利用
(2)カウント(計数)
• 階層ごとの数を数える COUNTIFS
作表
• 構成比による表現
確率表現へ
(3)グラフ化
•
棒グラフを作成する。
書式の調整
※階層幅を配慮したグラフ
(狭義のヒストグラム)
• 区間の幅によって頻度が決まり、
実際のイメージが分からない
• 横軸を階層幅とし頻度は面積で表す。階層間
に隙間を入れない。
⇒「スカイライングラフ」
(4)累計化
• 累積度数の計算