Transcript Document
統計学入門(1) 第9回 基本統計量のつづき --- 五点要約 と 箱ひげ図 --- 問題1 次のヒストグラムは、2006年の松坂投手のスライダーの球速(km/h)の 分布である。次の統計量の値がどれぐらいであるかを答えよ。 180 160 140 120 100 度数 80 60 40 20 0 116 118 120 122 124 126 128 130 132 134 136 138 140 142 144 146 球速 平均値( 129 標準偏差( 4.5 )中央値( 129 ) ) 範囲 ( 24 ) 統計学第9回 2 問題2 下のヒストグラムは、同じ年の直球の球速の分布である。ばらつきの大 きさを比較して、その違いをコメントせよ。 200 180 160 140 120 100 度数 80 60 40 20 0 133 135 137 139 141 143 145 147 149 151 153 155 球速 標準偏差は、4を若干下回るくらいの値であり、スライダーの場合の4.5より小さくなっており バラツキが小さいと思われる 統計学第9回 3 今日の講義 基本統計のつづき ローレンツ曲線とジニ係数 5点要約と箱ひげ図 5点要約: 最小値、第1四分位、中央値、第3四分位、最大値 箱ひげ図 練習問題 統計学第9回 4 ローレンツ曲線(Lorenz curve) データのバラツキの大きさ(分配の格差)を示す下に凸な 弓形のグラフ、下方向に張るほど格差が大きい 100% 分配額の累積比率 80% 60% 均等分配線 ローレンツ曲線 40% 格差最大の分配線 20% 0% 0% 20% 40% 60% 世帯数の累積比率 80% 100% ジニ係数(Gini's coefficient) 格差の程度を数値で測る指標 (均等分配) 0 ≦ジニ係数≦1 (格差最大) の 面積 ジニ係数 = の 面積 = 1/2 の 面積 100% 分配額の累積比率 80% 60% 40% 20% 0% 0% 20% 40% 60% 世帯数の累積比率 80% 100% = の面積×2 社員3名への給与の分配例 A社 100 B社 100 C社 10 100% A B C 80% 60% 200 300 50 300 500 100 標準偏差 変動係数 A社 82 0.41 B社 163 0.54 C社 37 0.69 40% 20% 0% 0% 20% 40% 60% 3社のローレンツ曲線 80% 100% A社の給与分配に関するローレンツ曲線の作成 給与の値は小さい順に並び替え A社 値 1 1 1 人 累積 累積相対度数 0 0.000 1 0.333 2 0.667 3 1.000 人数の累積相対度数を横軸に 値 100 200 300 100% 給与 累積 累積相対度数 0 0.000 100 0.167 300 0.500 600 1.000 給与の累積相対度数を縦軸に (1,1) 80% 60% (0.667,0.500) 40% 20% (0.333,0.167) (0,0) 0% 0% 20% 40% 60% 80% 100% ジニ係数の計算の仕方(3つの階級の場合) 100% ジニ係数は ④の領域の面積の2倍 ④ ③ ① 0% 0% ② 100% ジニ係数=(0.5-①の面積-②の面積-③の面積)/(1/2) ジニ係数の計算の仕方(3つの階級の場合) (1,1) 100% 80% 60% (0.667,0.500) 40% 20% (0.333,0.167) (0,0) 0% 0% 20% 40% 60% 80% 100% ①の面積=0.333×0.167 /2 ②の面積=(0.667-0.333)×(0.167+0.500) /2 ③の面積=(1-0.667)×(0.500+1) /2 ジニ係数=2×(0.5-①の面積-②の面積-③の面積)=0.22 3つの会社の給与の分析 3名ずつの社員の会社の給与 100% A社 B社 C社 100 100 10 60% 200 300 50 40% 300 500 100 20% A B C 80% 0% 0% 参考:標準偏差 変動係数 A社 82 0.41 B社 163 0.54 C社 37 0.69 ジニ係数 0.22 0.30 0.38 20% 40% 60% 3社のローレンツ曲線 80% 100% 総務省 統計局 家計調査: 第13表 貯蓄・純貯蓄・負債現在高階級別貯蓄及び負債の1世帯当たり現在高 第13表 貯蓄・純貯蓄・負債現在高階級別貯蓄及び 全 国・全 世 帯 100万円 未 満 集計世帯数 貯蓄 世帯数 606 33 貯 蓄 現 在 高 階 級 100 200 300 400 500 600 ~ ~ ~ ~ ~ ~ 200 300 400 500 600 700 378 348 350 344 351 319 144 245 343 444 545 644 区間内の平均貯蓄額 [世帯数×平均貯蓄額]で区間内の貯蓄の総計が算出できる 700 ~ 800 278 743 世帯あたり貯蓄残高の分析 平成10年度と平成15年度のローレンツ曲線の比較 100% 平成15年度 GI=0.55 90% 80% 平成10年度 GI=0.50 70% 60% 50% 40% 30% 20% 10% 0% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 平成10年度は貯蓄動向調査、平成15年度は家計調査から作成 年齢階級別所得のジニ係数(平成11年) 全国消費実態調査トピックス -日本の所得格差について- (平成14年8月2日 総務賞統計局) 等価可処分所得のジニ係数の国際比較 全国消費実態調査トピックス -日本の所得格差について- (平成14年8月2日 総務賞統計局) ローレンツ曲線の比較 http://www.nihonkaigaku.org/ham/eacoex/100econ/110step/113incl/ppgininc/ppgininc.html 「東アジア共生へのシナリオ」(浜松誠二)より引用 分布の5点要約 5つの統計量を使った分布の把握 最小値、最大値 第1四分位、中央値、第3四分位 上記5つの統計量を使ったグラフ表示 箱ひげ図(ボックスプロット) 統計学第9回 17 基礎統計量の視覚化 箱ひげ図(Box and whiskers plot) 箱と箱からのびる線(ひげ)を使って、 データのバラツキを示したグラフ あてはめる統計量(例) データの値 ヒゲの上端 箱の上限 中心点 箱の下限 ヒゲの下端 グループA グループB 最大値 第3四分位数 中央値 第1四分位数 最小値 図3-7 箱ひげ図 統計学第9回 18 箱ひげ図とヒストグラムを並べて書くと... (人) 30 20 10 0 50 55 60 65 70 75 80 85 90 成績 図3-2 ヒストグラム (量的変数) 箱ひげ図を寝かせて描いてみると... 95 100 8 6 4 2 0 2 4 6 最 大 最 小 8 7 5 % 2 5 % 1 0 x 1 x 2 x 3 x 4 図 2 . 9 比 較 の た め の 箱 ヒ ゲ 図 x 5 中 央 値 箱ひげ図とヒストグラムの対応 7 5 3 1 -1 -3 -5 200 100 175 150 200 90 80 175 70 150 60 125 125 100 75 50 100 40 75 30 50 50 20 25 0 10 0 25 0 分析事例(店舗別の分析) ボックスプロット (4class_rst.STA 31v*7948c) 3000 2500 2000 1500 金額 1000 500 0 742 784 中央値 25%-75% 外れ値以外の範囲 外れ値 極値 店舗 統計学第9回 22 分析事例(時間別の分析) ボックスプロット (4class_rst.STA 31v*7948c) 4000 3500 3000 2500 2000 金額 1500 1000 500 0 0 2 4 6 8 10 12 14 16 18 20 22 24 中央値 25%-75% 外れ値以外の範囲 外れ値 極値 時間 統計学第9回 23 前回の練習問題の解答 (1)から(4)に対応するヒストグラムはそれぞれどれか。 統計学第9回 24 ボックスプロット (matsuzaka2006.sta 151v*2886c) 160 150 球速 140 130 120 110 100 ストレート カットボール カーブ 中央値 スライダー チェンジアップ フォーク 25%-75% 最小-最大 球種名 (a) 平均球速が最も遅いと思われる球種は何か ( カーブ ) (b) ばらつきの大きさが最も大きいと思われる球種は何か (チェンジアップ) (c) スライダーの球速の平均値はどれくらいか ( 130km/h ) (d) スライダーの球速の標準偏差はどれくらいか ( 5km/h ) (e) チェンジアップの球速が130km/hを越す割合はどのくらいか ( 25%弱 ) (f) 投じたボールの球速が133km/hであった。どの球種であったと考えるのが妥当か。 (球種 フォーク 理由: ) 統計学第9回 25