四分領域

Transcript 四分領域

第１日目第２時限の学習目標
 基本的な１変量統計量（その２）につい
て学ぶ。
 尺度水準と適切な統計量との関連を整理
する。
 ２変量データを手にした時の分布の特徴
の記述方法について学ぶ。
 基本的な２変量統計量ー１
カイ２乗統計量につ
いて学ぶ。
基本的な１変量統計量ー２
(a) 中央値、四分領域
 中央値ーデータを小さい順に並べたとき、中央
（５０パーセント点）にくる値のこと。
 第１四分位数ーデータを小さい順から大きい順に
並べたとき、下から４分の１（２５パーセント
点）にくる値のこと。
 第３四分位数ーデータを小さい順から大きい順に
並べたとき、下から４分の３（７５パーセント
点）にくる値のこと。
 四分領域ーデータを小さい順に並べたとき、第３
四分位数と第１四分位数の差の半分の値のこと。
基本的な１変量統計量ー２
(b) 四分位数と四分領域 Q の関係
Q = (Q3-Q1)/2
２５％
２５％
Q1
２５％
Mdn
２５％
Q3
基本的な１変量統計量ー２
(c) 中央値 (Median) の求め方
 中央値の求め方は、「心理統計学 a」のテキストの
p.17 の (4.1) 式の通りである。すなわち、
 N


Mdn  lm  h  cum(lm )  / f m , (4.1)

 2

• ここで、lm は、中央値のある階級の下限点、
• h は、階級の幅、
• cum (lm) は、中央値のある階級より１つ手前までの
累積度数、
• fm は、中央値のある階級の度数
基本的な１変量統計量ー２
(d)第１四分位数の求め方
 第１四分位数の求め方は、「心理統計学 a」のテキス
トの p.17 の (4.2) 式の通りである。すなわち、
 N


Q1  lQ1  h  cum(lQ1 )  / fQ1 , (4.2)

 4

• ここで、lQ1 は、第１四分位数のある階級の下限点、
• h は、階級の幅、
• cum (lQ1) は、第１四分位数のある階級より１つ手前
までの累積度数、
• fQ1 は、第１四分位数のある階級の度数
基本的な１変量統計量ー２
(e) 第３四分位数の求め方
 第３四分位数の求め方は、「心理統計学 a」のテキス
トの p.17 の (4.3) 式の通りである。すなわち、
Q3  lQ3
  3N


 h
 cum(lQ3 )  / fQ3 , (4.3)

  4

• ここで、lQ3 は、第３四分位数のある階級の下限点、
• h は、階級の幅、
• cum (lQ3) は、第３四分位数のある階級より１つ手前
までの累積度数、
• fQ3 は、第３四分位数のある階級の度数
基本的な１変量統計量ー２
(f) 四分領域の求め方
 これらにより、中央値 (Mdn)、第１四分位数
(Q1)、第３四分位数 (Q3) が求まったならば、テ
キスト p.16 の下方の公式により、
Q3  Q1
Q
2
として、四分領域 (Q) を求めればよい。
基本的な１変量統計量ー２
(g) 最頻値（mode）
 最頻値ー得ら
れる確率が最
も高い値、も
しくは得えら
れる頻度の最
も多い値。
 右の図では、
２つの山のう
ちの右側に対
応するｘの値
(mode と
mode
x
基本的な１変量統計量ー２
(h) 中央値、四分領域、最頻値の性質
 中央値、四分領域は、順序情報以上の尺度レベ
ルのデータでは計算可能である。なぜ？
 最頻値は、名義尺度、順序尺度、間隔尺度、比
率尺度のいずれのレベルのデータでも計算可能
である。なぜ？
基本的な１変量統計量ー２
まとめ
 これまでに学
んだ基本的な
１変量統計量
の代表的な幾
つかを尺度水
準との関連で
まとめると右
の図のように
なる。
順序尺度
間隔尺
度・比率
尺度
平均
代表値
中央値
(Mdn)
ばらつき
四分位数標準偏差
(Q) （分散）
２変量データを手にした時の
分布の特徴の記述－１
 何らかの目的で N 対の対データ（２変量デー
タ）
1 1
2 2
N
N
( x , y ), ( x , y ),, ( x , y )
を手にしたとする。
 サンプル数 N がある程度以上大きい場合、簡
単にデータの全体像をつかむためには、データ
が原則的に名義尺度レベルの場合はまず分割表
を、順序尺度レベル以上であれば散布図を描け
ばよい。
２変量データを手にした時の
分布の特徴の記述－２
 分割表とは、例
えば５１４名の
被験者を（行と
列の）２つの属
性を用いて、右
のように分類し
たものである。
厳しす適当
ぎ
もっと
厳しく
男
２７
２７５
７５
女
３
１２４
１０
データの内容ー１
 上記データは、新入生に対する永平寺
参禅時の５１４名の学生に対する、参
禅後の調査データを２つの属性で分類
したものである。
 属性の１つは学生の性別（男子、女子
）であり、他方は永平寺の雲水による
坐禅指導の評価（厳しすぎた、適当、
もっと厳しく）である。
データの内容ー２
 もとのデータは、上記２変量の対（ｘ、ｙ）が
、
（性別、座禅指導の評価）、
から成る、一対のデータ、５１４名分である。
（２，２）、（２，３）、（１，
２）、… 、（１，２）
これらを、うえの表のようにまとめたものは、
分割表または、クロス表と呼ばれる。
分割表（又はクロス表）の作り方
データ（２，２）、（２，３）、（１，２）、… 、（１，２）
1.厳し
過ぎた
1.男子
学生
2.女子
学生
計
2. 適当
3.もっと
厳しく
計
演習（２）
 次の２０対（２０名）の２変量データセットの１つ
を用いて、２×２分割表を作成せよ。ここで、（x、
y）変量のうち、前者は性別を後者は向性（外向、内
向）を表すものとする：
（データセット１）：
（１，１）、（２，２）、（１，２）、（
１，１）、（２，１）、
（１，１）、（２，１）、（２，１）、（
１，１）、（２，２）、
（１，２）、（１，２）、（１，１）、（
演習（２）の続き
（データセット２）：
（２，１）、（２，２）、（２，１）、（
１，１）、（２，１）、
（１，１）、（２，２）、（２，１）、（
１，２）、（１，２）、
（１，２）、（１，２）、（１，２）、（
１，２）、（２，１）、
（２，２）、（２，２）、（１，２）、（
１，２）、（２，１）
２変量データを手にした時の
分布の特徴の記述－３
 散布図とは、例えば、
千野のホームページ
の講義ノートの中の
「データ解析/基礎と
応用」の１．２．３
節「はずれ値の相
関係数への影響」の
項にあるような図で
ある。
２変量データを手にした時の
分布の特徴の記述－４
 データが名義尺度レベルの場合には、
うえで紹介した分割表（クロス表）を
もとに、２変量間の連関を表すための
以下のような多くの指標がある。
 それらは、例えば、統計学辞典（東洋
経済、１９８９、pp.341-343）を見る
と、以下のように各種の指標がこれま
でに提案されていることがわかる：
２変量データを手にした時の
分布の特徴の記述－５
 それらは、
（１）カイ２乗統計量系指標（ピアソンのカイ２
乗統計量、
クラメールのV、チュプロウの T、ピアソン
の一致係
数 C、尤度比カイ２乗統計量）
（２）予測関連指標（グッドマン・クラスカルの
予測関連
指数）
（３）その他、ヘイズの不確実性係数、コーエン
２変量データを手にした時の
分布の特徴の記述－６
 一方、データが順序尺度レベルの場合には、２
変量間の順位相関・関連係数を表すための以下
のような多くの指標がある。例えば統計学辞典
（東洋経済、１９８９、pp.338-340）。
 それらは、
（１）ケンドールの順位相関係数
（２）スピアマンの順位相関係数
（３）ソマーズの関連指数、その他
である。
２変量データを手にした時の
分布の特徴の記述－７
 最後に、データが間隔尺度レベルの場合には、
２変量間の相関関係を表すための以下のような
指標がある。例えば統計学辞典（東洋経済、１
９８９、pp.334-337）を見ると、
 それらは、
（１）共分散
（２）ピアソンの（偏差積率）相関係数
（３）偏相関係数、重相関係数、偏回帰係数、
その他
である。
２変量データを手にした時の
分布の特徴の記述－８
 この授業では、これらのうち、
（１）名義尺度レベルの対データの場合の代
表的な連関の関連性の検討のための統計量であ
るピアソンのカイ２乗統計量と、
（２）間隔尺度レベル以上の対データの場合
の代表的な２変量間の関連性の指標である共分
散及び相関係数
についてのみ、簡単に触れる。

四分領域

Transcript 四分領域

Directory