Transcript 四分領域
第1日目第2時限の学習目標
基本的な1変量統計量(その2)につい
て学ぶ。
尺度水準と適切な統計量との関連を整理
する。
2変量データを手にした時の分布の特徴
の記述方法について学ぶ。
基本的な2変量統計量ー1
カイ2乗統計量につ
いて学ぶ。
基本的な1変量統計量ー2
(a) 中央値、四分領域
中央値ーデータを小さい順に並べたとき、中央
(50パーセント点)にくる値のこと。
第1四分位数ーデータを小さい順から大きい順に
並べたとき、下から4分の1(25パーセント
点)にくる値のこと。
第3四分位数ーデータを小さい順から大きい順に
並べたとき、下から4分の3(75パーセント
点)にくる値のこと。
四分領域ーデータを小さい順に並べたとき、第3
四分位数と第1四分位数の差の半分の値のこと。
基本的な1変量統計量ー2
(b) 四分位数と四分領域 Q の関係
Q = (Q3-Q1)/2
25%
25%
Q1
25%
Mdn
25%
Q3
基本的な1変量統計量ー2
(c) 中央値 (Median) の求め方
中央値の求め方は、「心理統計学 a」のテキストの
p.17 の (4.1) 式の通りである。すなわち、
N
Mdn lm h cum(lm ) / f m , (4.1)
2
• ここで、lm は、中央値のある階級の下限点、
• h は、階級の幅、
• cum (lm) は、中央値のある階級より1つ手前までの
累積度数、
• fm は、中央値のある階級の度数
基本的な1変量統計量ー2
(d)第1四分位数 の求め方
第1四分位数の求め方は、「心理統計学 a」のテキス
トの p.17 の (4.2) 式の通りである。すなわち、
N
Q1 lQ1 h cum(lQ1 ) / fQ1 , (4.2)
4
• ここで、lQ1 は、第1四分位数のある階級の下限点、
• h は、階級の幅、
• cum (lQ1) は、第1四分位数のある階級より1つ手前
までの累積度数、
• fQ1 は、第1四分位数のある階級の度数
基本的な1変量統計量ー2
(e) 第3四分位数 の求め方
第3四分位数の求め方は、「心理統計学 a」のテキス
トの p.17 の (4.3) 式の通りである。すなわち、
Q3 lQ3
3N
h
cum(lQ3 ) / fQ3 , (4.3)
4
• ここで、lQ3 は、第3四分位数のある階級の下限点、
• h は、階級の幅、
• cum (lQ3) は、第3四分位数のある階級より1つ手前
までの累積度数、
• fQ3 は、第3四分位数のある階級の度数
基本的な1変量統計量ー2
(f) 四分領域の求め方
これらにより、中央値 (Mdn)、第1四分位数
(Q1)、第3四分位数 (Q3) が求まったならば、テ
キスト p.16 の下方の公式により、
Q3 Q1
Q
2
として、四分領域 (Q) を求めればよい。
基本的な1変量統計量ー2
(g) 最頻値(mode)
最頻値ー得ら
れる確率が最
も高い値、も
しくは得えら
れる頻度の最
も多い値。
右の図では、
2つの山のう
ちの右側に対
応するxの値
(mode と
mode
x
基本的な1変量統計量ー2
(h) 中央値、四分領域、最頻値の性質
中央値、四分領域は、順序情報以上の尺度レベ
ルのデータでは計算可能である。なぜ?
最頻値は、名義尺度、順序尺度、間隔尺度、比
率尺度のいずれのレベルのデータでも計算可能
である。なぜ?
基本的な1変量統計量ー2
まとめ
これまでに学
んだ基本的な
1変量統計量
の代表的な幾
つかを尺度水
準との関連で
まとめると右
の図のように
なる。
順序尺度
間隔尺
度・比率
尺度
平均
代表値
中央値
(Mdn)
ばらつき
四分位数 標準偏差
(Q) (分散)
2変量データを手にした時の
分布の特徴の記述-1
何らかの目的で N 対の対データ(2変量デー
タ)
1 1
2 2
N
N
( x , y ), ( x , y ),, ( x , y )
を手にしたとする。
サンプル数 N がある程度以上大きい場合、簡
単にデータの全体像をつかむためには、データ
が原則的に名義尺度レベルの場合はまず分割表
を、順序尺度レベル以上であれば散布図を描け
ばよい。
2変量データを手にした時の
分布の特徴の記述-2
分割表とは、例
えば514名の
被験者を(行と
列の)2つの属
性を用いて、右
のように分類し
たものである。
厳しす 適当
ぎ
もっと
厳しく
男
27
275
75
女
3
124
10
データの内容ー1
上記データは、新入生に対する永平寺
参禅時の514名の学生に対する、参
禅後の調査データを2つの属性で分類
したものである。
属性の1つは学生の性別(男子、女子
)であり、他方は永平寺の雲水による
坐禅指導の評価(厳しすぎた、適当、
もっと厳しく)である。
データの内容ー2
もとのデータは、上記2変量の対(x、y)が
、
(性別、座禅指導の評価)、
から成る、一対のデータ、514名分である。
(2,2)、(2,3)、(1,
2)、… 、(1,2)
これらを、うえの表のようにまとめたものは、
分割表または、クロス表と呼ばれる 。
分割表(又はクロス表)の作り方
データ (2,2)、(2,3)、(1,2)、… 、(1,2)
1.厳し
過ぎた
1.男子
学生
2.女子
学生
計
2. 適当
3.もっと
厳しく
計
演習(2)
次の20対(20名)の2変量データセットの1つ
を用いて、2×2分割表を作成せよ。ここで、(x、
y)変量のうち、前者は性別を後者は向性(外向、内
向)を表すものとする:
(データセット1):
(1,1)、(2,2)、(1,2)、(
1,1)、(2,1)、
(1,1)、(2,1)、(2,1)、(
1,1)、(2,2)、
(1,2)、(1,2)、(1,1)、(
演習(2)の続き
(データセット2):
(2,1)、(2,2)、(2,1)、(
1,1)、(2,1)、
(1,1)、(2,2)、(2,1)、(
1,2)、(1,2)、
(1,2)、(1,2)、(1,2)、(
1,2)、(2,1)、
(2,2)、(2,2)、(1,2)、(
1,2)、(2,1)
2変量データを手にした時の
分布の特徴の記述-3
散布図とは、例えば、
千野のホームページ
の講義ノートの中の
「データ解析/基礎と
応用」の 1.2.3
節 「はずれ値の相
関係数への影響」の
項にあるような図で
ある。
2変量データを手にした時の
分布の特徴の記述-4
データが名義尺度レベルの場合には、
うえで紹介した分割表(クロス表)を
もとに、2変量間の連関を表すための
以下のような多くの指標がある。
それらは、例えば、統計学辞典(東洋
経済、1989、pp.341-343)を見る
と、以下のように各種の指標がこれま
でに提案されていることがわかる:
2変量データを手にした時の
分布の特徴の記述-5
それらは、
(1)カイ2乗統計量系指標(ピアソンのカイ2
乗統計量、
クラメールのV、チュプロウの T、ピアソン
の一致係
数 C、尤度比カイ2乗統計量)
(2)予測関連指標(グッドマン・クラスカルの
予測関連
指数)
(3)その他、ヘイズの不確実性係数、コーエン
2変量データを手にした時の
分布の特徴の記述-6
一方、データが順序尺度レベルの場合には、2
変量間の順位相関・関連係数を表すための以下
のような多くの指標がある。例えば統計学辞典
(東洋経済、1989、pp.338-340) 。
それらは、
(1)ケンドールの順位相関係数
(2)スピアマンの順位相関係数
(3)ソマーズの関連指数、その他
である。
2変量データを手にした時の
分布の特徴の記述-7
最後に、データが間隔尺度レベルの場合には、
2変量間の相関関係を表すための以下のような
指標がある。例えば統計学辞典(東洋経済、1
989、pp.334-337) を見ると、
それらは、
(1)共分散
(2)ピアソンの(偏差積率)相関係数
(3)偏相関係数、重相関係数、偏回帰係数、
その他
である。
2変量データを手にした時の
分布の特徴の記述-8
この授業では、これらのうち、
(1)名義尺度レベルの対データの場合の代
表的な連関の関連性の検討のための統計量であ
るピアソンのカイ2乗統計量と、
(2)間隔尺度レベル以上の対データの場合
の代表的な2変量間の関連性の指標である共分
散及び相関係数
についてのみ、簡単に触れる。