四分領域

Download Report

Transcript 四分領域

第1日目第2時限の学習目標
 基本的な1変量統計量(その2)につい
て学ぶ。
 尺度水準と適切な統計量との関連を整理
する。
 2変量データを手にした時の分布の特徴
の記述方法について学ぶ。
 基本的な2変量統計量ー1
カイ2乗統計量につ
いて学ぶ。
基本的な1変量統計量ー2
(a) 中央値、四分領域
 中央値ーデータを小さい順に並べたとき、中央
(50パーセント点)にくる値のこと。
 第1四分位数ーデータを小さい順から大きい順に
並べたとき、下から4分の1(25パーセント
点)にくる値のこと。
 第3四分位数ーデータを小さい順から大きい順に
並べたとき、下から4分の3(75パーセント
点)にくる値のこと。
 四分領域ーデータを小さい順に並べたとき、第3
四分位数と第1四分位数の差の半分の値のこと。
基本的な1変量統計量ー2
(b) 四分位数と四分領域 Q の関係
Q = (Q3-Q1)/2
25%
25%
Q1
25%
Mdn
25%
Q3
基本的な1変量統計量ー2
(c) 中央値 (Median) の求め方
 中央値の求め方は、「心理統計学 a」のテキストの
p.17 の (4.1) 式の通りである。すなわち、
 N


Mdn  lm  h  cum(lm )  / f m , (4.1)

 2

• ここで、lm は、中央値のある階級の下限点、
• h は、階級の幅、
• cum (lm) は、中央値のある階級より1つ手前までの
累積度数、
• fm は、中央値のある階級の度数
基本的な1変量統計量ー2
(d)第1四分位数 の求め方
 第1四分位数の求め方は、「心理統計学 a」のテキス
トの p.17 の (4.2) 式の通りである。すなわち、
 N


Q1  lQ1  h  cum(lQ1 )  / fQ1 , (4.2)

 4

• ここで、lQ1 は、第1四分位数のある階級の下限点、
• h は、階級の幅、
• cum (lQ1) は、第1四分位数のある階級より1つ手前
までの累積度数、
• fQ1 は、第1四分位数のある階級の度数
基本的な1変量統計量ー2
(e) 第3四分位数 の求め方
 第3四分位数の求め方は、「心理統計学 a」のテキス
トの p.17 の (4.3) 式の通りである。すなわち、
Q3  lQ3
  3N


 h
 cum(lQ3 )  / fQ3 , (4.3)

  4

• ここで、lQ3 は、第3四分位数のある階級の下限点、
• h は、階級の幅、
• cum (lQ3) は、第3四分位数のある階級より1つ手前
までの累積度数、
• fQ3 は、第3四分位数のある階級の度数
基本的な1変量統計量ー2
(f) 四分領域の求め方
 これらにより、中央値 (Mdn)、第1四分位数
(Q1)、第3四分位数 (Q3) が求まったならば、テ
キスト p.16 の下方の公式により、
Q3  Q1
Q
2
として、四分領域 (Q) を求めればよい。
基本的な1変量統計量ー2
(g) 最頻値(mode)
 最頻値ー得ら
れる確率が最
も高い値、も
しくは得えら
れる頻度の最
も多い値。
 右の図では、
2つの山のう
ちの右側に対
応するxの値
(mode と
mode
x
基本的な1変量統計量ー2
(h) 中央値、四分領域、最頻値の性質
 中央値、四分領域は、順序情報以上の尺度レベ
ルのデータでは計算可能である。なぜ?
 最頻値は、名義尺度、順序尺度、間隔尺度、比
率尺度のいずれのレベルのデータでも計算可能
である。なぜ?
基本的な1変量統計量ー2
まとめ
 これまでに学
んだ基本的な
1変量統計量
の代表的な幾
つかを尺度水
準との関連で
まとめると右
の図のように
なる。
順序尺度
間隔尺
度・比率
尺度
平均
代表値
中央値
(Mdn)
ばらつき
四分位数 標準偏差
(Q) (分散)
2変量データを手にした時の
分布の特徴の記述-1
 何らかの目的で N 対の対データ(2変量デー
タ)
1 1
2 2
N
N
( x , y ), ( x , y ),, ( x , y )
を手にしたとする。
 サンプル数 N がある程度以上大きい場合、簡
単にデータの全体像をつかむためには、データ
が原則的に名義尺度レベルの場合はまず分割表
を、順序尺度レベル以上であれば散布図を描け
ばよい。
2変量データを手にした時の
分布の特徴の記述-2
 分割表とは、例
えば514名の
被験者を(行と
列の)2つの属
性を用いて、右
のように分類し
たものである。
厳しす 適当
ぎ
もっと
厳しく
男
27
275
75
女
3
124
10
データの内容ー1
 上記データは、新入生に対する永平寺
参禅時の514名の学生に対する、参
禅後の調査データを2つの属性で分類
したものである。
 属性の1つは学生の性別(男子、女子
)であり、他方は永平寺の雲水による
坐禅指導の評価(厳しすぎた、適当、
もっと厳しく)である。
データの内容ー2
 もとのデータは、上記2変量の対(x、y)が
、
(性別、座禅指導の評価)、
から成る、一対のデータ、514名分である。
(2,2)、(2,3)、(1,
2)、… 、(1,2)
これらを、うえの表のようにまとめたものは、
分割表または、クロス表と呼ばれる 。
分割表(又はクロス表)の作り方
データ (2,2)、(2,3)、(1,2)、… 、(1,2)
1.厳し
過ぎた
1.男子
学生
2.女子
学生
計
2. 適当
3.もっと
厳しく
計
演習(2)
 次の20対(20名)の2変量データセットの1つ
を用いて、2×2分割表を作成せよ。ここで、(x、
y)変量のうち、前者は性別を後者は向性(外向、内
向)を表すものとする:
(データセット1):
(1,1)、(2,2)、(1,2)、(
1,1)、(2,1)、
(1,1)、(2,1)、(2,1)、(
1,1)、(2,2)、
(1,2)、(1,2)、(1,1)、(
演習(2)の続き
(データセット2):
(2,1)、(2,2)、(2,1)、(
1,1)、(2,1)、
(1,1)、(2,2)、(2,1)、(
1,2)、(1,2)、
(1,2)、(1,2)、(1,2)、(
1,2)、(2,1)、
(2,2)、(2,2)、(1,2)、(
1,2)、(2,1)
2変量データを手にした時の
分布の特徴の記述-3
 散布図とは、例えば、
千野のホームページ
の講義ノートの中の
「データ解析/基礎と
応用」の 1.2.3
節 「はずれ値の相
関係数への影響」の
項にあるような図で
ある。
2変量データを手にした時の
分布の特徴の記述-4
 データが名義尺度レベルの場合には、
うえで紹介した分割表(クロス表)を
もとに、2変量間の連関を表すための
以下のような多くの指標がある。
 それらは、例えば、統計学辞典(東洋
経済、1989、pp.341-343)を見る
と、以下のように各種の指標がこれま
でに提案されていることがわかる:
2変量データを手にした時の
分布の特徴の記述-5
 それらは、
(1)カイ2乗統計量系指標(ピアソンのカイ2
乗統計量、
クラメールのV、チュプロウの T、ピアソン
の一致係
数 C、尤度比カイ2乗統計量)
(2)予測関連指標(グッドマン・クラスカルの
予測関連
指数)
(3)その他、ヘイズの不確実性係数、コーエン
2変量データを手にした時の
分布の特徴の記述-6
 一方、データが順序尺度レベルの場合には、2
変量間の順位相関・関連係数を表すための以下
のような多くの指標がある。例えば統計学辞典
(東洋経済、1989、pp.338-340) 。
 それらは、
(1)ケンドールの順位相関係数
(2)スピアマンの順位相関係数
(3)ソマーズの関連指数、その他
である。
2変量データを手にした時の
分布の特徴の記述-7
 最後に、データが間隔尺度レベルの場合には、
2変量間の相関関係を表すための以下のような
指標がある。例えば統計学辞典(東洋経済、1
989、pp.334-337) を見ると、
 それらは、
(1)共分散
(2)ピアソンの(偏差積率)相関係数
(3)偏相関係数、重相関係数、偏回帰係数、
その他
である。
2変量データを手にした時の
分布の特徴の記述-8
 この授業では、これらのうち、
(1)名義尺度レベルの対データの場合の代
表的な連関の関連性の検討のための統計量であ
るピアソンのカイ2乗統計量と、
(2)間隔尺度レベル以上の対データの場合
の代表的な2変量間の関連性の指標である共分
散及び相関係数
についてのみ、簡単に触れる。