Transcript 比率・相関の検定と推定
比率・相関の検定と推定 1.1標本の比率の検定 H0:頻度に差がない、と言えるか?⇒χ2乗適合度検定 A B 計 観測度数O 8 12 20 期待度数E 10 10 20 χ2乗適合度検定 χ2値 2 (O E)2 E 0.8 自由度df df=カテゴリ数-1 P値(上側確率) P(χ2≧検定統計量) =chidist(χ2, df) 1 0.371 二項検定 二値変数: 2つの値を取る変数(勝ち負け、裏表、成功・失敗など) 二項検定: 二項分布(標本数Nのときの確率pの分布)に基づく検定 試行数が多いとき(各期待度数≧5)、 二項分布は正規分布 N(p, n*p*(1-p))に近似できる ↓ H0: p = p0 (母比率p=特定の比率p0)の検定 成功回数x、試行回数nのとき、 x Np0 z N * po * (1 p0 ) ~N(0, 12) z分布を用いた1標本の比率検定 A (成功、支持など) B (失敗、不支持など) 計 8 12 20 H0: p = 0.5の検定 検定統計量 u=(8-20*0.5) / sqrt(20*0.5*(1-0.5))=-0.894 有意確率P P(z≦-0.894)=normsdist(-0.894)=0.186 (注意:z<0のときnormsdist(z), z>0のとき1-normsdist(z)) 検定統計量 u 有意確率P -0.894 0.186 検定統計量 χ2 自由度 有意確率P 0.799 1 0.371 (「H0: p = 0.5」を棄却できない。) u2は、自由度1のχ2乗分布に従う (比率の検定は、χ^2検定と同じ) 2.1標本の比率の区間推定 20人を調査したところ、8人が内閣を支持している。 母集団での支持率はどれくらいか推定したい。 母比率の95%信頼区間を求めよ。 大標本の下で、統計量pはz分布に従う。 標準誤差SE=sqrt( p^*(1-p^) / n ) 下限値: p^ - 1.96 * SE 上限値: p^ + 1.96 *SE SE=sqrt(0.4*(1-0.4)/20)= 95%信頼区間は、0.185 ≦p ≦0.615 Q:40人中16人が支持しているときの母比率を95%で 推定せよ。 2.1標本の比率の区間推定 40 人を調査したところ、16人が内閣を支持している。 母集団での支持率はどれくらいか推定したい。 母比率の95%信頼区間を求めよ。 大標本の下で、統計量pはz分布に従う。 標準誤差SE=sqrt( p^*(1-p^) / n ) 下限値: p^ - 1.96 * SE 上限値: p^ + 1.96 *SE SE=sqrt(0.4*(1-0.4)/40)=0.1095 母比率の95%信頼区間は、0.185 ≦p ≦0.615 (20人調査の時と比べると、信頼区間の範囲が狭い =調査人数nが大きくなると、精度の高い推定がで きる) 3. 2標本の比率差の検定 確率変数x1, x2がそれぞれ独立にB(n1, P1), B(n2, P2)に従うとき、 (P^1-P^2)=x1/n1 – x2 /n2は近似的に次の正規分布に従う。 (P^1-P^2 ) ~ N(P1-P2=0, Ppooled*(1-Ppooled)*(1/n1+1/n2) ) ここで、Ppooled= ( x1+x2 ) / ( n1+n2 ) 検定統計量 u0=(p^1-p^2) / sqrt( Ppooled*(1-Ppooled)*(1/n1+1/n2)) は、標準正規分布N(0, 12)に従う。 検定の際の条件: 1.各セルの期待値が10以上 2.母集団は各標本数の10倍以上ある。 3. 2標本の比率差の検定 男性社員の昇進率と女性社員の昇進率の間に有意な差が あるだろうか? 昇進 昇進しない 計 男 196 (0.06) 3,074 3,270 女 4 (0.10) 36 40 計 200 3,110 3,310 2標本のサイズをn1, n2、yesの数をx1, x2とすると、 推定比率をP^1=x1/n1, p^2 =x2/n2。 2標本を併せた比率をプールした比率Ppooled = (x1+x2)/(n1+n2)とするとき、 検定量 u0 = ( p^1 – p^2 ) / sqrt( Ppooled * (1-Ppooled) * (1/n1 + 1/n2 ) ) は 標準正規分布N(0, 1^2)に従う。 3. 2標本の比率差の検定 男性社員の昇進率と女性社員の昇進率の間に有意な差が あるだろうか? 2標本のサイズをn1, n2、yesの数をx1, x2とすると、 推定比率をP^1=x1/n1, p^2 =x2/n2。 2標本を併せた(プールした)比率 Ppooled = (x1+x2)/(n1+n2)とするとき、 検定量 u0 = ( p^1 – p^2 ) / sqrt( Ppooled * (1-Ppooled) * (1/n1 + 1/n2 ) ) は 標準正規分布N(0, 1^2)に従う。 3. 2標本の比率差の検定 男性社員の昇進率と女性社員の昇進率の間に有意な差が あるだろうか? (男性の母集団の推定比率)P^1 = 0.06 (女性の母集団の推定比率)p^2 = 0.10 (2つの標本をプールした比率)Ppooled=200/3310 = 0.060 検定量 u0 = (0.06-0.10) / sqrt( 0.060*(1-0.060)*(1/ 3270+ 1/40 ) ) = -1.059 検定量u0 =-1.059>-.196より、H0を棄却できない。 (正確な有意確率 P( u <=-1.059 ) = 0.145) したがって、男性と女性の昇進率に有意な差があるとは 言えない。 4.2標本の比率の差の推定 母比率の差の95%信頼区間 下限値: ( p^1 – p^2 ) – 1.96 * SE 上限値: ( p^1 – p^2 ) + 1.96 * SE SE= sqrt ( ( p^1 * ( 1 – p^1 ) ) / n1 + ( p^2 * ( 1 – p^2 ) ) / n2 ) = sqrt(0.06*(1-0.06)/3270 + 0.10*(1-0.10)/40 ) = 0.048 前問の95%信頼区間を計算 (-0.133, 0.053) (信頼区間が0を含む=差が有意でない) 5.順位データの相関係数 スピアマンの順位相関係数ρ もとのデータを順位に変換し、Xiの順位とYiの順位との 差Dとすると、 6 ΣD2 ρ= 1 - --------------N3 – N JSTAT.exeを利用する (NはX, Yの対の数) ある意見に対し、次のような調査結果を得た。男性=0、女性=1、 賛成=0、反対=1というスコアを与えて、スピアマンの順位相関係数 を求めよ。 賛成 反対 計 男性 20 10 30 女性 15 10 25 JSTATを用い、 1.性別と意見の列変数に、0,1を入力して、データ作成(保存も可) 2.「データ設定」メニューから「1因子2群データ」を選択して、OK 3.「相関」メニューから「Spearmanの順位相関係数」を選択 4.分析結果が表示される。(保存も可) ρ 無相関検定 P値 0.069 0.612 最終課題=函教大プチ社会調査 (個人または2.3人のグループ) 1.ランダム抽出された函教大生を対象に、質問紙法などによっ て、何らかの社会(意識、実態)調査を行う。 (30人以上が望ましい) 2.個票データ、集計データを作成する。 3.調査項目について、統計的に図表にまとめる。(記述統計) 4.調査項目間の関係、差を統計的に分析する。(検定と推定) 5.調査に関してPPTでレポートを作成する。 (目的、方法、結果、考察) 6.資料に基づいて、プレゼンテーションを行う。 調査項目 1.性別 2.学年 3.専攻 4.Q1: あなたは最近1年間でボランティア活動をしたことがあり ますか? はい いいえ Q2: そのボランティア活動は有意義でしたか? 1.無意味 2.やや無意味 3.やや有意義 4.有意義 Q3: あなたは今後の1年間のうちに、何らかのボランティア活 動をするつもりがありますか? はい いいえ 5.Q1: あなたは函館校の専門の授業に満足していますか? 1.不満 2.やや不満 3.やや満足 4.満足 Q2: あなたが今一番力を入れているのは何ですか? 1.勉強 2.サークル 3.アルバイト 4.その他 6.Q1: あなたは1日にどのくらい携帯メールを送信しますか? 1.0通 2.1~5通 3.6~10通 4.11通以上 Q2: あなたは授業中に携帯メールを送信したことがあります か? はい いいえ