Transcript 生物統計学6のパワポ
生物統計学・第6回 違いを調べる(1) 一般的な検定(t検定、U検定) 2013年11月11日 生命環境科学域 応用生命科学類 尾形 善之 まず最初に…… ★前回のレポート ♦ 標準化の計算の意味や目的が分からない • 16人 ♦ あのスライドが理解できていない • 30人 先々週のレポートから ★多かった意見 ♦ 主成分がまだ理解できない ♦ 負荷量がまだ分からない ♦ 得点と負荷量の関係が分からない ♦ 実際の解析例を見たい ♦ クラスター分析の使い分けが難しい ♦ 階層クラスターとヒートマップが見やすい ♦ クラスター分析の見方が分からない 標準化と主成分分析 ★標準化をすることで、主成分分析に変 化が起こる! ♦ 良い変化になるか、よくない変化になるか ♦ 次回、説明します • と言ったのですが、次回に持ち越します…… 本日の講義内容 ★前回の復習 ♦ 平均値と標準偏差のグラフ ♦ 標準偏差と標準誤差 ★検定 ♦ パラメトリック:𝑡検定 ♦ ノンパラメトリック:𝑈検定 平均値と標準偏差の関係 ★分布の意味 4000 3000 2000 1000 0 0 4000 400 3000 300 2000 200 1000 100 0 0 0 2 4 6 8 10 12 グラフの面積=データ数 0 2 2 4 4 6 6 8 10 12 8 10 12 微分…… 平均値と標準偏差の関係 正規分布だとすると…… 66.3% 約𝟐 𝟑 1σ σ:標準偏差 標準偏差 平均値 標準偏差と偏差値 10× 得点 − 平均点 偏差値=50 + 標準偏差 テストごとの成績を 比較するため 例えば、平均点:60点 標準偏差:10点 A君の得点:70点以上なら、 グラフの赤い部分の右にい ることが分かる(上位𝟏 𝟔) 66.3% 約𝟐 𝟑 1σ 標準偏差 平均点:60点 2σのはなし 𝟏 𝟔 例えば、平均点:60点 標準偏差:10点 Bさんの得点:80点以上なら、 グラフの緑の部分の右にい ることが分かる(上位2.5%) 危険率5%で統計的に 「優秀」といえる 標準偏差2個分 2σ 全体の95.4% 優秀賞! 平均点:60点 3σのはなし 2.5% 例えば、平均点:60点 標準偏差:10点 C君の得点:90点以上なら、 グラフの紫の部分の右にい ることが分かる(上位0.25%) 危険率0.5%で統計的に 「優秀」といえる 標準偏差3個分 3σ 全体の99.7% 最優秀賞!! 平均点:60点 ばらつかない! 標準誤差 ★繰り返し実験がどの程度信頼できる か? 1回目 2回目 3回目 318.8 113.3 75.4 104.8 50.7 64.3 46.5 115.0 280.2 58.4 68.7 88.7 53.7 45.5 53.7 141.9 326.6 59.9 65.0 95.0 16.5 49.5 41.4 166.1 標準偏差と標準誤差の使い分 け ★標準偏差 ♦ 「ばらつく」ことを表す ♦ 標準化:𝑧値 • 正規分布 • ピアソン相関係数 ★標準誤差 ♦ 「ばらつかない」ことを表す ♦ 標準化:𝑡値 • 𝑡分布 • • 測定値のばらつき 平均値との関係を利 用 • • 測定値の精度 元々のばらつきの評 価 実際に計算してみると…… ★分散 ♦ 𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐 𝑵−𝟏 ♦ 𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐 𝟕𝟗−𝟏 2乗サイズ = 𝟏𝟎𝟏𝟗𝟒𝟕 ★標準偏差 ♦ 101947=319.3 ★標準誤差 319.3 ♦ =35.9 79 平均と同じサイ ズ 平均にまあ対応するサイズ 標準誤差を計算してみると…… ★繰り返し3回~10回で比べてみる(累 発現量 平均値 標準偏差 標準誤差 積) 319 - - - 280 - - - 327 309 25.1 14.5 280 302 25.0 12.5 329 307 24.9 11.1 279 302 25.1 10.2 329 306 25.0 9.4 332 309 24.9 8.8 283 306 24.9 8.3 334 309 25.0 7.9 平 均 値 の 信 頼 度 ア ッ プ チェックポイント・I 1. 平均値と標準偏差の関係は? 2. 2σ、3σを偏差値で考えると? 3. 標準偏差と標準誤差の使い分け? 4. 平均値と標準偏差の関係は分かりまし たか? 𝒕検定と𝑼検定 ★検定とは…… ♦ 研究対象 • 注目遺伝子 – 79実験の発現量 ♦ 仮説𝐻0 • 注目実験の発現量 – 普通と仮定 • 平均+2σより大 – 仮説を棄却! ♦ 注目実験の発現量は統計的に有意に高い 𝒕検定 ★𝒕検定を使うとき ♦ データの分布が「パラメトリックなとき」 • しかも正規分布に近いとき ★計算式 ♦ ひとつのデータの中での計算 • • • • 平均値−発現量 𝑡値 = 標準誤差 𝑍値に似てますが実は…… 𝑡値:𝑡分布 𝑍値:正規分布 実際の𝒕検定 ★ふたつの分布を比較 ♦ 平均値が違うことを言いたい 帰無仮説… ★実際の統計解析の手順 ♦ 「平均値は違わない」と仮定(きむかせつ) ♦ 𝑡検定の結果、仮定を捨てる ♦ つまり、「平均値は違う」と言える 実際に𝒕検定してみると…… ★ふたつのデータの分布を比較します At1g56650の発現量 (算術平均:137) 発現量 35 30 25 20 15 10 5 0 10 60 110 160 210 260 310 360 410 460 実 験 数 10 60 110 160 210 260 310 360 410 460 実 験 数 35 30 25 20 15 10 5 0 At3g43660の発現量 (算術平均:25) 発現量 実際の𝒕検定の計算…… ★実は手計算はできません…… ♦ 小さいデータなら、エクセルで計算できます • ここの確率が「きむか せつ」の確率 • 0.05 (5%)以下なら「き むかせつ」を捨てる • つまり、「ふたつの データの平均値には 差がある」と統計的に 言える 𝑼検定 ★𝑼検定を使うとき ♦ データが「ノンパラメトリック」のとき • 普通はデータの数が少ないとき ♦ 詳しくは次回 ★𝑼検定の種類 ♦ マン・ホイットニーの𝑈検定 ♦ ウィルコクスンの順位和検定 𝒕検定の𝒕って何? ★私も正確には知りません…… ♦ ゴセットという人が考案し、フィッシャーという統計学 者とともに確立していったようです。 ♦ その過程で、「𝑧」分布と名付けたものが、「𝑡」分布に 代わったようです。 • やっぱり意味は分かりません…… • そのうち分かったら報告するかも チェックポイント・II 5. 検定とは? 6. 𝒕検定と𝑼検定の使い分け? 7. 𝒕検定で「帰無仮説」を否定するため にはどのような手順で解析するか? 今日の自習のポイント ★今日の作業はエクセルでできます! ♦ 「ttest131110.xlsx」をダウンロード ♦ ここからはバージョンによって違いますが… • データ→データ分析→t検定:分散が等しくないと仮定した 2標本による検定→OK • 変数1の入力範囲、A1:A79を選択 • 変数2の入力範囲、B1:B79を選択 • OK ! ♦ 新しいシートに結果が出ます! 次回までの予習 ★次回は「分散分析」です ♦ 教科書 • 分散分析、多変量分散分析 • マン・ホイットニーの検定 • ウィルコクスンの順位和検定 ♦ インターネット • 主成分分析、もう一度 本日の課題 ★ふたつの遺伝子の79実験での発現デー タに関して 1. 平均値の違いを統計的に説明する手順 を書きなさい。 2. 𝒕検定の目的や手順についての印象・ 疑問点を書いてください。