生物統計学6のパワポ

Download Report

Transcript 生物統計学6のパワポ

生物統計学・第6回
違いを調べる(1)
一般的な検定(t検定、U検定)
2013年11月11日
生命環境科学域 応用生命科学類
尾形 善之
まず最初に……
★前回のレポート
♦ 標準化の計算の意味や目的が分からない
• 16人
♦ あのスライドが理解できていない
• 30人
先々週のレポートから
★多かった意見
♦ 主成分がまだ理解できない
♦ 負荷量がまだ分からない
♦ 得点と負荷量の関係が分からない
♦ 実際の解析例を見たい
♦ クラスター分析の使い分けが難しい
♦ 階層クラスターとヒートマップが見やすい
♦ クラスター分析の見方が分からない
標準化と主成分分析
★標準化をすることで、主成分分析に変
化が起こる!
♦ 良い変化になるか、よくない変化になるか
♦ 次回、説明します
• と言ったのですが、次回に持ち越します……
本日の講義内容
★前回の復習
♦ 平均値と標準偏差のグラフ
♦ 標準偏差と標準誤差
★検定
♦ パラメトリック:𝑡検定
♦ ノンパラメトリック:𝑈検定
平均値と標準偏差の関係
★分布の意味
4000
3000
2000
1000
0
0
4000
400
3000
300
2000
200
1000
100
0
0
0
2
4
6
8 10 12
グラフの面積=データ数
0
2
2
4
4
6
6
8 10 12
8 10 12
微分……
平均値と標準偏差の関係
正規分布だとすると……
66.3%
約𝟐 𝟑
1σ
σ:標準偏差
標準偏差
平均値
標準偏差と偏差値
10× 得点 − 平均点
偏差値=50 +
標準偏差
テストごとの成績を
比較するため
例えば、平均点:60点
標準偏差:10点
A君の得点:70点以上なら、
グラフの赤い部分の右にい
ることが分かる(上位𝟏 𝟔)
66.3%
約𝟐 𝟑
1σ
標準偏差
平均点:60点
2σのはなし
𝟏
𝟔
例えば、平均点:60点
標準偏差:10点
Bさんの得点:80点以上なら、
グラフの緑の部分の右にい
ることが分かる(上位2.5%)
危険率5%で統計的に
「優秀」といえる
標準偏差2個分 2σ
全体の95.4%
優秀賞!
平均点:60点
3σのはなし
2.5%
例えば、平均点:60点
標準偏差:10点
C君の得点:90点以上なら、
グラフの紫の部分の右にい
ることが分かる(上位0.25%)
危険率0.5%で統計的に
「優秀」といえる
標準偏差3個分 3σ
全体の99.7%
最優秀賞!!
平均点:60点
ばらつかない! 標準誤差
★繰り返し実験がどの程度信頼できる
か?
1回目
2回目
3回目
318.8
113.3
75.4
104.8
50.7
64.3
46.5
115.0
280.2
58.4
68.7
88.7
53.7
45.5
53.7
141.9
326.6
59.9
65.0
95.0
16.5
49.5
41.4
166.1
標準偏差と標準誤差の使い分
け
★標準偏差
♦ 「ばらつく」ことを表す
♦ 標準化:𝑧値
• 正規分布
• ピアソン相関係数
★標準誤差
♦ 「ばらつかない」ことを表す
♦ 標準化:𝑡値
• 𝑡分布
•
•
測定値のばらつき
平均値との関係を利
用
•
•
測定値の精度
元々のばらつきの評
価
実際に計算してみると……
★分散
♦
𝒙𝟏 −𝒙 𝟐 + 𝒙𝟐 −𝒙 𝟐 +⋯+ 𝒙𝑵 −𝒙 𝟐
𝑵−𝟏
♦
𝟏𝟐𝟔−𝟏𝟑𝟕 𝟐 + 𝟏𝟒𝟏−𝟏𝟑𝟕 𝟐 +⋯+ 𝟗𝟒−𝟏𝟑𝟕 𝟐
𝟕𝟗−𝟏
2乗サイズ
= 𝟏𝟎𝟏𝟗𝟒𝟕
★標準偏差
♦ 101947=319.3
★標準誤差
319.3
♦
=35.9
79
平均と同じサイ
ズ
平均にまあ対応するサイズ
標準誤差を計算してみると……
★繰り返し3回~10回で比べてみる(累
発現量
平均値
標準偏差
標準誤差
積)
319
-
-
-
280
-
-
-
327
309
25.1
14.5
280
302
25.0
12.5
329
307
24.9
11.1
279
302
25.1
10.2
329
306
25.0
9.4
332
309
24.9
8.8
283
306
24.9
8.3
334
309
25.0
7.9
平
均
値
の
信
頼
度
ア
ッ
プ
チェックポイント・I
1. 平均値と標準偏差の関係は?
2. 2σ、3σを偏差値で考えると?
3. 標準偏差と標準誤差の使い分け?
4. 平均値と標準偏差の関係は分かりまし
たか?
𝒕検定と𝑼検定
★検定とは……
♦ 研究対象
• 注目遺伝子
– 79実験の発現量
♦ 仮説𝐻0
• 注目実験の発現量
– 普通と仮定
• 平均+2σより大
– 仮説を棄却!
♦ 注目実験の発現量は統計的に有意に高い
𝒕検定
★𝒕検定を使うとき
♦ データの分布が「パラメトリックなとき」
• しかも正規分布に近いとき
★計算式
♦ ひとつのデータの中での計算
•
•
•
•
平均値−発現量
𝑡値 =
標準誤差
𝑍値に似てますが実は……
𝑡値:𝑡分布
𝑍値:正規分布
実際の𝒕検定
★ふたつの分布を比較
♦ 平均値が違うことを言いたい
帰無仮説…
★実際の統計解析の手順
♦ 「平均値は違わない」と仮定(きむかせつ)
♦ 𝑡検定の結果、仮定を捨てる
♦ つまり、「平均値は違う」と言える
実際に𝒕検定してみると……
★ふたつのデータの分布を比較します
At1g56650の発現量
(算術平均:137)
発現量
35
30
25
20
15
10
5
0
10
60
110
160
210
260
310
360
410
460
実
験
数
10
60
110
160
210
260
310
360
410
460
実
験
数
35
30
25
20
15
10
5
0
At3g43660の発現量
(算術平均:25)
発現量
実際の𝒕検定の計算……
★実は手計算はできません……
♦ 小さいデータなら、エクセルで計算できます
• ここの確率が「きむか
せつ」の確率
• 0.05 (5%)以下なら「き
むかせつ」を捨てる
• つまり、「ふたつの
データの平均値には
差がある」と統計的に
言える
𝑼検定
★𝑼検定を使うとき
♦ データが「ノンパラメトリック」のとき
• 普通はデータの数が少ないとき
♦ 詳しくは次回
★𝑼検定の種類
♦ マン・ホイットニーの𝑈検定
♦ ウィルコクスンの順位和検定
𝒕検定の𝒕って何?
★私も正確には知りません……
♦ ゴセットという人が考案し、フィッシャーという統計学
者とともに確立していったようです。
♦ その過程で、「𝑧」分布と名付けたものが、「𝑡」分布に
代わったようです。
• やっぱり意味は分かりません……
• そのうち分かったら報告するかも
チェックポイント・II
5. 検定とは?
6.
𝒕検定と𝑼検定の使い分け?
7.
𝒕検定で「帰無仮説」を否定するため
にはどのような手順で解析するか?
今日の自習のポイント
★今日の作業はエクセルでできます!
♦ 「ttest131110.xlsx」をダウンロード
♦ ここからはバージョンによって違いますが…
• データ→データ分析→t検定:分散が等しくないと仮定した
2標本による検定→OK
• 変数1の入力範囲、A1:A79を選択
• 変数2の入力範囲、B1:B79を選択
• OK !
♦ 新しいシートに結果が出ます!
次回までの予習
★次回は「分散分析」です
♦ 教科書
• 分散分析、多変量分散分析
• マン・ホイットニーの検定
• ウィルコクスンの順位和検定
♦ インターネット
• 主成分分析、もう一度
本日の課題
★ふたつの遺伝子の79実験での発現デー
タに関して
1. 平均値の違いを統計的に説明する手順
を書きなさい。
2.
𝒕検定の目的や手順についての印象・
疑問点を書いてください。