生物統計学7のパワポ

Transcript 生物統計学7のパワポ

生物統計学・第7回
違いを調べる（２）
分散分析(ANOVA, MANOVA)
2013年11月18日
生命環境科学域応用生命科学類
尾形善之
まず最初に……
★前回のレポート
今日も盛りだくさんでいきます
★ 𝒕検定
♦ もう少し説明、いろいろな例
★ 𝑼検定
♦ 目的と手順、ふたつの𝑈検定
★標準化と主成分分析
♦ 標準化による影響
★分散分析
♦ 今回は目的まで
𝒕検定の手順より丁寧に
★データの用意
♦ 2遺伝子、79実験、パラメトリック、対応あり
★検定の準備
♦ 平均、分散、自由度の計算
★検定の第一歩
ここまでは手計算できる
♦ 検定統計量𝑡値の計算
★検定の第二歩
♦ 𝑝値の取得
手計算できない
𝒕値と𝒑値
この面積が𝒑値
ここが𝒕値としたら
データの用意と検定の準備
★パラメトリック、平均、分散、自由度
分散：101947
10
60
110
160
210
260
310
360
410
460
実
験
数
35
30
25
20
15
10
5
0
発現量
At3g43660の発現量
（算術平均：25）
実
験
数
35
30
25
20
15
10
5
0
分散：194
10
60
110
160
210
260
310
360
410
460
At1g56650の発現量
（算術平均：137）
発現量
3種類の𝒕検定
★実はデータセットに依存して3種類ありま
す
♦ 「対応のある」
• 今回は実はこのケースです（各実験が対応）
– 今回はこの方法で計算します
♦ 「対応のない」
• ふたつのデータセットの分散が等しい
– 標準化したデータに向いています
• ふたつのデータセットの分散が等しくない
– 前回はこの方法で説明しました
– 繰り返し実験のときなど
𝒕値の計算
★79実験での差の平均：112.3
★差の標準誤差：35.8
差の平均
★𝒕 =
差の標準誤差
★𝑡 =
112.3
35.8
= 3.135
実験
At1g56650
At3g43660
差
1
308.5
27.5
281.0
2
77.2
18.0
59.2
3
69.7
20.5
49.2
4
96.2
13.3
82.9
5
40.3
16.8
23.5
6
53.1
17.7
35.4
⋮
⋮
⋮
⋮
79
77.7
99.4
-21.7
平均
137.3
25.0
112.3
𝒕分布表
5% 2% 1% 0.1%
自由度
5%
1%
0.1%
60
2.000
2.660
3.460
120
1.980
2.617
3.373
3.135は危険率1%で有意、まで言える
𝒕検定で覚えてもらいたいこと
★データセット
♦ パラメトリックかどうか
★検定結果の見方
♦ 𝑡値と𝑝値（有意確率）
★結果の解釈
♦ 「データセットの平均値には差がある」
♦ 「差があるとはいえない」
• 「差がない」とはいえない
• でも、最近は「差がない」根拠とすることも……
いろいろなケースでの𝒕検定
𝒕値3.135は危険率1%で有意
𝒕値0.083は仮説を棄却できず
𝒕値2.313は危険率5%で有意
チェックポイント・I
1.
𝒕検定の手順は？
2.
𝒕値と𝒑値の関係は？
3.
𝒕検定で大事なこと3つは？
4.
𝒕検定の手順は理解できましたか？
𝑼検定
★マン・ホイットニーの検定
♦ 注目遺伝子のひとつのデータに注目
• 対照遺伝子の79データに対して大きい個数を数える
• 79データ全部で個数を数えて合計する
♦ 検定表で𝑝値を得る
マン・ホイットニーの検定の実際
注目遺伝子
対照遺伝子
大きい個数
309
171
10
77
129
0
69
150
0
96
144
0
40
131
0
53
120
0
47
139
0
141
149
6
125
111
3
87
118
0
19
検定表により、危険率
5%で有意
もうひとつの𝑼検定
★ウィルコクスンの検定
♦ 実験ごとに差を計算
• 注目遺伝子の発現量－対照遺伝子の発現量
♦ 差の絶対値の大きい順に順位づけ
♦ 差が正のときの順位の合計を計算
ウィルコクスンの検定の実際
注目遺伝子対照遺伝子
差
差の絶対
値の順位
309
171
138
1
77
129
-52
6
69
150
-81
4
96
144
-48
7
40
131
-91
3
53
120
-67
5
47
139
-92
2
141
149
-8
10
125
111
14
9
87
118
-31
8
差が正のときの順位の合計
10
検定表により、危険率
5%で有意
チェックポイント・II
5.
マン・ホイットニーの検定の手順は？
6.
ウィルコクスンの検定の手順は？
ちょっとひといき……
★統計解析の略語（隠語……）
♦ PCA：主成分分析
♦ SD：標準偏差（𝑎𝑣𝑒𝑟𝑎𝑔𝑒 ± 𝑆𝐷）
♦ SE：標準誤差（𝑎𝑣𝑒𝑟𝑎𝑔𝑒 ± 𝑆𝐸）
♦ ノンパラ：ノンパラメトリック
♦ 𝑡値：𝑡検定での検定統計量
♦ 𝑝値：確率、特に𝑡検定の時は有意確率
Z化、今日は簡単に
★計算方法
発現量−平均値
♦ 𝒁値=
標準偏差
• なんだか偏差値に似ていますね
10× 得点−平均点
• 偏差値=50 +
標準偏差
★使い道
♦ データ全体が正規分布に近いとき
• 分布が偏っていると正確に評価できない
標準化データ
★計算式
♦𝑍 =
308.5−137.3
319.3
= 0.536
♦ 𝑍値の場合は、正負が混ざります
元のデータ
標準化データ
308.5
0.536
77.2
-0.187
69.7
-0.209
96.2
-0.127
標準化データでの主成分分析
標準化前の寄与率
標準化後の寄与率
標準化前の第一主成分が消えた！
標準化データでの主成分分析
標準化前の負荷量
標準化後の負荷量
負荷量のグラフに原点が出現！
標準化データでの主成分分析
標準化前の負荷量
標準化後の負荷量
ちょっと似ていませんか？やっぱり変な花粉です
標準化データでの主成分分析
標準化前の得点
標準化後の得点
得点の分布がやや均等になっています
標準化データでの主成分分析
標準化前の得点
標準化後の得点
細かく見るとけっこう違いますね
チェックポイント・III
7. 標準化のあるなしで主成分分析の結
果はどのように変わったか？
8. 標準化による主成分分析の変化につ
いてどんな印象・疑問点を持ちました
か？
分散分析
★判別分析とともに次回取り上げます
★分散分析の目的
♦ 複数グループでの差の検定
• 𝑡検定は2グループでの検定
• でも、どこかに違いがあることがわかるだけ……
今日の自習のポイント
★今日の作業もエクセルでできます！
♦ 「ttest131118.xlsx」をダウンロード
♦ 実は𝑡検定の𝑝値はエクセルのワークシート関数でも
計算できます
• = 𝑡𝑡𝑒𝑠𝑡(𝐴1: 𝐴79, 𝐵1: 𝐵79,2,1)
次回までの予習
★次回は「分散分析・判別分析」です
♦ 教科書
• 分散分析、多変量分散分析
• 判別分析
• 多重比較
本日の課題
★ふたつの遺伝子の79実験での発現データ
に関して
1.
𝒕検定について、検定の種類・検定統計
量の算出・有意の判定方法を答えなさ
い。
2.
𝒕検定、𝑼検定、標準化データの主成分
分析の印象・疑問点を書いてください。

生物統計学7のパワポ

Transcript 生物統計学7のパワポ

Directory