課題の解答例

Download Report

Transcript 課題の解答例

生物統計学
課題解答集
2014年1月21日
生命環境科学域 応用生命科学類
尾形 善之
第1回の課題
★今日の授業を振り返って、「生物統計
学」についてどういう印象を持ちました
か?
第1回の解答例
★難しいと思った。統計学と何が違うのか
分からない。
★個人的には、「風立ちぬ」は生きる勇気
をもらえる映画だと思った。
第2回の課題
★シロイヌナズナの遺伝子発現データを
79実験条件、各3反復、手に入れました。
1. 各実験の3反復を纏める方法について
述べなさい。
2. 3反復を纏めた後で、79実験条件をど
のように眺めたらよいか述べなさい。
第2回の解答例
1. 一般的には、算術平均を用いる。ただ
し、3回反復のばらつきが大きい場合
には、中央値を用いる。
♦
反復数がもっと多い場合には、トリム平均を用
いることもある。
2. それぞれの遺伝子に注目した場合に
は折れ線グラフや棒グラフを用いる。
今回のデータセットの場合には、組織
ごとの模式図に色付けする方法が分
第3回の課題
★シロイヌナズナの79実験条件の遺伝子発
現データを手に入れました。
1. 79実験条件の全体を主成分分析で眺
める方法を、「寄与率」「負荷量」「得点」
を使って説明してください。
2. 生物データセットに主成分分析を使っ
てみた印象(疑問に思うこと)を書いてく
第3回の解答例
1. まず寄与率を見て、累積が95%になる
主成分までを考察に使えると判断す
る。次に負荷量を見て、各主成分に対
して絶対値の大きい実験条件を確認
する。その次に得点を見て、各主成分
に対して絶対値の大きい遺伝子を確
認する。最後に、その主成分に関連す
る実験条件と遺伝子の関係を考察す
る。
第4回の課題(第3回と同じ)
★シロイヌナズナの79実験条件の遺伝子発
現データを手に入れました。
1. 79実験条件の全体を主成分分析で眺
める方法を、「寄与率」「負荷量」「得点」
を使って説明してください。
2. 生物データセットに主成分分析を使っ
てみた印象(疑問に思うこと)を書いてく
第4回の解答例
1. まず寄与率を見て、累積が95%になる
主成分までを考察に使えると判断する。
次に負荷量を見て、各主成分に対し
て絶対値の大きい実験条件を確認す
る。その次に得点を見て、各主成分に
対して絶対値の大きい遺伝子を確認
する。最後に、その主成分に関連する
実験条件と遺伝子の関係を考察する。
2. 少しは分かってきた。
第5回の課題
★ある遺伝子の発現データに関して
1. 左右に対称な分布(パラメトリック)の時
の標準化について、「平均」と「標準偏
差」を用いて答えなさい。
2. データの標準化についての印象や疑問
点を書いてください。
第5回の解答例
1. 標準化のひとつとしてZ化がある。Z値
は、得られた値から平均値を引いた後
で標準偏差で割ることにより求める。
2. なぜ標準化するかは分かったが、標
準偏差がまだよく分からない。
第6回の課題
★ふたつの遺伝子の79実験での発現デー
タに関して
1. 平均値の違いを統計的に説明する手順
を書きなさい。
2.
𝒕検定の目的や手順についての印象・
疑問点を書いてください。
第6回の解答例
1. データがパラメトリックのときは𝒕検定を
使う。まず「平均値は違わない」という
帰無仮説を立てる。この時の対立仮説
は「平均値は違う」となる。𝒕検定の結
果、帰無仮説を棄却することにより、対
立仮説を採用し、「平均値は違う」と統
計的に有意に言えるようになる。
2. 𝒕検定の手順がかなり難しい。
第7回の課題
★ふたつの遺伝子の79実験での発現データ
に関して
1.
𝒕検定について、検定の種類・検定統計
量の算出・有意の判定方法を答えなさい。
2.
𝒕検定、𝑼検定、標準化データの主成分
分析の印象・疑問点を書いてください。
第7回の解答例
1. このデータセットは対応のあるデータなの
で、「対応のある𝒕検定」を行う。検定統計
量𝒕値は、79実験での差の平均を差の標
準誤差で割ることにより求める。𝒕値から𝒕
分布表を使うか、エクセルで𝒕𝒕𝒆𝒔𝒕関数を
使うことにより、有意確率𝒑値を求める。有
意確率𝒑値が有意水準(0.05)より小さけれ
ば、統計的に有意にデータセットに差が
あるといえる。
第8回の課題
★三つの遺伝子の79実験での発現データに
関して以下の問いに答えなさい。
1. 三つの遺伝子の発現データに違いがあ
るかどうかを調べる手順を書きなさい。
2.
分散分析・判別分析の疑問点を書いて
ください。
第8回の解答例
1. 分散分析を使う。分析作業はエクセル
の分析ツールで行う。メニューのデータ
の中のデータ分析から一元配置の分散
分析を選ぶ。入力範囲としてワークシー
トのデータの範囲を選択して実行する。
結果の分散分析表の𝒑値が有意水準よ
りも小さければ、統計的に有意にデータ
セットのどこかに違いがあるといえる。
2. どこが分からないか分からないくらい難
第9回の課題
★ふたつの遺伝子の3実験での発現データに関し
て以下の問いに答えなさい。
1.
2.
3.
相関係数の種類と使い分け
を書き、今回のデータではど
れが良いか答えなさい。
実際に3種類の相関係数(ピ
アソン、コサイン、スピアマン)
を計算しなさい。ただし、小
数第一位で計算しなさい。
今回の講義の疑問点を書い
てください。
A
B
1
35
31
2
26
27
3
41
8
平均
34
22
SD
6
10
長さ
60
42
第9回の解答例
1. 数値データがパラメトリックのときはピアソ
ン相関係数、ノンパラメトリックかデータ
数が少ないときはスピアマン相関係数を
使う。正のデータで正の相関を求めたい
ときはコサイン相関係数を使う。今回は
データ数が少ないので、スピアマンが適
している。
2. 次のスライド
3. 計算の手順が難しい。
ピアソン相関係数の計算
A
B
A
B
1
35
31
2
26
27
1
35 − 34 1
=
6
6
31 − 22
9
=
10
10
3
41
8
平均
34
22
2
26 − 34
8
=−
6
6
27 − 22
5
=
10
10
SD
6
10
長さ
60
42
3
41 − 34 7
=
6
6
8 − 22
14
=−
10
10
𝑥1 𝑦1 + ⋯ +𝑥𝑛 𝑦𝑛
𝑟=
𝑛
1 9 8 5 7 14
×
− ×
− ×
6
10
6
10
6 10
=
3
9 − 40 − 98
129
=
=−
= −𝟎. 𝟕
3 × 6 × 10
180
コサイン相関係数の計算
A
B
A
B
1
35
31
2
26
27
1
35
60
31
42
3
41
8
平均
34
22
2
26
60
27
42
SD
6
10
長さ
60
42
3
41
60
8
42
35 31 26 27 41 8
cos 𝜃 =
×
+
×
+
×
60 42 60 42 60 42
1085 + 702 + 328 2115
=
=
= 𝟎. 𝟖
60 × 42
2520
スピアマン相関係数の計算
A
B
1
35
31
2
26
27
3
41
8
平均
34
22
SD
6
10
長さ
60
42
A
B
1
2
1
2
3
2
3
1
3
𝑥𝑖 − 𝑦𝑖 2
2−1
𝜌=1−6
=
1
−
6
×
𝑛 𝑛2 − 1
=1−6×
2
+ 3−2 2+ 1−3
3× 9−1
6
3
= 1 − = −𝟎. 𝟓
24
2
2
第10回の課題
★統計解析の使い分けについて下の表を埋めな
さい。
★その他の統計解析の中でもう少し詳しく聞きた
いものを書いてください。
★これまでの統計解析の疑問点を書いてください。
遺伝子数
分布
違い
類似性
パラメトリック
2
ノンパラメトリッ
リック
パラメトリック
第10回の解答例
遺伝子
数
分布
違い
類似性
パラメトリック
𝒕検定
ピアソン
標準誤差を利用
標準偏差を利用
2
3以上
ノンパラメトリッ
リック
𝑼検定
スピアマン
数値データなら
順位が付けられれば
パラメトリック
分散分析
ピアソン
分散を利用
ふたつずつ使用
𝑼検定
スピアマン
ふたつずつ使用
ふたつずつ使用
ノンパラメトリッ
リック
第11回の課題
★下の検査結果について以下の問いに答えなさ
い。
♦ PrecisionとRecallを計算し、この検査方法の信頼度について
考察しなさい。検査で陽性
検査で陰性
実際に
陽性
True Positive
False Negative
7
1
実際に
陰性
False Positive
True Negative
3
89
10
90
8
92
第11回の解答例
実際に
陽性
実際に
陰性
検査で陽性
検査で陰性
True Positive
False Negative
7
1
False Positive
True Negative
3
89
10
90
8
92
検査で陽性のうちで実際に陽性
7
𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 =
=
= 70%
7+3
検査で陽性
実際に陽性のうちで検査で陽性
7
𝑹𝒆𝒄𝒂𝒍𝒍 =
=
= 87.5%
7+1
実際に陽性
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛、𝑅𝑒𝑐𝑎𝑙𝑙ともに高いので簡易検査としては適しているが、
𝐹𝑎𝑙𝑠𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒が含まれており、精密検査には向かない。
第12回:ノートパソコン組の課題
★渡したデータの3つの遺伝子のデータを
使って、以下の統計指標を計算し、考察し
なさい。
♦ 各遺伝子の算術平均値、標準偏差、Z値
♦ ピアソン相関係数(3組とも)
♦ スピアマン相関係数(3組とも)
♦ 対応のある𝑡検定(3組とも)
♦ 余裕があれば……
第12回:スクリーン組の課題
★3つの遺伝子の79実験の発現データが
あります。
♦ エクセルで平均、標準偏差、Z値を計算する手順
を説明しなさい。
♦ エクセルでピアソン相関係数を計算する方法を3
つ書きなさい。
第12回の解答例
★算術平均は𝒂𝒗𝒆𝒓𝒂𝒈𝒆関数を使う。
★標準偏差は𝒔𝒕𝒅𝒆𝒗𝒑関数を使う。
★𝒁値はデータの値から平均を引いた後で、
標準偏差で割って求める。
★ピアソン相関係数は、𝒄𝒐𝒓𝒓𝒆𝒍関数、
𝒑𝒆𝒂𝒓𝒔𝒐𝒏関数、分析ツールの相関、𝒁値か
ら𝒔𝒖𝒎𝒑𝒓𝒐𝒅𝒖𝒄𝒕関数を使って求める方法
がある。
第13回:ノートパソコン組の課題
★渡したデータ(ryoudata140109.txt)の主
成分分析を実行し、以下の問に答えなさ
い。
♦ 第2主成分と第3主成分の負荷量のグラフを作成し、
考察しなさい。
♦ 第2主成分と第3主成分の得点のグラフを作成し、考
察しなさい。
第13回:スクリーン組の課題
★今日のデータに関して、
♦ データの特徴について書きなさい。
♦ 主成分分析の結果の以下の内容について考察し
なさい。
• 寄与率
• 負荷量
• 得点
第13回の解答例・1
★シロイヌナズナの15個の遺伝子に対して
15実験条件での遺伝子発現のデータ
セットで、実験条件としては植物体の各組
織のデータを含んでいる。
第13回の解答例・2
★寄与率:第3主成分までが累積で95%程
度と考えられるので、考察に使える。
★負荷量:第2主成分では植物全体(W)と
頂端分裂組織(A)が負、葉(L)と根(R)が正
になっている。第3主成分では葉が正、頂
端分裂組織が負になっている。
★得点:第2主成分では遺伝子3と4と5が負
になっている。第3主成分では遺伝子13
が正、遺伝子6と9と11が負になっている。
第13回の解答例・3
★以上の結果から、遺伝子3と4と5は植物
全体での発現量が高いと予想され、遺
伝子13は葉で、遺伝子9と11は頂端分裂
組織で発現量が高いと予想される。
第13回の参考資料
★主成分分析の解釈
♦ データの特徴を理解する
• 遺伝子と実験条件を把握する
♦ 寄与率を調べる
• 何番目の主成分まで考察に使えるか
♦ 負荷量を調べる
• 実験条件と主成分との関係を把握する
♦ 得点を調べる
• 遺伝子と主成分の関係を把握する
♦ biplot
• 負荷量(実験条件)と得点(遺伝子)を合わせる
主成分分析:データの特徴
★各組織での遺伝子発現データ
♦ 目的
• どの組織でどの遺伝子が発現しているかを知る
♦ データサイズ
• 実験条件と遺伝子の数
♦ 実験条件の特徴
• どんな組織のデータか
主成分分析:寄与率
★何番目の主成分まで考察に使えるか
♦ 累積で何パーセントまで有効か
主成分分析:負荷量
★主成分と負荷量の関係
♦ どの主成分とどの実験条件が関係しているか
主成分分析:得点
★主成分と得点の関係
♦ どの主成分とどの遺伝子が関係しているか
主成分分析:biplot
★負荷量と得点を合わせて見る
♦ 同じ方向の矢印と点の組み合わせに注目