Transcript 課題の解答例
生物統計学 課題解答集 2014年1月21日 生命環境科学域 応用生命科学類 尾形 善之 第1回の課題 ★今日の授業を振り返って、「生物統計 学」についてどういう印象を持ちました か? 第1回の解答例 ★難しいと思った。統計学と何が違うのか 分からない。 ★個人的には、「風立ちぬ」は生きる勇気 をもらえる映画だと思った。 第2回の課題 ★シロイヌナズナの遺伝子発現データを 79実験条件、各3反復、手に入れました。 1. 各実験の3反復を纏める方法について 述べなさい。 2. 3反復を纏めた後で、79実験条件をど のように眺めたらよいか述べなさい。 第2回の解答例 1. 一般的には、算術平均を用いる。ただ し、3回反復のばらつきが大きい場合 には、中央値を用いる。 ♦ 反復数がもっと多い場合には、トリム平均を用 いることもある。 2. それぞれの遺伝子に注目した場合に は折れ線グラフや棒グラフを用いる。 今回のデータセットの場合には、組織 ごとの模式図に色付けする方法が分 第3回の課題 ★シロイヌナズナの79実験条件の遺伝子発 現データを手に入れました。 1. 79実験条件の全体を主成分分析で眺 める方法を、「寄与率」「負荷量」「得点」 を使って説明してください。 2. 生物データセットに主成分分析を使っ てみた印象(疑問に思うこと)を書いてく 第3回の解答例 1. まず寄与率を見て、累積が95%になる 主成分までを考察に使えると判断す る。次に負荷量を見て、各主成分に対 して絶対値の大きい実験条件を確認 する。その次に得点を見て、各主成分 に対して絶対値の大きい遺伝子を確 認する。最後に、その主成分に関連す る実験条件と遺伝子の関係を考察す る。 第4回の課題(第3回と同じ) ★シロイヌナズナの79実験条件の遺伝子発 現データを手に入れました。 1. 79実験条件の全体を主成分分析で眺 める方法を、「寄与率」「負荷量」「得点」 を使って説明してください。 2. 生物データセットに主成分分析を使っ てみた印象(疑問に思うこと)を書いてく 第4回の解答例 1. まず寄与率を見て、累積が95%になる 主成分までを考察に使えると判断する。 次に負荷量を見て、各主成分に対し て絶対値の大きい実験条件を確認す る。その次に得点を見て、各主成分に 対して絶対値の大きい遺伝子を確認 する。最後に、その主成分に関連する 実験条件と遺伝子の関係を考察する。 2. 少しは分かってきた。 第5回の課題 ★ある遺伝子の発現データに関して 1. 左右に対称な分布(パラメトリック)の時 の標準化について、「平均」と「標準偏 差」を用いて答えなさい。 2. データの標準化についての印象や疑問 点を書いてください。 第5回の解答例 1. 標準化のひとつとしてZ化がある。Z値 は、得られた値から平均値を引いた後 で標準偏差で割ることにより求める。 2. なぜ標準化するかは分かったが、標 準偏差がまだよく分からない。 第6回の課題 ★ふたつの遺伝子の79実験での発現デー タに関して 1. 平均値の違いを統計的に説明する手順 を書きなさい。 2. 𝒕検定の目的や手順についての印象・ 疑問点を書いてください。 第6回の解答例 1. データがパラメトリックのときは𝒕検定を 使う。まず「平均値は違わない」という 帰無仮説を立てる。この時の対立仮説 は「平均値は違う」となる。𝒕検定の結 果、帰無仮説を棄却することにより、対 立仮説を採用し、「平均値は違う」と統 計的に有意に言えるようになる。 2. 𝒕検定の手順がかなり難しい。 第7回の課題 ★ふたつの遺伝子の79実験での発現データ に関して 1. 𝒕検定について、検定の種類・検定統計 量の算出・有意の判定方法を答えなさい。 2. 𝒕検定、𝑼検定、標準化データの主成分 分析の印象・疑問点を書いてください。 第7回の解答例 1. このデータセットは対応のあるデータなの で、「対応のある𝒕検定」を行う。検定統計 量𝒕値は、79実験での差の平均を差の標 準誤差で割ることにより求める。𝒕値から𝒕 分布表を使うか、エクセルで𝒕𝒕𝒆𝒔𝒕関数を 使うことにより、有意確率𝒑値を求める。有 意確率𝒑値が有意水準(0.05)より小さけれ ば、統計的に有意にデータセットに差が あるといえる。 第8回の課題 ★三つの遺伝子の79実験での発現データに 関して以下の問いに答えなさい。 1. 三つの遺伝子の発現データに違いがあ るかどうかを調べる手順を書きなさい。 2. 分散分析・判別分析の疑問点を書いて ください。 第8回の解答例 1. 分散分析を使う。分析作業はエクセル の分析ツールで行う。メニューのデータ の中のデータ分析から一元配置の分散 分析を選ぶ。入力範囲としてワークシー トのデータの範囲を選択して実行する。 結果の分散分析表の𝒑値が有意水準よ りも小さければ、統計的に有意にデータ セットのどこかに違いがあるといえる。 2. どこが分からないか分からないくらい難 第9回の課題 ★ふたつの遺伝子の3実験での発現データに関し て以下の問いに答えなさい。 1. 2. 3. 相関係数の種類と使い分け を書き、今回のデータではど れが良いか答えなさい。 実際に3種類の相関係数(ピ アソン、コサイン、スピアマン) を計算しなさい。ただし、小 数第一位で計算しなさい。 今回の講義の疑問点を書い てください。 A B 1 35 31 2 26 27 3 41 8 平均 34 22 SD 6 10 長さ 60 42 第9回の解答例 1. 数値データがパラメトリックのときはピアソ ン相関係数、ノンパラメトリックかデータ 数が少ないときはスピアマン相関係数を 使う。正のデータで正の相関を求めたい ときはコサイン相関係数を使う。今回は データ数が少ないので、スピアマンが適 している。 2. 次のスライド 3. 計算の手順が難しい。 ピアソン相関係数の計算 A B A B 1 35 31 2 26 27 1 35 − 34 1 = 6 6 31 − 22 9 = 10 10 3 41 8 平均 34 22 2 26 − 34 8 =− 6 6 27 − 22 5 = 10 10 SD 6 10 長さ 60 42 3 41 − 34 7 = 6 6 8 − 22 14 =− 10 10 𝑥1 𝑦1 + ⋯ +𝑥𝑛 𝑦𝑛 𝑟= 𝑛 1 9 8 5 7 14 × − × − × 6 10 6 10 6 10 = 3 9 − 40 − 98 129 = =− = −𝟎. 𝟕 3 × 6 × 10 180 コサイン相関係数の計算 A B A B 1 35 31 2 26 27 1 35 60 31 42 3 41 8 平均 34 22 2 26 60 27 42 SD 6 10 長さ 60 42 3 41 60 8 42 35 31 26 27 41 8 cos 𝜃 = × + × + × 60 42 60 42 60 42 1085 + 702 + 328 2115 = = = 𝟎. 𝟖 60 × 42 2520 スピアマン相関係数の計算 A B 1 35 31 2 26 27 3 41 8 平均 34 22 SD 6 10 長さ 60 42 A B 1 2 1 2 3 2 3 1 3 𝑥𝑖 − 𝑦𝑖 2 2−1 𝜌=1−6 = 1 − 6 × 𝑛 𝑛2 − 1 =1−6× 2 + 3−2 2+ 1−3 3× 9−1 6 3 = 1 − = −𝟎. 𝟓 24 2 2 第10回の課題 ★統計解析の使い分けについて下の表を埋めな さい。 ★その他の統計解析の中でもう少し詳しく聞きた いものを書いてください。 ★これまでの統計解析の疑問点を書いてください。 遺伝子数 分布 違い 類似性 パラメトリック 2 ノンパラメトリッ リック パラメトリック 第10回の解答例 遺伝子 数 分布 違い 類似性 パラメトリック 𝒕検定 ピアソン 標準誤差を利用 標準偏差を利用 2 3以上 ノンパラメトリッ リック 𝑼検定 スピアマン 数値データなら 順位が付けられれば パラメトリック 分散分析 ピアソン 分散を利用 ふたつずつ使用 𝑼検定 スピアマン ふたつずつ使用 ふたつずつ使用 ノンパラメトリッ リック 第11回の課題 ★下の検査結果について以下の問いに答えなさ い。 ♦ PrecisionとRecallを計算し、この検査方法の信頼度について 考察しなさい。検査で陽性 検査で陰性 実際に 陽性 True Positive False Negative 7 1 実際に 陰性 False Positive True Negative 3 89 10 90 8 92 第11回の解答例 実際に 陽性 実際に 陰性 検査で陽性 検査で陰性 True Positive False Negative 7 1 False Positive True Negative 3 89 10 90 8 92 検査で陽性のうちで実際に陽性 7 𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 = = = 70% 7+3 検査で陽性 実際に陽性のうちで検査で陽性 7 𝑹𝒆𝒄𝒂𝒍𝒍 = = = 87.5% 7+1 実際に陽性 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛、𝑅𝑒𝑐𝑎𝑙𝑙ともに高いので簡易検査としては適しているが、 𝐹𝑎𝑙𝑠𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒が含まれており、精密検査には向かない。 第12回:ノートパソコン組の課題 ★渡したデータの3つの遺伝子のデータを 使って、以下の統計指標を計算し、考察し なさい。 ♦ 各遺伝子の算術平均値、標準偏差、Z値 ♦ ピアソン相関係数(3組とも) ♦ スピアマン相関係数(3組とも) ♦ 対応のある𝑡検定(3組とも) ♦ 余裕があれば…… 第12回:スクリーン組の課題 ★3つの遺伝子の79実験の発現データが あります。 ♦ エクセルで平均、標準偏差、Z値を計算する手順 を説明しなさい。 ♦ エクセルでピアソン相関係数を計算する方法を3 つ書きなさい。 第12回の解答例 ★算術平均は𝒂𝒗𝒆𝒓𝒂𝒈𝒆関数を使う。 ★標準偏差は𝒔𝒕𝒅𝒆𝒗𝒑関数を使う。 ★𝒁値はデータの値から平均を引いた後で、 標準偏差で割って求める。 ★ピアソン相関係数は、𝒄𝒐𝒓𝒓𝒆𝒍関数、 𝒑𝒆𝒂𝒓𝒔𝒐𝒏関数、分析ツールの相関、𝒁値か ら𝒔𝒖𝒎𝒑𝒓𝒐𝒅𝒖𝒄𝒕関数を使って求める方法 がある。 第13回:ノートパソコン組の課題 ★渡したデータ(ryoudata140109.txt)の主 成分分析を実行し、以下の問に答えなさ い。 ♦ 第2主成分と第3主成分の負荷量のグラフを作成し、 考察しなさい。 ♦ 第2主成分と第3主成分の得点のグラフを作成し、考 察しなさい。 第13回:スクリーン組の課題 ★今日のデータに関して、 ♦ データの特徴について書きなさい。 ♦ 主成分分析の結果の以下の内容について考察し なさい。 • 寄与率 • 負荷量 • 得点 第13回の解答例・1 ★シロイヌナズナの15個の遺伝子に対して 15実験条件での遺伝子発現のデータ セットで、実験条件としては植物体の各組 織のデータを含んでいる。 第13回の解答例・2 ★寄与率:第3主成分までが累積で95%程 度と考えられるので、考察に使える。 ★負荷量:第2主成分では植物全体(W)と 頂端分裂組織(A)が負、葉(L)と根(R)が正 になっている。第3主成分では葉が正、頂 端分裂組織が負になっている。 ★得点:第2主成分では遺伝子3と4と5が負 になっている。第3主成分では遺伝子13 が正、遺伝子6と9と11が負になっている。 第13回の解答例・3 ★以上の結果から、遺伝子3と4と5は植物 全体での発現量が高いと予想され、遺 伝子13は葉で、遺伝子9と11は頂端分裂 組織で発現量が高いと予想される。 第13回の参考資料 ★主成分分析の解釈 ♦ データの特徴を理解する • 遺伝子と実験条件を把握する ♦ 寄与率を調べる • 何番目の主成分まで考察に使えるか ♦ 負荷量を調べる • 実験条件と主成分との関係を把握する ♦ 得点を調べる • 遺伝子と主成分の関係を把握する ♦ biplot • 負荷量(実験条件)と得点(遺伝子)を合わせる 主成分分析:データの特徴 ★各組織での遺伝子発現データ ♦ 目的 • どの組織でどの遺伝子が発現しているかを知る ♦ データサイズ • 実験条件と遺伝子の数 ♦ 実験条件の特徴 • どんな組織のデータか 主成分分析:寄与率 ★何番目の主成分まで考察に使えるか ♦ 累積で何パーセントまで有効か 主成分分析:負荷量 ★主成分と負荷量の関係 ♦ どの主成分とどの実験条件が関係しているか 主成分分析:得点 ★主成分と得点の関係 ♦ どの主成分とどの遺伝子が関係しているか 主成分分析:biplot ★負荷量と得点を合わせて見る ♦ 同じ方向の矢印と点の組み合わせに注目