Transcript 生物統計学4のパワポ
生物統計学・第4回 全体を眺める(3) 各種クラスター分析 2013年10月28日 生命環境科学域 応用生命科学類 尾形 善之 まず最初に円グラフ…… 10 他 難しい・分からない 63 先週のレポートから ★多かった意見 ♦ そもそも「主成分」が分からない ♦ 寄与率のグラフからついていけない ♦ 得点のグラフからついていけない ♦ グラフの軸(目盛り)の意味が分からない ♦ 3つのグラフの関係が分からない ♦ 計算の仕方が分からない ♦ どうやって解釈していいのか分からない ♦ ともかく全部分からない、目的も分からない、何 が分からないかも分からない 生物統計学・第4回 全体を眺める(3) 主成分分析からのクラスター分析 2013年10月28日 生命環境科学域 応用生命科学類 尾形 善之 そもそもなんで主成分分析? ★79実験条件あると、79個の軸でデータ を見ないといけない ♦ 2実験なら、そのままグラフ化 ★なるべく少ない軸(できれば2つの軸)で データ全体を眺めたい ♦ そのためには、うまく実験データを組み合わせた い 目で見る主成分分析の原理 実験 (成分)2 ★主成分の利点 幅140 幅100 発現量 実験(成分)1 ♦ 1.4倍の幅でデータ(点)を表すこ とができる ♦ データを分けやすくしている 目で見る主成分分析の原理 実験 (成分)2 寄与率 50% 遺伝子 寄与率50% 発現量 実験(成分)1 実験 主成分 成分1 50% 80% 成分2 50% 20% 79実験成分なら…… 主成分 成分1 1.3% 84.1% 成分2 成分3 1.3% 1.3% 3.5% 3.3% 成分4 1.3% 2.3% 成分5 1.3% 1.6% 成分6 1.3% 0.8% 1.3% 0.01% … 実験 成分79 ★主成分分析とは… ♦ データをうまく説明する 軸を作り直す ★主成分分析の目的 ♦ たくさんの成分(実験条 件)のデータを2本の軸 で説明する ♦ まずは寄与率の大きい 主成分を探す チェックポイント・I 1. 主成分分析の目的は? 2. 「主成分」は理解できましたか? 主成分分析で使う3つのグラフ ★寄与率 ♦ 第5回(次回)の「標準化」で説明します ★負荷量 ♦ 第5回(次回)の「標準化」で説明します ★得点 ♦ 第9回の「相関係数」で説明します ★Rを使った主成分分析 ♦ 第13回の「Rを使いこなす」で説明します 主成分分析のグラフの使い方 1. 寄与率:主成分のための指標 ♦ どの主成分がデータ全体をうまく表しているか • 高い寄与率の主成分(主成分Aとする)を選ぶ 2. 得点:遺伝子のための指標 ♦ 注目遺伝子が主成分Aと関係しているか • 主成分の意味付けから遺伝子の特徴を推定する 3. 負荷量:実験条件のための指標 ♦ どの実験が主成分Aに関わっているか • 主成分の意味を実験条件で意味づける 寄与率:主成分のための指標 データ全体をよく表して いる この辺りも何か役に立 つことを表しているかも ★高い寄与率の主 成分を選ぶ ♦ データ全体を表して いる • 注目遺伝子を特徴 付けられるか? 寄与率の実際 分散(ばらつき) 累積(%) データ全体 第1主成分 582 489 100.0 84.1 第2主成分 20 87.6 第3主成分 第4主成分 第5主成分 第6主成分 19 13 9 4 90.9 93.2 94.8 95.5 … 得点:遺伝子のための指標 目盛りはあくまで 目安です 得点=遺伝子の発現量(平均との差)×各実験の負荷量 ★ランダムとの比較 ♦ データに特徴があるかを確認 At1g56650 ★注目遺伝子 ♦ 主成分ごとに位置を確認(今回は正) 負荷量:実験条件のための指標 ★各成分 ♦ 絶対値が大きい 実験条件に注目 • 目盛は目安です ♦ 第1主成分 成熟している組 織 • すべての実験条 件が「負」 – 注目遺伝子は 「正」 • ○に対応する実 験群は? チェックポイント・II 3. 主成分分析の流れに従って、「寄与 率」「得点」「負荷量」の順に説明しなさ い。 4. 主成分分析の大まかな流れは理解で きましたか? 本日の本題 ★クラスター分析(「クラスタリング」とも言います) ♦ データを分類するのに使います • 実験群のクラスター • 遺伝子群のクラスター ★各種クラスター分析 ♦ 主成分分析もクラスター分析のひとつです ♦ 階層(的)クラスターが一番有名です ♦ その他 • 自己組織化マップ(SOM)、ネットワーク解析、ヒートマッ プなど 階層的クラスター ★最も近い関係を線で繋ぐ ♦ トーナメント戦のやぐら ★Rでは「dist」と「hclust」を使う ♦ 手順は「131028clusteringstep.txt」を参照 ♦ 実験条件は「file.pdf」を参照 実験間での階層的クラスター 階段状になっているところには気を付ける 本当は似てないか も 階層クラスターの特徴 ★データ全体をひとつの木に纏める ♦ 固まっているものが似ている ★ヒートマップと組み合わせられる ♦ 次のスライドで説明 ★階段状のところには要注意 ♦ 本当は似ていないこともある ★集まってほしい実験条件が分かれてし まう ♦ 方法によって分かれ方が異なる 階層的クラスターとヒートマップ ★図の説明 ♦ 縦:実験 ♦ 横:遺伝子 ♦ 赤いほど発現量が 多い ♦ これで50遺伝子 自己組織化マップ(SOM) 79実験での遺伝子発現 遺伝子名 遺伝子の発現傾向を分類できるが、丸の数は自分で決める 自己組織化マップの特徴 ★遺伝子発現傾向と遺伝子名を同時に見 ることができる ♦ 解釈しやすい(主成分分析と比べれば……) ★丸の数は自分で設定する ♦ 何を分けたいか予め決めておく必要がある ★遺伝子数が多いと遺伝子名は読めない ♦ 左の図から選び出すことはできる ネットワーク解析 遺伝子の関係は見やすいが、発現傾向は同時には見れない ネットワーク解析の特徴 ★遺伝子間の関係を見やすくする ♦ けっこう数が多くても理解可能 ★他の情報も併せて載せやすい ♦ 遺伝子の機能情報とか ★遺伝子の発現傾向を載せるのは難しい ♦ 一つ一つにグラフを書くと煩わしい ★解析手順が少し難しい ♦ Rの作業が煩雑 クラスター分析の使い分け ★主成分分析 ♦ ともかくまずはこれが便利 ★階層的クラスター ♦ 遺伝子発現と実験の両方を見たいとき ★自己組織化マップ ♦ グループ分けが目的のとき(グループ数固定) ★ネットワーク解析 ♦ 全体の分かれ方を見たいとき ♦ 少数で関係をはっきり見たいとき チェックポイント・III 5. クラスター分析とは? 6. 各種クラスター分析の使い分けは? 今日の自習のポイント ★Rでの階層クラスターと自己組織化マッ プ ★Rでの作業手順 ♦ 131028clusteringstep.txt ★そもそもRの使い方…… ♦ Rの使い方.docx(まだ用意できていません……) 次回までの予習 ★次回は「標準偏差、標準誤差、標準化」 です ♦ 教科書 • 標準偏差、標準誤差、標準化、分散、偏差値 ♦ インターネット • Z化、単位ベクトル 本日の課題 ★シロイヌナズナの79実験条件の遺伝子発 現データを手に入れました。 1. 遺伝子の発現と実験条件を同時に見た い場合のクラスター分析法を答えなさい。 2. 生物データセットに対してクラスター分 析を行った印象(疑問点)を書いてくだ さい。