(被)影響遺伝子の同定

Transcript (被)影響遺伝子の同定

バイオスタティスティックスの数理的基礎
チュートリアル「遺伝子発現データ解析概論」
(被)影響遺伝子の同定
濱野鉄太郎
北里大学大学院薬学研究科臨床統計部門
Copyright (C) 2003 Tetsutaro Hamano (Kitasato University). All rights Reserved.
本セクションの目的
遺伝子発現データから(被)影響遺伝子を
同定する方法を紹介
(被)影響遺伝子の同定において重要な点
を考察
(被)影響遺伝子
影響を与える遺伝子

例：癌遺伝子，癌抑制遺伝子
(Hanahan et al., 2000)
影響を受ける遺伝子

例：熱によるショックに影響される遺伝子
(Schena et al., 1996)
医学における応用
テイラーメイド医療
患者のゲノム情報から個人差を
考慮した医療を提供する
ゲノム創薬
ゲノム情報をもとにして
新薬の候補物質を開発する
遺伝子発現解析のキーワード
解析の簡便さ（Lightness）
計算の速さ（Quickness）
結果の正確さ（Exactitude）
結果の見易さ（Visibility）
多重性の考慮（Multiplicity）
結果の再現性（Reproducibility）
参考：Calvino（1993）
遺伝子発現データ
状態1
状態n
状態2
x1n
遺伝子2
x21
x22
・・・
x2 n
・・・
xmn
遺伝子m
xm1
xm 2
遺伝子 i の発現プロファイル
・・・
・・・
・・・
x12
・・・
x11
・・・
遺伝子1
xi  xi1, xi 2 ,...,xin 
データの分布（アレイ毎）
箱ひげ図（アレイ毎）
Lightness & Quickness
遺伝子発現データは膨大


数～数百サンプル
数百～数万遺伝子
解析の簡便さと計算機の速さが必要

ひとつの遺伝子を解析する時間が一秒でも３
６００個の遺伝子では一時間かかる
Exactitude
遺伝子発現解析では，遺伝子の発現量を
直接測定しているわけではない


蛍光色素や放射性物質によりラベリング
シグナルの強度（比）を測定
実験によって生じる偏りや誤差変動に注意
しなければならない

Garbage in, garbage out
アレイ上で生じるエラー
Bubbles
Comets
Damaged substrate
Dilated spots
Doughnuts
Edge drying
Edge fading
High background: fluorescence
High background: black holes
Irregular spot morphology
Low signal intensity
Particle contamination
Pin blockage
Scanner problems
Day-to-day variation in
printing
High irregular background
Bright patches/streaks
Nonspecific signal
Chip defects
Scratching of feature surface
（Bowtell and Sambrook eds., 2003）
Visibility
クラスター分析


遺伝子発現解析で頻繁に行われている
類似性の指標
 相関係数，ユークリッド距離
Eisenマップ

Eisen et al. (1998)
生のアレイ画像
主なクラスター分析手法
階層的クラスタリング

Eisen et al. (1998)
k平均法

Tavazoie et al. (1999)
自己組織化マップ

Tamayo et al. (1999)
階層型クラスタリング
n(m)次元空間上の遺伝子（状態）発現プロファイル
階層型クラスタリング
最も近接した点を結合する
階層型クラスタリング
クラスター間の距離
1. 最短距離法
2. 最長距離法
3. 群平均法
2
1
3
階層型クラスタリング
樹形図を作成する
遺伝子1
遺伝子2
・
・
・
遺伝子m
非類似性
k平均法
n(m)次元空間上の遺伝子（状態）発現プロファイル
k平均法
参照点をランダムに配置
（参照点の数＝クラスター数は事前に設定）
k平均法
最も近接した参照点に各点を属させる
k平均法
参照点をクラスターの重心に更新する
k平均法
収束条件を満たすまで以上のプロセスを繰り返す
自己組織化マップ
格子点をランダムに配置する
（格子点数＝クラスター数は事前に設定）
自己組織化マップ
ある点をランダムに選択する
自己組織化マップ
格子点を点の方向に近づける
自己組織化マップ
以上のプロセスを繰り返す
初期の論文では
発現比が閾値を超えた遺伝子群を抽出
例：

Schena et al. (1996)
 発現比が2倍以上または0.5以下のものを抽出

DeRisi et al. (1997)
 発現比が3倍以上のものを抽出
問題点
データの確率変動を考慮していない


たまたま発現比が2以上だった？
ばらつきの大きい方が選択され易い？
発現比の確率分布を考慮して遺伝子を
抽出しなければならない
Multiplicity
(被)影響遺伝子を仮説検定で同定したい

例：癌細胞群と正常細胞群とを比較
検定の多重性の問題が生じる


有意水準５％で一万個の遺伝子を検定
各遺伝子が互いに独立で，全ての帰無仮説
が正しいときに，５００個の遺伝子が有意
記号法
棄却しない棄却した
真の帰無仮説
U
V
ｍ０
真の対立仮説
T
S
ｍ－ｍ０
ｍ-R
R
ｍ
(Benjamini & Hochberg,1995)
False Discovery Rate
棄却された仮説のうちで第一種の過誤が
起こる確率
(Benjamini & Hochberg,1995)
Significance Analysis of
Microarrays (SAM)
1. 遺伝子毎に検定統計量を計算
2. 検定統計量の順序統計量を導出
3. 完全帰無仮説のもとでサンプルを並べ替え，
順序統計量の期待値を推定
4. 統計量と期待値の差を比較して，ある閾値以
上（以下）の遺伝子を抽出
5. 帰無分布からFDRを推定
(Tusher et al., 2001)
モデル選択的アプローチ
線形スプライン関数の当てはめにより，特
徴的な発現プロファイルの遺伝子群を抽
出


AICを用いて定数関数モデルと比較
線形スプラインモデルが選択される遺伝子群
を抽出
(DeHoon, Imoto and Minano, 2002)
Reproducibility
遺伝子発現解析は，探索的な段階から検
証的な段階へと移行しつつある


臨床試験
テイラーメイド医療
より高い水準の再現性が必要である



品質管理
実験計画法
データの前処理（正規化など）

(被)影響遺伝子の同定

Transcript (被)影響遺伝子の同定

Directory