Transcript Document

遺伝
• 維持・複製
• 変化
• 多様性
瓜二つ
瓜の蔓に茄子はならぬ
鳶が鷹を生む
カエルの子はカエル
Association
studies?
Species are distinct categorical phenotypes with
many genetic differences.
Species-specific genetic factors are difficult to nail
down.
探索
トライ&エラー型探索 モジホコリ(粘菌)
種内 個体多様性
同一種内の個体は千差
万別
種の特性は守りつつ、そ
の制約の中で多様
種内 個体多様性
同一種内の個体は千差
万別
種の特性は守りつつ、そ
の制約の中で多様
?
形質多様性
遺伝的多様性
きわめて不均一な多様性
この多様性を俯瞰した上でないと、本
当の形質⇔遺伝子関係は見えない
サンプルの
遺伝的背景
の偏り
遺伝要因間
の非独立性
遺伝的多様性
遺伝的多様性空間
離散的
4カテゴリ:A、T、G、C
長さ 30億塩基対
ハプロタイプ間の距離
• 0000 <-> 0101 の距離を 2
• 0000 <-> 1100 の距離を 2
• 0000 <-> 0111 の距離を3
• 0 -> 1 の変化を変異と言うので、『変異的距
離』
001
0
1
00
01
011
000
010
101
111
10
11
100
L次元超立方
110
L次元超立方
もしくは
組み合わせの『べき集合』表現である 束
L=2
L=1
2=2^1
L=5
32=2^5
L=3
L=4
8=2^3
4=2^2
16=2^4
L=6
64=2^6
L=7
128=2^7
L次元超立方
もしくは
組み合わせの『べき集合』表現である
束
・・・
ハプロタイプ間の変化が変異だけなら
ば
・・・
染色体ハプロタイプ間の距離は
2項関係ではなくて
3項関係
•
•
•
•
* 連検定 Runs' testというのがある。たとえば、成功と失敗のどちらかが起きる
のを記録すると、成功と失敗とで作るシークエンスができる。成功にしろ、失敗に
しろ、続いているときは、一続きとして、それを連と呼ぶことにする。成功から失敗
へ、失敗から成功へと変わったら、「変わった」と数えることにするとする。そうす
ると、全部でk回の成功または失敗のシークエンスには、連が1つのときから、k
-1個のときまでのいずれかになる。連がいくつになるかについて、その珍しさに
応じて、仮説検定するのが連検定である。
o 連検定については、こちらを。
o 簡単に言うと、長さkのシークエンスの連を考えるときは、「区切り候補、
k-1箇所」のうち、i-1箇所が区切りとして採用されると連の数がiになるので、
_{k-1}C_{i-1}で考える。
* 組み換えは、0回なら、連が1個。1回なら、連が2個・・・。
連 1
00000
連 2
00001
10000
11000
00011
11100
00111
01111
11110
11111
組み換え1回
連 1
00000
11101
00010
連 3
10111
01000
10011
11001
01100
00110
10001
01110
01110
10001
11111
組み換え2回
連
• L個の事象をr個の連に分けるような組み合
わせの数は
• 長さLの0,1からなる順列が持つ連の数は、1
からL。0,1を区別すると、
組み換えによる変化は親染色体と
子染色体の3項関係
距離関係は変異のそれと異なる様
相
00000
11111
ハプロタイプ間距離
• 2項関係
– 変異
• 多様性空間の新たな領域への一歩
• 3項関係
– 組換え
• 極端な2親から、ほどほどの子を成す
• 集団として成り立つ程度の変異的距離の維持
• 貴重な変異を分散保持してリスクヘッジ
遺伝的距離→機能的距離
• 個々の座位の組み合わせ効果あり
– 2^Lカテゴリ→df = 2^L-1自由度
L=2
– →df次元均等配置
cos(q)=1/df
L=1
L=3
• 個々の座位の組み合わせ効果なし
– L次元超立方
– L本の軸に関する評価
ハプロイド
ディプロイド
形質はディプロイドに属する
?
形質多様性
遺伝的多様性
父由来
母由来
ディプロイド
• 父由来の場合と母由来の場合で意味が異な
ることが、ある
L=3
L=6
8=2^3
64=2^6
• 由来親の区別が不要なとき
• ハプロタイプの組み合わせ
– ホモ
– ヘテロ
個々の座位の組み合わせ効果あり
• 異なるハプロタイプのペア:ヘテロ型
L=2
• 全頂点ペアに辺が与えられ、その中点がヘテロ型
に相当する
• 完全グラフの辺の中点にヘテロ型を対応させた図
個々の座位の組み合わせ効果なし
• 個々の座位の組み合わせ効果なし
同一視
(00,00)
(00,11)
(01,01)
(11,11)
(01,10)
(10,10)
辺長2のL次元立方
2項関係と3項関係に従って、時間
をかけて形成された、ローカス間
の依存関係を連鎖不平衡と呼ぶ
• 連鎖不平衡は、形質に影響を与える機能を
有するローカスを検出する際に、そのローカ
スと連鎖不平衡関係にある別のローカスを観
測することで、ある程度代用できることを許す
• →連鎖不平衡マッピング
LD評価の基礎はペアワイズ
自由度 2^L をL(L+1)/2 で代表させている
過去
現在
連鎖不平衡ブロックは時間とともに小さくなる
同じ範囲を調べるのにたくさんのマーカーが必要
になる
原因遺伝子のある場所がより正確になる
自由度 2^L をべき集合の要素数のヒエラルキー構造で捉える
多数の遺伝子マーカーデータのデータ構造を
探索・・・関連解析に結びつける
全体を1つの量で
その在セットにおける
多重検定の補正も?
エントロピー
→疎になると・・・
→Extinct法
組換えは起きたり起きなかったり
DNAの親子関係は、
1人親か2人親か
組換え体(2人
親:2人親モ
ザイク)
染色体全体で
考えると、親子
関係は複雑
(複数の祖先
がいる)だが、
部分的には、
単純(祖先は1
つ)
組換え体
染色体5’端
000
染色体中央部
000
111
111
000 001 001 011
111
染色体3’端
000
111
000 001 001 011 111 000 001 001 011 111
塩基配列DNA(String
of SNPs)
時間経過
集団
• 変異
• 組み換え
• 浮動
遺伝子多型を用いた
集団遺伝学解析
Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795
GENEALOGICAL TREES, COALESCENT THEORY AND
THE ANALYSIS OF GENETIC POLYMORPHISMS
種の進化系統樹
Nature Reviews Genetics 3, 380-390 (2002);
doi:10.1038/nrg795
GENEALOGICAL TREES, COALESCENT
THEORY AND THE ANALYSIS OF
GENETIC POLYMORPHISMS
ヒトの多様性
(種内 遺伝子多型)
現代個体のすべてにとってDNA配列の一部を伝達し
た祖になっている染色体が存在する
From the following article:
Human evolution: Pedigrees for all humanity
Jotun Hein
Nature 431, 518-519(30 September 2004)
doi:10.1038/431518a
家系図は個体単位
遺伝は染色体単位
Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795
GENEALOGICAL TREES, COALESCENT THEORY AND THE ANALYSIS OF GENETIC POLYMORPHISMS
Nature Reviews Genetics 3, 380-390 (2002); doi:10.1038/nrg795
GENEALOGICAL TREES, COALESCENT THEORY AND THE ANALYSIS OF GENETIC POLYMORPHISMS
家系図
x
TT
TC
CC
合計
ケース
x
n1-(x+y)
y
n1
コントロール
m0-x
m1n1+(x+y)
m2-y
n2
合計
m0
m1
m2
N
重み付け 優性
0
1
1
重み付け 中間
0
0.5
1
重み付け 劣性
0
0
1
自由度2
0
-∞~+∞
1
y
DF2
劣性
2次元(DF=2)の確率密度分布
優性・劣性・中間はその1次元化(→DF=1検定)
中間:トレンド検定(Armitage,Trend-Chi square)
「ありそうなモデル」
「ちょっとありそうにないモデル」
優性
中間
• 2x3分割表
– 多方向で解析する
– その上で最強の関連を採用する
• 自由度2の統計量を自由度1で解釈すること
– 自由度1での評価を、固定した1モデルで行えば、
その評価値(P値)は妥当
– 複数モデルで行うと、自由度2の状況に近づく
• 無限に多くのモデルで行うと自由度2に一致する
SNPマーカーは相互に独立ではない
Allelic association
• 2つの多型のアレルの組合せに偏りがあるこ
と
• 成因
– 連鎖不平衡
– 集団構造化
H1
C-G
H2
C-A
H3
A-G
H4
A-A
合計
ケース
x
y
z
n1-(x+y+z)
n1
コントロール
m0-x
m1-y
m2-z
m3n1+(x+y+z)
n2
合計
m0
m1
m2
m3
N
z
(H3)
y
(H2)
x
(H1)
(H1+H2)~(H3+H4)
SNP1
H1+H2+H3~
H4
H2+H3~Others
H3~
Others
(H1+H3)~
(H2+H4) SNP2
H2~Others
H1~Others
3次元→多次元(ハプロタイプ種類数 Nh=2^(Ns))
ありとあらゆるハプロタイプの組合せを検討する?
→格子点を結ぶ軸での評価
ハプロタイプごとに重み付けをする?
→格子点を通らない軸でも評価?
• 統計処理
– 記述統計
• (普通は1つの)軸を定めて、その軸上での値を与える
• 数学屋さんは「測度」というのかしら?
– 検定
• (普通は1つの)軸を定めて、その上で大小比較に持ち
込む
• ジェノタイプ以外の軸との関係を見ることが多い
• 高次元hypercube
– 分布は疎
– 30億塩基対
– 65億人、130億本
– 自由度としては2^n-1だけど、「すごくコンパクト」
• 配列多様性空間
– どのくらい網羅しているか
– 距離に2種類
• 変異
• 組み換え(近道・トンネル)
記述統計の例として配列多型の多様
性
Diploidということ
• (2x2) ^2の自乗の部分がDiploid化
– 自乗になっていれば、「独立関係」
– そうでなければ、「依存関係」
• 集団家系図
– ループの大きさ・複雑度