第六章连锁不平衡与基因作图

Download Report

Transcript 第六章连锁不平衡与基因作图

第六章 连锁不平衡与基因作图

假设某一对同源染色体上存在A-a ,B-b两对
连锁基因,现有两个亲本P1 和P2,它们的基
因型分别为AABB和aabb,两亲本杂交产生
AaBb双杂合体。F1在减数分裂过程中应产生
4种类型的配子,其中两种为亲型配子AB和ab,
两种为重组型配子Ab和aB。由于A-a和B-b位
于同一染色体上,要产生重组型配子必须在这
两个基因的连锁区段上发生交换。
连锁不平衡
haplotype
AB
Ab
aB
ab
fAB
fAb
faB
fab
fAfB
fAfb
fafB
fafb
Coefficient of linkage disequilibrium, D
D AB  f AB  f A f B
如果D=0,连锁平衡
如果D≠0,连锁不平衡
这里的平衡或不平衡,与种群是否平衡无关。
D Ab  f Ab  f A f b
D aB  f aB  f a f B
D ab  f ab  f a f b
连锁不平衡
D Ab  f Ab  f A f b  f A  f AB  f A f b  f A (1  f b )  f AB   D AB
D  D AB  D ab
D Ab  D aB   D AB
f AB  f A f B  D
 f A fb , fa f B 
 min  f A f B , f a f b 
f Ab  f A f b  D
D  min
f aB  f a f B  D
D
f ab  f a f b  D
连锁不平衡
D 
'
min
f
A
fb, f a f B 
D

min
r 
2
D
f
A
f B, fa fb 
D
2
f A fa f B fb
if
D 0
D’=1,至少一个单倍型缺失。
if
D 0
D的进化

大种群中,一代随机交配后,D如何变化?
D t  1   1  c  D t 
0  c  0 .5
经过1个世代,D至多下降0.5
一代可到达H-W平衡,但达到连锁平衡则需要很多世代
D下降的速率依赖于c, c 越大D下降越快。
D的进化




以人类基因组为例:
C=0.01/one centiMorgan 1mb
7编码蛋白基因/1mb
每两个蛋白基因之间,平均重组率是
0.01/7=0.0142
1000generations, D只下降24%.
D的进化

D’=1,表示只有三个单倍型,当第四个单倍型
出现时,或者由重组产生,或者由recurrent
mutation产生。
两个基因座的Wahlund效应

即使每一个种群内都连锁平衡,当考虑两个基
因座时,种群分化将造成连锁不平衡。
POP1
f A1
f B1
1 
1 
POP2
f A2
2 
1
2
1 
fA 
1
2
2 
2 
1 
1
f AB  f A f B
1 
f AB  f A f B
fA 
fB2
2 
fA
fB 
1
2
fB 
2
2 
fB
两个基因座的Wahlund效应
1
D  f AB  f A f B 

1
4



f   
1
A
2 
fA
2
 f   
1
B
1 
1 
fA fB 
2 
fB
1
2
2 
2 
fA fB
 1 1  1  2    1 1  1  2  
  fA 
f A  f B 
fB 
2
2
2
 2


基因座表现LD:Wahlund效应,自然选择或
基因型错误;
如果多对基因座表现LD:Wahlund效应。
如果一对基因座表现LD,其余均LE,则考虑
自然选择或基因型错误。
重组

如果没有重组,两个基因座将一直处于同一条
染色体,与哺乳动物的线粒体和Y染色体一样。
两个基因座的谱系关系将完全相同。
重组

如果存在重组,在两条染色体上的基因座将重
组到一条染色体。
现在
祖先
重组

两个基因座出现在同一染色体上的时间依赖重
组率和种群大小。
平均分离时间是1/c generations.
平均聚合时间是2N generations.
C<<1/2N,大部分时间两个基因座会出现在同一染色体。
C>>1/2N,大部分时间两个基因座会分离。
重组


考虑两个基因座,一种情况是由于溯祖使得它
们处于一条染色体,另外一种情况是由于重组
使得它们具有不同的谱系关系。
发生共祖的概率是1/2N,不发生重组的概率是
(1-c)2,那么共祖前不发生重组的概率是
1
1

2 N 
2 N   2 c

1
1  4 Nc
4Nc代表重组和溯祖的相对重要性, 4Nc <<1,
重组相对共祖发生的频率低。
重组


两个基因座的谱系关系与连锁不平衡系数紧密
相关。
假设每一个基因座第二个等位基因由突变产生,
则只有三个单倍型。
a
a

b
b
D 1
'
A
b
a
B
只有重组或者突变才能使得D’小于1



考虑整个染色体,连锁越紧密的位点, D’越
大,越可能具有相似或相同的谱系关系.
距离越远的位点, D’接近0,谱系关系差异越
大。
距离相同的位点间的D’不同,由于溯祖和重组
的效应。
Why D '  1
?
Association mapping


现代遗传学的一个重要目标,定位调控重要性
状的基因。
基因定位,确定目标基因和已知Marker之间的
重组率。
由遗传重组测验结果推算出来的,在一条染色体上基因的排列图。
遗传图谱构建方法流程
1.筛选数据
2.获得单倍型
3.计算遗传距离
4.聚类得到连锁群
5.基因排序
6.其他
1筛选数据



样本
分子标记—snp
基因序列—scaffold
2 获得单倍型和交换点

单倍型,是单倍体基因型的简称,在遗传学上
是指在同一染色体上进行共同遗传的多个基因
座上等位基因的组合;通俗的说法就是若干个
决定同一性状的紧密连锁的基因构成的基因性。
按照某一指定基因座上基因重组发生的数量,
单倍型甚至可以指至少两个基因座或整个染色
体。
基因  snp序列
得到亲本单倍型
观测数据
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s12 s13 s14 s15 s16 s17 s18 s19 s20
A/C
A
C
C
C
A
A
C
A
C
C
A
C
C
A
C
C
C
A
A
A
A/G
G
A
A
G
G
G
A
G
A
A
G
A
A
G
A
G
A
A
G
G
观测到基因型组合
A
G
8
C
C
9
A
G
2
亲本的单倍型:
A
C
G
A
A
A
1
得到交换点
找到交换点后,同一序列上两个交换点之间的snp位点都是一起遗传的,可以把它
们看做一个整体。
更多细节可以参考
High-throughput genotyping by whole-genome resequencing
http://www.ncbi.nlm.nih.gov/pubmed/19420380/
3计算遗传距离

两基因间的遗传距离(cM--centimorgan):
L = 重组率*100
即1cM对应1%重组率

重组率(交换值):指同源染色体的非姊妹染色单体间有关基因的染
色体片段发生交换的频率,一般利用重新组合配子数占总配子数的百
分率进行估算。
重组率(%) = (重新组合配子数/总配子数)×100%
重组率——>0%,连锁强度越大,连锁的非等位基因之间交换越少;
重组率——>50%,连锁强度越小,连锁的非等位基因之间交换越多。
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s12 s13 s14 s15 s16 s17 s18 s19 s20
A/C
A
C
C
C
A
A
C
A
C
C
A
C
C
A
C
C
C
A
A
A
A/G
G
A
A
G
G
G
A
G
A
A
G
A
A
G
A
G
A
A
G
G
A
G
8
C
A
9
C
G
2
A
A
1
重组率 r = 3/20 = 0.15
遗传距离L = 15cM
交换干扰
双交换:随着间距的增加,两个基因座之间便可能在两处同时发生遗传物质
的交换,其实际频率往往少于由单交换概率相乘所估得的理论值。
交换干扰:一个位置上所发生的交换会减少其周围另一个单交换的发生。


干扰的程度可用符合系数C表示,符合系数C为实际双交换值与理论
双交换值的比值。
理论双交换值是指一段染色体上发生2次独立不相关的单交换的概率。
C的取值范围为[0,1]。

当C=0时,表示完全干扰,没有双交换发生;

当C=1时,表示没有干扰,两单交换独立发生。

一般而言,两单交换的位置相距越远,则彼此干扰的程度就越低,符
合系数就越大。
作图函数
要计算两个相距较远的基因座之间的图距时,如果中
间没有其它基因座可利用,则两个基因座之间实际发生的
双交换就不能被鉴别出来。
因此,采用一些数学方法进行矫正是必要的,否则,
从重组率估计出的图距就会比真实图距小。这种矫正可通
过作图函数来实现。
Haldane作图函数:
x = 1/2ln(1-2r)
Haldane作图函数的不合理之处在于假定了完全没有交叉干扰。
Kosambi作图函数:
可以看出Kosambi作图函数计算出的图距比Haldane小,该模型看似更合理,
所以得到了更广泛的应用。
4.聚类得到连锁群



连锁:不同的基因一起遗传给后代的倾向,一般而言
两基因位于同一条染色体上。
连锁群:倾向于一起遗传的基因的集合,一般而言就
是同一条染色体上基因的集合
两点测验法:检验两个基因连锁还是不连锁。
•
•
r < 0.5 连锁
r = 0.5 不连锁
如何检验是否连锁(r<0.5 or r=0.5)?

LOD score (logarithm (base 10) of odds):
NR:非重组后代个数
R :重组后代个数
θ:重组率R/(NR+R)
一般认为LOD>3可以确定连锁,LOD<2可以确定不连锁
更多
http://www.pnas.org/content/93/8/3471.full.pdf
Logarithm of odds (lods) for linkage in complex inheritance

通过一些聚类算法把两两连锁的基因放在一个
类中,就得到了连锁群。
5.基因排序
得到连锁群后,我们还需要对连锁群内的基因进行排序,这需要三点
测验法。
三点测验法:三个基因已知两两之间的遗传距离后,就能对这三个基
因确定相对位置。
如基因a,b,c,L(ac)=0.2, L(ab)=0.1, L(bc)=0.1,他们之间的相对位置
0.2
应该为
a
0.1
b
0.1
c
更多基因之间的排序都是建立在三点排序的基础上。排序算法也有很多
种,比如插入排序法,是一种容易想到的算法:下图所示假设ABCD是
已经定好位置的四个基因,新的基因E分别尝试插入abcde五个位置,总
有一个位置使得相邻的两个基因和E的遗传距离的和最小。

E
a
a
b
A
A
b
c
B
B
c
d
C
C
d
e
D
E
f
D
e
遗传图距与物理距离对应关系的估计
不同生物的1cM图距所对应的实际物理距离(碱基对数量)存在
很大差异。一般而言,生物越低等或越简单,1cM图距平均对应的碱
基对数量就越少(表3.1)。表3.1中给出的各种生物中遗传图距与物
理距离之间的对应关系只是一个大约的平均值,实际上它变化很大。
在一条染色体上,由于不同区域上发生交换的频率存在差异,因而遗
传图距与物理距离之间的对应关系可以有很大的变化。例如,在着丝
粒附近,染色体交换受到抑制,因而所估计的遗传图距小于平均对应
的物理距离。在同一种生物中,两个特定基因座之间的遗传图距会因
遗传背景的不同而改变,甚至有时由同一对亲本所产生的遗传背景相
同的不同群体间也存在很大差异。