第3章基因组

Download Report

Transcript 第3章基因组

第三章 基因组的结构和功能
基因(gene)
是编码有功能的蛋白质多肽链或RNA所必需的全部核苷酸序
列。
一个基因不仅仅包括编码蛋白质肽链或RNA的核酸序列,还
包括转录所必需的调控序列及位于编码区5`端上游的非编码序
列、内含子和位于编码区3`下游的非编码序列。
基因组(gencme)
细胞或生物中,一套完整单倍体遗传物质的总和称为基
因组。
人类基因组包含22条染色体和X、Y两条性染色体上的全
部遗传物质(核基因组)以及胞浆线粒体上的遗传物质(线
粒体基因组)。
不同生物基因组结构与组织形式上有巨大差别,病毒基
因组结构简单,所含结构基因很少;原核生物基因组所含基
因数量较多,且有了较为完善的表达调控体系;真核生物基
因组所含基因数量巨大,表达调节系统也更为精确。
第一节
病毒基因组
病毒是最简单的生命形式,病毒是不能单独繁
殖的生物体,它是一类只能在宿主细胞内进行复制
的最小微生物。遗传信息的延续构成了其生命的主
要内容。病毒基因组的主要功能就是保证基因组的
复制及其向子代传递,整套的基因组所编码的蛋白
质都是与基因复制、病毒颗粒包装以及病毒向其它
宿主细胞传递密切相关的。
完整的病毒颗粒具有蛋白质外壳,以保护病毒
核酸不受核酸酶的破坏,并能识别和侵袭特定的宿
主。
病毒基因组结构功能特点
(一)病毒基因组可以由DNA组成,也可以是RNA组成,但每一
种病毒颗粒只有一种核酸组成。
乳头瘤病毒、乙肝病毒
双链环状DNA
腺病毒、疱疹病毒
双链线状DNA
脊灰病毒
单链RNA
呼肠孤病毒
双链RNA
RNA病毒基因组分为以下几种类型
1、单股正链RNA病毒基因组:SARS冠状病毒;HIV病毒、
白血病病毒、肉瘤病毒
复制负链RNA
正链RNA
逆转录酶
正链RNA
双链cDNA
复制正链RNA
插入宿主细胞基
因组成为前病毒
转录出正链RNA
2、单股负链RNA病毒基因组:滤泡性口腔炎病毒、流感病毒、
副流感病毒等
负链RNA
正链RNA
复制负链RNA
3、双链RNA病毒基因组:轮状病毒、呼肠孤病毒
DNA病毒基因组分为以下几种类型
DNA病毒基因组也有单、双链和正、负股之分。由于单链
DNA在转录之前都要合成互补DNA,因此正股、负股DNA区
别 没有真正的显示出来。
DNA病毒基因组可以有环状(乳头瘤病毒)和线性(腺病
毒)之分
(二)、病毒与细菌或真核生物相比,基因组小、基因数
少,所含遗传信息也相应少。同时病毒基因组之间差别大。
(三)、病毒基因组有重叠基因存在。
一段序列可编码2种或2种以上蛋白质,基因重叠虽
然共用同一段核酸序列,但转录成的mRNA链的阅读框
不同。
(四)、基因有连续和间断的。
噬菌体的基因是连续的,基因中无内含子。但感染
真核细胞的病毒基因是不连续的,有内含子。
(五)、病毒基因组的大部分是用来编码蛋白质的
(90%),只有一小部分不被翻译。
(六)、相关基因丛集
病毒基因组DNA序列中功能相关的编码蛋白质基因
或rRNA基因常集中在基因组的一个或几个特定部位形
成一个功能单位或转录单元,它们可被一起转录成多顺
反子mRNA,然后加工成各种mRNA。
(七)、除反转录病毒基因组有两个拷贝外,其它病毒
基因组都是单倍体。
第二节
原核生物基因组
原核生物的生命活动不仅仅是简单的复制基因组,还
有复杂的代谢活动,即利用外界环境中的营养成分,获取
自身所需的能量,合成自身生长所需的材料。
原核生物需要根据外界环境的变化,调节自身的酶系
统的组成及功能,利用不同的营养物质,调整细胞内一些
蛋白质的数量,应付环境的变化。因此原核生物基因组的
结构基因数量和功能的类型远远多于病毒基因组。
一、原核生物基因组结构与功能的特点
1.基因组通常仅由一条环状双链DNA分子组成。
其DNA是与蛋白质结合,但并不形成染色体结构,只
是习惯上将之称为染色体。细菌染色体DNA在胞内形成一
个致密区域,即类核(nucleoid),类核无核膜将之与
胞浆分开。
2.功能相关的几个结构基因往往串联排列在一起组成操纵
子结构,受上游共同的调控区控制。
3.原核生物基因组中基因密度非常高,结构基因是连续的
多为单一拷贝。
4.结构基因无重叠现象,基因组中任何一段DNA不会用于编
码2种蛋白质。
5.在原核生物基因组中含有编码同工酶的基因。
6.在不同原核生物基因组中GC含量变化很大。
7、在原核生物基因组的非编码区内主要是一些调控序列。
复制起始区、复制终止区、转录启动区和终止区等。这些区域往往具
有特殊的序列,并且含有反向重复序列。
8、细菌基因组中的可移动成分能产生转座现象。
9、除细菌染色体外,还有能自主复制的双链环状DNA分子,
称为质粒。
二.转位因子
转位因子(transposable
element)
基因成分(可移动基因,movable gene
即可移动的
mob),是指能够
在一个DNA分子内部或两上DNA分子之间移动的DNA片段。在
细菌中指在质粒和染色体之间或在质粒和质粒之间移动的
DNA片段(文献上有时形象地称其为是跳跃基因,jumping
gene)。转位也是DNA重组的一种形式。
移动基因最早由美国冷泉港实验室(cold spring Harbor
Laboratory)的女科学家B.MClintock于上个世纪40年代晚期
在玉米中首次发现的。60年代,为J.A.Shapirc研究大肠杆菌
高效突变实验证实。1983年荣获诺贝尔生物学医学奖。
(一)转位因子的种类及特征
细菌的转位因子包括插入序列,转座子及可转座的噬菌体。
1.插入序列(insertion sequence,IS)
插入序列是一类较小的没有表型效应的转位因子,长度为
700-2000BP,其组成除带有一个与转座作用有关的转位酶基因外,
在其两侧有反向重复序列及靶位点。同时IS的转位频率为10-7/拷
贝,即在一个传代的107细菌中有一次插入。插入方向可以正向,
也可以反向。
TS IR
Transpcsase gene
IR TS
target site (TS)靶位点
Transposase gene 转位酶基因
IS的示意图
inverted repeated (IR)反向重
复顺序
2.转座子(transposon,Tn)
Tn是一类较大的可移动成分,长度在2000-20,000bp,
除有关转座基因外,至少还含有一个以上与转座无关,
但决定宿主菌遗传性状的基因。如抗药基因等。Tn是
在研究抗药基因中发现的,由此知道抗药基因可在质
粒之间,质粒与染色体之间或质粒与可转座的噬菌体
之间来回移动,Tn的转位原理和Is基本相同,转位频
率为10-3至10-6/拷贝之间。
3.可转座的噬菌体(transposable
phage)
(1)包括Mu和D108两种噬菌体,是一类温和噬菌体。
(2)感染细菌后,可以整合到细菌染色体中,插入位点是随
机的(而入phage插入位点是专一的),可以插到结构基因
内部,引起突变,Mu即Mutator(突变子)因此得名。
(3) 插入时,一个拷贝留在原位,新合成的拷贝插入新的
部位。
(4)和IS,Tn相比,Mu末端不含IR,这是可转座成分的一个
例外。
(二)转位作用的机理
转位作用可以分为和。通常带有内解离区(res位点)
的转座因子以复制转座为主,而无解离区的以简单转座为
主。
简单转痤(单纯转座)
复制性转座
1.复制性转位机理:
转座因子在其自身tnpA基因编码的转座酶作用下,首先
在转座成分双链的相反极性端同时出现单链切口。与此同时,
一种DNA内切酶在靶点序列两侧各一条单链上造成一切口。
随后,供体上转座因子的游离端与靶位点DNA上错开切割的
突出端分别连接,在宿主细菌DNA聚合酶的作用下,以任意
一条链为模板进行复制,新的转座成分通过半保留复制完成,
形成“共整合体”,此“共整合体”是以转座成分正向重复
序列相连接。最后,由转座因子tnpR基因编码的解离酶作用
于共整合体中的转座因子的内解离区,使共整合体发生解离,
产生各含一个供体DNA分子和受体DNA分子。
2、简单转座机制
简单转座时,转位酶将供体DNA的转座因子两侧各
切断一条单链并与靶序列的2个游离末端连接,随后并
没有复制过程,而是由转位酶将供体DNA转座因子的另
一段也切断,因此在供体DNA留下一个致死性缺口。
(三)转座作用的遗传学效应
1、转座引起插入突变
当插入序列或转座子插入某个基因的操纵序列前时,可引起操纵子后
的结构基因表达失活。
2、转座可产生新基因
如果转座子上带有某些抗药性基因,它一方面会造成靶位点DNA突变,
同时会使该位点产生抗药性。
3、转座可出现染色体畸变发生
当转座发生在宿主DNA原有位点时,往往导致转座子两个拷贝之间
的同源重组,引起DNA的缺失或倒位。
4、转座可以引起生物进化
由于转座作用,使一些原来在染色体上相距甚远的基因组合到一起,
构建成一个操纵子或表达单元,也可能产生上些具有新的生物学功能的基
因和新的蛋白质分子。
原核生物------大肠杆菌
大肠杆菌是格兰氏阴性杆菌,生长、繁殖迅速,培养时
营养要求不高。同时在基因工程中有重要应用。
大肠杆菌的遗传物质主要是染色体DNA和质粒DNA。染色
体DNA总长度为4.6*106碱基对,约有3500个基因。细菌
除了在类核中有较大环状染色体DNA外,许多细菌胞质
中还含有一个或多个小的环状DNA分子,这些染色体外
的遗传物质称为质粒。
质粒(plasmid)定义
是存在于细菌染色体外的,具有自主复制能力的环状双链
DNA分子。
质粒是双链的DNA分子,大小在1—200kb之间,和病毒不同,
它们没有衣壳蛋白(裸DNA)。质粒分子在宿主细胞内独立自
主地进行复制,并在细胞分裂时恒定地传给子代细胞。质粒带
有的一些不同于宿主细胞的遗传信息,所以质粒在细菌内存在
会赋予宿主细胞一些新的遗传性状,例如对抗生素或重金属产
生抗性。同时可以根据宿主表型可识别质粒存在,从而用于筛
选和鉴定重组细菌。
(二)质粒与宿主细胞的关系
(1)质粒对宿主的生存不是必需的,只是“友好”的
“借居”宿主细胞中,既不杀伤细胞,对宿主的代谢活动
也无影响,宿主离开质粒照样的生存下去。
(2)质粒离开宿主就无法生存,只有依赖宿主细胞的
(酶和蛋白质)帮助,才能完成自身的复制(扩增)、转
录。
(3)质粒赋于宿主各种有利的表型(质粒编码蛋白质或
酶),使宿主获得生存优势,与我们基因工程实验紧密相
关的,如抗生素抗性基因:
Ampr ,水解β-内酰胺环,解除氨苄青霉素毒性,使细菌抗
氨苄青霉素。
Tetr ,可阻止四环素进入细胞,使细菌抗四环素。
(三)质粒的基本特性
1.自主复制
质粒的复制是自主调节的,不受染色体复制调节因素的影响。
复制调控系统由质粒上的复制起点(ori),质粒的rep基因和cop基因组成。
Rep蛋白启动质粒的复制,cop基因本身或其表达产物可抑制复制作用,从
而控制质的拷贝数。
2.质粒的不相容性
一个细胞内。
具有相同的复制起始点和分配区的质粒不能共存于同
分配系统是使质粒在细菌分裂过程中精确分配到子细胞中。质粒中对其稳
定存在至关重要的区域称分配区。
当一个宿主细胞内的两个质粒的复制起始点相同时,它们共用同一分配系
统,彼此之间存在竞争。最终会出现一种质粒的丢失。如果两个质粒的复制起
始点不同,分配系统不一,可以共存。
3.质粒的转移性
在自然条件下,在些质粒可以通过细菌接合作用在细菌、
细胞向传递。基因工程中常用的质粒载体缺乏转移所需的基因(mob基因),
不能通过接合作用在细胞间传递,但可采用人工方法转化到细菌、细胞中。
(四)质粒研究意义
1)理论意义
质粒能够复制、传递和表达遗传信息,从分子
遗传学观点来看是一种有机体,是比病毒更原始的生命形式,
是生命起源研究的一块重要基石。
2)实践意义
是基因工程的重要载体(vector),能把外源
基因(目的基因)送到宿主细胞中去克隆扩增或克隆表达(见
第八章)。
①质粒是可以改造的,可以剪切、剪接的,基因工程的重要
任务之一就是严格改造质粒的同时,控制质粒不传递,若一个
致癌质粒可以传递就会传的到处都是。
②作为基因工程载体的3个特点:
A.都能独立自主的复制;
B.都能便利的加以检测(抗生素抗性);
C.都能容易引进宿主细胞中去,也易从宿主细胞中分离纯
化(提质粒)。
质粒符合上述3个条件。
基因工程中主要使用人工构建的质粒。
(五)质粒的分类
按质粒的复制机理,分为两类:
1)紧密控制型
2)松弛控制型
(1)拷贝数少,一般<10个,分子量大;
(1)拷贝数多,10-200个,分子量小;
(2)复制受限,受细菌宿主DNA复制系
(2)复制不受细菌DNA复制系统限制,
统的控制;
(3) 特点是这类质粒可以自传递;
(4)严谨控制机理(低拷贝原因),认
为是该质粒可以产生阻遏蛋白,反馈
抑制自身DNA合成。
当宿主蛋白质合成受抑制时(如培养
中加入氯要素时),其拷贝数可猛增至
1000-3000之多,该性质对基因工程技术
十分有利。
3)分子量小,不具备自传递能力;
4)基因工程使用松弛型(高拷贝数)
质粒,以获得列多的基因产物。
第三节
真核生物基因组
真核生物远比原核生物复杂,其基因组的容量远远大于
原核生物基因组,真核基因组结构和功能也更为复杂。真核
生物细胞具有细胞核,DNA为线性,与组蛋白、非组蛋白结
合成染色质,染色质组装在核内,外有核膜包裹,因此基因
组的转录和翻译不能在同一空间进行,转录在细胞核、翻译
在胞浆。真核生物除了核基因组外,真核生物还具有线粒体
基因组,植物细胞叶绿体内也有遗传物质。
一、真核生物基因组结构与功能特点
1、每一种真核生物都有一定的染色体数目,除了配
子为单倍体外,体细胞一般为双倍体。而原核生物
为单倍体。
2、真核基因组远远大于原核生物基因组,结构复杂,
基因数多。具有多个复制起始点。
3、真核生物基因组DNA与蛋白质结合形成染色体,储
存于核内。
4、真核生物中含有大量的重复序列。
5、真核生物基因组内非编码序列占90%以上。基因组
中非编码序列所占比例是真核生物与细菌、病毒的
重要区别,且在一定程度上也是生物进化的标尺。
6、真核基因是断裂基因,即编码序列被非编码序列
分隔开。
二、真核生物基因组的C值矛盾问题?
同一物种的基因组DNA含量总是恒定的,一个单倍
体基因组中的全部DNA量称为该物种DNA的C值。
一般来说,随着生物的进化,生物体的结构与功能
越复杂,基因组DNA也应增多,其C值就越大。即C值随
着生物的复杂性增加而增加。
但真核生物中,这种进化的复杂程度与DNA的C值
的大小并不完全一致。
这种形态学复杂程度与C值大小不一致的C值反常现
象称为C值矛盾
二、基因家族(gene family)
真核生物基因数目巨大,结构功能复杂,但这些众多
基因实际上是由数量有限的原始基因逐步进化、发展而来,
因此许多基因在核苷酸序列或编码产物的结构上存在着不
同程度的同源性。
基因家族: 是指核苷酸序列或编码产物具有一定程度同
源性的一组基因.
同一基因家族成员可分散在不同的染色体上,也可集
中在一条染色体上,而且同一个基因家族的成员也不不一
定都是有功能的,没有功能的成员称为假基因。
根据基因家族内各成员同源性的程度,基因家族分类:
1、核酸序列相同
在真核生物基因组中,有些基因的拷贝数不只一个,可以有几个、
几十个或上百个,这些基因被称为单纯多基因家族(各基因的核苷酸序
列相同)如rRNA,tRNA家族和组蛋白基因家族。
tRNA基因: 人类基因约有1300个tRNA基因,编码50多种tRNA。每种tRNA
可有10-几百个基因拷贝。同种tRNA往往串联在一起形成基因簇,但基
因间有非转录间隔区分隔,常常比结构基因长近10倍。
组蛋白基因家族在染色体上的排列则是另一种形式,5种组蛋白基因串
联成一个单元,再由许多单元串联成一个大簇。这种重复排列与DNA复
制时需要大量组蛋白有关。提高了组蛋白合成的效率。
2.家族中各基因核苷酸序列高度同源
人类生长激素基因家族
包括人生长激素(hGh)、人胎盘促乳素(hCS)和
催乳素。它们之间的同源性很高,尤其是hGh和hCS之间,
蛋白质氨基酸序列有85%的同源性,mRNA上序列上有92%
的同源性,说明它们是来自一个共同祖先基因。3种基
因并不都排列在一起,hGh和hcs基因位于第17号染色体
长臂,催乳素基因位于第6号染色体。
3.家族中各基因编码的产物蛋白质有同源功能区(但基
因的核苷酸序列相似性可能很低)
如src癌基因家族
src,abl,fes,fgr,fps,fym,kck,lyn,ros,tkl,yes
此家族中各基因的DNA序列没有明显的同源性。
但每个基因产物都含有250个氨基酸顺序的同源蛋
白激酶结构域。这个结构域具有酪氨酸激酶活性。共同
参与细胞信号转导。
4.家族各基因编码的蛋白质中具有小段保守基序
这类基因家族中各成员的DNA序列可能并不明显相关,而所
编码的产物具有共同的功能特征,存在一小段保守的氨基酸
基序。
如DEAD box基因家族。DEAD box:Asp-Glu-Ala-Asp.
此家族中各基因的DNA序列没有明显的同源性,但所有的表达
产物都具有解旋酶的功能,都具有同样的保守基序(DEAD
盒),DEAD是酶活性的关键结构。
5.基因超家族(gene superfamily)
基因超家族
是指一组由多基因家族及单基因家族组成的
更大的基因家族。它们的结构有程度不等的同源性,因此它
们可能起源于相同的祖先基因,但是它们的功能并不一定相
同,这一点正是与多基因家族的差别所在。这些基因在进化
上也有亲缘关系,但亲缘关系较远,故将其称为基因超家族。
如:
(1)免疫球蛋白超基因家族
表达产物都有免疫球蛋白样的结构域结
构。有2个微球蛋白、MHCI类抗原的α链,Ⅱ类抗原的α链和β链、CD4、
CD8等与免疫有关的分子。
以后又陆续发现了许多免疫系统内以及与免疫无关的家族成员。
假基因(pseudogene)
1.假基因
在多基因家族中某些与正常功能基因在核苷酸
序列上相似,但不能转录或转录后生成无功能基因产物的DNA序
列,被称为假基因。
2.假基因常用符号ψ表示,如ψα1 表示与α1 相似的假基
因.
3.假基因与有功能的基因同源,原来也可以是有功能的基因,
由于发生缺失(deletion)、倒位(inversion)或点突变(point
mutaion)等,成为无功能的基因,即形成了假基因,哺乳动物
基因组中的1/4基因为假基因,可能为进化的痕迹。
三、真核生物DNA序列的类型
真核生物染色体DNA中存在着许多重复序列,根据
DNA序列出现频率的不同,可分为:单拷贝序列、中度重
复序列、高度重复序列。
单拷贝序列:
该拷贝序列在基因组中只出现一次或少数几次(<10)。
真核生物的大多数基因都是单拷贝。
中度重复序列:
中度重复序列基因重复次数在数十次至数万次(<105),
其长度为300-7000碱基对,一般是不编码的序列。有些
编码区如rRNA基因、tRNA基因、组蛋白基因等也属于
中度重复序列。
Alu家族;
该家族是哺乳动物及人基因组中存在最广泛的一种中度
重复序列,约占人基因组DNA总量的3-6%。
Alu序列长300bp,在170位碱基附近的AGCT顺序是限
制性内切酶Alu Ⅰ酶切位点,所以得名。
高度重复序列
在基因组中的重复次数 >105的DNA序列,这种序列可以集
中分布在某一区域串联排列,典型的高度重复序列有卫星DNA
和反向重复序列两类。
⑴反向重复顺序(inverted repeats,IR)是指两个顺序相同的
拷贝在DNA链上呈反向排列。反向重复顺序有两种形式。 ①.连续的
反向重复顺序,这种结构又称回文结构(palindrome) ;②.不连续
的反向重复顺序之间含有间隔顺序。
ATTAGC
GCTAAT
ATTAGC GGAT GCTAAT
TAATCG
CGATTA
TAATCG CCTA CGATTA
反向重复顺序占人类基因组5%,可能与复制、转录调控有关。
卫星DNA
将基因组DNA切成较小片段(数百个碱基对的片段
104),用氯化铯进行密度梯度离心时,真核生物大部分
DNA形成一个主峰(CG含量在30-50%),有些高度重复序列
的DNA由于碱基组成不同,出现小峰,因小峰在主峰旁似
卫星而得名。
卫星DNA不编码蛋白质或RNA。它在染色体的位置主
要位于着丝粒、端粒处。
卫星DNA分类:
1、大卫星DNA:也称为经典卫星DNA。是在氯化铯密度梯
度离心时发现。总长度约100KB-几个MB
2、小卫星DNA:由中等大小的串联重复顺序构成,卫星
总长度约0.1-20KB。如分布在端粒区域
3、微卫星DNA:是一类更简单的寡核苷酸串联重复顺序
组成。重复单位为1-5BP,常见的是以(AC)n、(TG)n
的二聚核苷酸为重复单位。它可以分布在内含子、间隔
DNA,也可以在编码区存在.
人类基因组中的DNA多态性
人类个体之间之所以千差万别,其物质基础在于
基因组DNA的差异造成的。DNA序列多态性是这些
差异中十分重要一种。DNA序列多态性可分为以
下两类:
1、DNA位点多态性
2、串联重复顺序多态性
1、DNA位点多态性
DNA位点多态性是由于等位基因间特定位点上DNA序列存
在差异造成的。
在DNA位点多态性中,可能影响DNA序列中的限制性内切
酶位点,造成限制性片段长度多态性(restriction
fragment length polymorphism RFLP)。即利用同一种限
制性内切酶消化DNA时,在同种生物的不同个体中会出现不同
长度的限制性片段类型,即限制性片段长度多态性,简称
RFLP技术。
RFLP产生的原因
是DNA顺序上某个碱基发生突变,如单个碱基
置换,或少数碱基缺失、重复、插入,使突变部位
的DNA序列产生或丢失某种限制性内切酶位点,当
用该限制性内切酶消化此DNA时,使DNA限制性片段
长度发生变化,产生与正常不同的限制性片段。
2、串联重复顺序多态性
由于真核生物体内串联重复序列的拷贝数不同造成
串联重复次数有较大的变化,形成串联重复顺序多态性
(tandem repeats polymorphism),也称为可变数目的
串联重复序列(variable number of tandem repeats
VNTRS)。串联重复顺序长度多态性是另一种DNA序列长
度多态性,这种多态性在人群中有极高的频率.串联重复
顺序长度多态性主要发生在小卫星DNA、微卫星DNA中 。
同时人类基因组位点多态性和串联重复多态性都是按孟
德尔规律遗传的,具有体细胞稳定性及种系稳定性,因此
可作为染色体上疾病基因座位的遗传标记.