Transcript 基因与基因组
第二章 基因与基因组 2016/8/7 1 第一节 基 因 一、基因概念的发展 二、基因的结构 2016/8/7 2 一、基因概念的发展 1909, W. L. Johannsen 将遗传因子改称为基因(gene) 提出基因型和表型的概念 1910,T. H. Morgan 证实基因在染色体上 2016/8/7 3 1944, M. McCarty & O. Avery 肺炎球菌转化实验 1952,A. Hershey & . Chase T4噬菌体感染细菌实验 证实DNA是遗传物质 1941,G. W. Beadle & E. L. Tatum 链孢霉中生化反应的遗传控制 提出“一个基因一种酶”学说 2016/8/7 4 异源多聚体 Hemoglobin 2016/8/7 一个基因,一条多肽链 5 基因的概念: 储存有功能的蛋白质多肽链 或RNA序列信息,以及表达这些信 息所必需的全部核苷酸序列所构 成的遗传单位。 2016/8/7 6 二、 基因的结构 (一)结构基因(structure gene) 基因中编码RNA或蛋白质的DNA序列。 (二)非结构基因 结构基因两侧的一段不编码的DNA 片段(侧翼序列),参与基因表达调控。 2016/8/7 7 (一)结构基因 1. 原核生物的结构基因是连续的, RNA合成后不需要剪接加工。 非结构基因 z 非结构基因 2016/8/7 y a 结构基因 8 2.真核生物结构基因 由外显子(编码序列)和内 含子(非编码序列)两部分组成, 编码序列不连续,称为断裂基因 (split gene / interrupted gene) exon DNA intron 2016/8/7 9 3.GT-AG法则 真核基因中RNA剪接的识别信号 内含子的 5′端以GT开始, 3′端以AG结束。 5′ GT AG GT AG 3′ intron1 intron2 exon3 exon1 exon2 2016/8/7 10 (二) 非结构基因 参与转录调控的顺式作用元件 5′ 3′ 5′ 3′ ATATTT TATAAA 顺式作用元件:(cis-acting element) 能影响基因表达,但不编码RNA和 蛋白质的DNA序列。 2016/8/7 11 顺式作用元件 启动子和上游启动子元件 反应元件 增强子 Poly(A)加尾信号 2016/8/7 12 1.启动子和上游启动子元件 启动子(promoter): RNA聚合酶特异性识别结合和启动 转录的DNA序列。有方向性,位于转录 起始位点上游。 2016/8/7 13 TATA盒(TATA box): 位于转录起始点上游-25 bp左右,核心序 列TATA(A/T)A(A/T), 与TATA结合蛋 白结合,启动基因转录。 transcription start point -25 +1 β珠蛋白基因启动子突变:TATAA→TGTAA,降 低mRNA的转录效率→β+地贫。 2016/8/7 14 上游启动子元件: (upstream promoter element) TATA盒上游的一些特定DNA序列, 反式作用因子可与这些元件结合,调控 基因的转录效率。 2016/8/7 15 CAAT盒(CAAT box): 位于-70 bp左右,核心序列GGNCAATCT。 与CTF结合,调控转录效率。 transcription start point -70 2016/8/7 -25 +1 16 GC盒(GC box): 位于-120 bp左右 ,核心序列CCGCC, 与转录因子SP1结合,促进转录的过程。 transcription start point -120 +1 CCGCC 2016/8/7 17 CACA盒(CACA box): 位于-80~-90 bp,核心序列GCCACACC。 CACA box -90 transcription start point -80 +1 GCCACACCC 2016/8/7 β珠蛋白基因CACA盒-88, -87, -86点突变, 引起 β+地贫。 18 2.反应元件(response element) 与被激活的信息分子受体结合, 并能调控基因表达的特异DNA序列。 promoter CAAT box TATA box 5′ response element exon 3′ intron exon intron exon 糖皮质激素反应元件: cccaaagagctctgtgtcct 2016/8/7 19 3.增强子(enhancer) 与反式作用因子结合,增强转录活性, 在基因任意位置都有效、无方向性。 promoter CAAT box enhancer response element TATA box 5′ exon 33′ ′ intron exon intron exon 凝血酶原基因增强子 -922 to -897: 5′-GTGTTCCTGCTCTTTGTCCCTCTGTC-3′ 2016/8/7 20 4.沉默子(silencer) 基因表达负调控元件,与反式作用 因子结合,抑制转录活性。 甲胎蛋白基因沉默子:cttcattaacttaattt 2016/8/7 21 5.Poly(A)加尾信号 结构基因末端保守的AATAAA顺序及 下游GT或T富含区,被多聚腺苷酸化特 异因子识别,在mRNA 3′端加约200个A。 DNA 5′--------AATAAA ---------- GT------- 3′ mRNA 前体 mRNA 5′--------AAUAAA ---------- GU------- 3′ 5′--------AAUAAA ------AAAAAAAA 3′ β珠蛋白AATAAA→AACAAA,→β+地贫。 2016/8/7 22 基因的结构 结构基因 promoter Enhancer 5′ Poly(A) 加尾信号 CAAT box TATA box response element UTR exon ATG exon intron exon intron UTR 3′ TGA +1 Stop 开放阅读框:open reading frame ,ORF 非翻译区:untranslated regions ,UTR 2016/8/7 23 小 结 1. 储存有功能的蛋白质多肽链或RNA序 列信息,以及表达这些信息所必需的全 部核苷酸序列所构成的遗传单位。 2. 顺式作用元件主要有启动子和上游 启动子元件、增强子、沉默子、反 应元件、Poly(A)加尾信号。 2016/8/7 24 第二节 基因组 (genome) 16 5 19xy 22xy 基因组:细胞或生物体一套完整单 倍体的遗传物质的总称。 2016/8/7 25 一、病毒基因组 1. 不同病毒基因组大小相差较大。 痘病毒(Poxvirus) 2016/8/7 130~375 kb 乙型肝炎病毒(HBV) 3.2 kb 26 2.不同病毒基因组可以是不同结构的核酸。 单链线性RNA 双链线性DNA 双链线性RNA 单链环状DNA RNA基因组 多数为单链、线性 DNA基因组 多数为双链、环状或线性 2016/8/7 27 3. 除逆转录病毒外,通常为单倍体基因组。 膜蛋白 核心蛋白 逆转录酶 +ssRNA 人类免疫缺陷病毒 (HIV) 2016/8/7 28 基因组复制与基因表达 +ssRNA 反转录 蛋白质 ssDNA 转录 dsDNA 整合 2016/8/7 翻译 病毒 颗粒 mRNA (+ssRNA) 29 3′ 5′ gag +ssRNA pol 核心蛋白 逆转录酶 env 膜蛋白 单链线性RNA,二倍体; 有三个基本的结构基因:gag、pol、env; 5′端有甲基化帽,3′端有poly(A)尾。 2016/8/7 30 4.有的病毒基因组是连续的。 刺突蛋白 膜蛋白 核衣壳蛋白 +ssRNA SARS冠状病毒 (SARS coronavirus) 2016/8/7 31 有的病毒基因组分节段。 血凝素(H) 神经氨酸酶(N) 8节段-ssRNA 甲型流感病毒( influenza A virus) 2016/8/7 32 5.有的基因有内含子。 小t 抗原 5243 bp Ori 大T抗原和小 t抗原的mRNA 有不同的剪接 方式。 大T 抗原 2016/8/7 猴病毒 (SV40 )基因组 33 6.病毒基因组大部分为编码序列; 功能相关基因转录成多顺反子mRNA; L1 E1A E1B 0 10 20 E2B 30 L2 40 L3 50 L4 60 70 E2A E3 L5 80 90 100% E4 腺病毒 (adenovirus)基因组 2016/8/7 34 7. 基因重叠(gene overlap) 5386 nt 5386nt 编码2500个氨基酸 利用有限的核 酸贮存更多的 遗传信息,提 高自身在进化 过程中的适应 能力。 噬菌体ΦX174基因组 2016/8/7 35 开环部分双链DNA基因组 HBsAg dsDNA 3182 bp 3182bp 聚合酶 HBcAg HBeAg 乙型肝炎病毒(HBV)基因组 2016/8/7 36 基因组复制与基因表达 dsDNA 修复 cccDNA 转录 翻译 mRNA 反转录 -ssDNA 复制 +ssDNA 2016/8/7 蛋白质 病毒 颗粒 dsDNA 37 病毒基因组的结构特点 1. 不同病毒基因组可以是不同结构的核酸; 2. 除逆转录病毒外,为单倍体基因组; 3. 病毒基因组有的是连续的,有的分节段; 4. 有的基因有内含子; 5. 病毒基因组大部分为编码序列; 6. 有基因重叠现象; 7. 功能相关基因转录为多顺反子mRNA。 2016/8/7 38 二、原核生物基因组 以大肠杆菌(Escherichia coli)为例 细菌染色体DNA 质粒DNA 2016/8/7 39 类核(nucleoid):细菌染色体在 细胞内形成的一个致密区域 nucleoid 2016/8/7 大肠杆菌细胞结构 40 (一)由一条环状双链DNA分子组成, 通常只有一个DNA复制起始点。 OriC 0 4000K 大肠杆菌 C-Value: 4.6×106bp 1000K 3000K 2000K TerC 大肠杆菌染色体DNA 2016/8/7 41 (二) 结构基因大多组成操纵子 操纵子(operon): 多个功能相关的结构基因 成簇串联排列,与上游共同的调控区和 下游转录终止信号组成的基因表达单位。 p o promoter operator 半乳糖苷酶 z z y a t terminator structural genes 透酶 y 半乳糖苷乙酰转移酶 a 乳糖操纵子(lac operon) 2016/8/7 42 原核生物的mRNA是多顺反子mRNA DNA Promoter Gene 1 Gene 2 Gene 3 Terminator Transcription 多顺反子mRNA (polycistronic mRNA): 5′ 3′ mRNA 2 3 1 原核生物的一个mRNA分子带有几个 Translation 结构基因的遗传信息,利用共同的启动 子及终止信号,组成操纵子的基因表达 调控单元。 Proteins 1 2016/8/7 2 3 43 (三)非编码区主要是调控序列: 复制起始区(OriC) 复制终止区(TerC) 转录起动区 转录终止区 2016/8/7 44 复制起始区(OriC) E.coli oric region(250 bp) 13-mers 2016/8/7 9-mers 45 转录终止区 DNA 5′…GCCGCCAGTTCGGCTGGCGGCATTTT… 3′ RNA 5′…GCCGCCAGUUCGGCUGGCGGCAUUUU…3′ 5′ 2016/8/7 U U G A C C G C C G C G G C U G G C G G C A U U U U-OH 3′ 强终止子:有反向重复顺序,可形成 茎环结构,其后为poly(T)。 46 (四)存在可移动的DNA序列 • 转座因子(transposable element): 能够在一个DNA分子内部或两个DNA 分子之间移动的DNA片段。 • 转座(transposition): 转座因子在基因组不同位置间的移动。 2016/8/7 47 1.转座因子的类别 (1)插入序列(insertion sequence, Is) 小于2000 bp,只有转座相关基因 转座酶 Is3 2 kb 2016/8/7 48 (2) 转座子(transposon,Tn) 2~20 kb,常带有抗性基因等其它基因 转座酶 氨苄青霉素抗性 Tn3 四环素抗性 转座酶 Tn10 2 kb 2016/8/7 49 (3) 可转座的噬菌体 转座酶 转座酶 结合位点 A 宿主DNA 头尾部蛋白 转座酶 结合位点 B 37 kb 宿主DNA Mu噬菌体 2016/8/7 50 2.转座作用的机制 供体DNA 转座子 受体DNA 复制和转座 切除和连接 新的DNA 复制性转座是转座因子 复制出一个新拷贝转移 到基因组新的位置 2016/8/7 简单转座是转座因子从 原来位置上切除并转移 到基因组新的位置 51 • 引起插入突变 • 携带标志基因使受体增添新基因 转座子 A B C D 复制 插入 A B D E F 转座子新拷贝 E F C 基因F被隔断而失去功能 2016/8/7 52 (五)其它结构特点 1.基因密度非常高,基因组中编 C码区大于非编码区; 值:4,639,221 bp 基因数:4288 基因大小:950bp/gene 2.结构基因没有内含子,多为 单拷贝,结构基因无重叠现象; 基因间隔:118bp/2gene 3.重复序列很少,重复片段为 转座子; 4.有编码同工酶的等基因(isogene); 2016/8/7 53 分支酸别构酶 entC isochorismate synthase entB isochorismatase 乙酰乳酸合酶 ilvBN acetolactate synthase Ⅰ ilvIH acetolactate synthase Ⅲ 2016/8/7 54 (六)质粒 (plasmid) 质粒是存在于细菌染色体外的,具有 自主复制能力的环状双链DNA分子。 2016/8/7 55 质粒的特性 • 在宿主细胞内可自主复制; • 细胞分裂时恒定地传给子代; • 所携带的遗传信息能赋予宿主特 定的遗传性状; • 质粒可以转移。 2016/8/7 56 原核生物基因组的结构特点 1. 2. 3. 4. 5. 6. 7. 基因组由一条环状双链DNA组成; 只有一个复制起始点; 大多数结构基因组成操纵子结构; 结构基因无重叠现象; 无内含子,转录后不需要剪接; 基因组中编码区大于非编码区 重复基因少,结构基因一般为单拷贝; 8. 有编码同工酶的等基因; 9. 基因组中存在可移动的DNA序列; 10.非编码区主要是调控序列。 2016/8/7 57 三、真核生物基因组 由染色体DNA和线粒体DNA组成。 人类染色体核型 2016/8/7 人类线粒体DNA 58 1.基因家族(gene family) 是指一组有类似功能,核苷酸 序列又有同源性的基因。 (1)基因超家族(supergene family) 由多基因家族及单基因组成,成员间 有不同程度的同源,但它们的功能不一定 相同。 2016/8/7 59 (2)核酸序列相同 多拷贝基因形成的基因簇, rRNA、tRNA、组蛋白基因家族。 非洲爪蟾的5SRNA基因结构 5SRNA基因 非转录空隔区 组蛋白基因家族 2016/8/7 60 (3)核苷酸序列高度同源 人生长激素(hGH)与人胎盘催乳素(hCS)序列比对 2016/8/7 61 (4)编码产物的功能或功能区相同 PKC family of proteins (human) 2016/8/7 62 (5)假基因(pseudogene,Ψ) 与有功能的基因相似,不表达或 表达产物没有功能。 2 1 G A Alu 10 kb 珠蛋白基因簇中的假基因 2016/8/7 63 2.单顺反子mRNA(monocistronic mRNA) 真核生物的一个编码基因转录生成 一个mRNA。 DNA Promoter Structure Gene Transcription mRNA 5′ Translation 3′ Protein 2016/8/7 64 3.染色体DNA的类型 (1) 单拷贝序列(低度重复序列): 在单倍体基因组中只出现一次或 数次,结构基因主要是单拷贝序列。 2016/8/7 65 (2)中度重复序列: 重复次数10-105。 tRNA、rRNA 组蛋白、免疫球蛋白 可能与基因调控相关序列 2016/8/7 66 (3) 高度重复序列 (highly repetitive sequences) 重复次数>106次 A.反向重复序列 (inverted repeats) B.串联重复序列(tandem repeats) 卫星DNA(satellite DNA) 2016/8/7 67 A. 反向重复序列 两个顺序列相同的拷贝在DNA链上呈 反向排列。 5′AAACCACCGCTGGTAGCGGTGGTTT 3′ 3′TTTGGTGGCGACCATCGCCACCAAA 5′ 5′AAACCACCGCTAGCGGTGGTTT 3′ 回文结构 3′TTTGGTGGCGATCGCCACCAAA 5′ 2016/8/7 68 形成发夹结构 A G 5 ′A A A C C C T T C G C C A A G C G G T 3′ T T T G G T G G C G A C T 2016/8/7 G G G T T T 3′ A C C A A A5′ C C G C T A G C 69 B. 串联重复序列(卫星DNA) 有相同的核心序列,多为2~70 bp。 主带 卫星DNA 光 密 度 数浮力密度 2016/8/7 70 a. 大卫星(macro-satellite)DNA: 重复单位5-10 bp,其多态性不显著。 卫星带 光密度 主带 260nm 浮力密度 2016/8/7 A C AAA C T A C AAA C T ATAAA C T ATAAA C T A C AAAT T A C AAAT T 果蝇基因组 71 b. 小卫星(minisatellite) DNA: 重复单位9-24 bp,呈高度多态性。 • 可变数目串联重复序列 (variable number of tandem repeat,VNTR) 核心序列:GGGCAGGAXG • 端粒DNA:(TTAGGG)n,2-20 kb, 染色体复制,末端保护。 2016/8/7 72 c.微卫星DNA (micro-satellite DNA) •即短串联重复(short tandem repeat, STR)。 •重复单位2~6 bp,常见为(AC)n和(TG)n; •重复次数10~60次,总长度小于150 bp; •高度多态性,可作遗传标记。 2016/8/7 73 真核基因组的结构特点 1. 2. 3. 4. 5. 6. 7. 2016/8/7 每一种真核生物都有一定的染色体数目; 远大于原核基因组,结构复杂,基因数庞大; 真核生物基因转录产物为单顺反子; 有大量重复序列; 真核基因为断裂基因; 非编码序列多于编码序列; 功能相关基因构成各种基因家族。 74 2016/8/7 75