密码子使用偏性 - 生物信息学研究所
Download
Report
Transcript 密码子使用偏性 - 生物信息学研究所
第5章
基因组信息分析
5.1 关于遗传语言
5.2 原核基因组特点
5.3 真核基因组特点
5.4 基因组序列分析
5.5 基因识别方法
5.6 非编码区与分析和调控
元件建模
第一部分:
搜索遗传语言;
原核、真核基因组特
点
1、基因组DNA的奥秘
• 遗传信息存贮在4种字符组成的核酸序列中
• “天书”——用遗传语言书写的人类遗传蓝本
包含的信息量巨大
更重要的是目前人类对它了解甚少
天书中只有4个字符(碱基A、T、G、C)
既没有段落,也没有标点符号
是一个长度为3×109的一维序列。
• 科学家对这本天书了解最多的部分就是遗传密码
或者说掌握了DNA对蛋白质编码的规律
• 关于密码子
(1)密码子的使用是非随机的
• 如果密码子的第一、第二位碱基是A、U,
那么第三位将尽可能使用G、C;反之亦然。
• 如果三位都用G、C,则配对容易,分解难;
三位都用A、U,则相反。
• 一般地说,高表达的基因,要求翻译速度快,
要求密码子和反密码子配对快、分手也快。
(2)密码子的使用有一定的统计规律
• 对同义密码子的使用存在着偏爱
不同种属偏爱的密码子不同
人类基因组:
密码子第三位取A、U的情况占90%
而第三位取G、C仅占10%
密码子的使用偏性与基因功能、蛋白
质结构相关
(3)密码子中的密码
•
三个碱基的位置与所编码的氨基酸性质存在着联系
例如:
•
芳香族氨基酸——以U作为第一位碱基
•
中间位置碱基的性质与氨基酸是亲疏水性相关
疏水氨基酸的密码子,其第二位碱基是U
亲水氨基酸的密码子,其第二位碱基是A
第二位碱基是G、C的密码子所编码的氨基酸
亲水性、疏水性居中。
基因组信息
人类基因组:
• 编码区域只占1%-3%
•对于非编码序列,尚不清楚其含义或功能
•非编码区域对于生命活动具有重要的意义
包括内含子、简单重复序列、移动元件、伪基因
重复序列:
卫星(satellite)DNA
小卫星(mini-satellite)DNA
微卫星(micro-satellite)
顺式调控元件:
启动子、增强子、沉默子
2、探索遗传语言
• 用语言学的方法进行研究
自然语言
计算机程序设计语言
遗传语言
二进制序列0、1的长程关联性分析结果:
编码区域 ——自然语言
非编码区域 —— 程序设计语言
蛋白质编码区域所包含的信息相当于待加工的“数据”
数据经过加工处理以后产生对应的蛋白质;
而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方
面控制基因的表达和蛋白质的合成
• 用密码学方法进行研究
是否存在其它密码?
——调控信息密码?
——蛋白质结构的密码?
• 编码在DNA上的一维程序如何在四维时空
中控制生命体的生长发育
3、关于生物复杂性
生物的复杂性不仅仅是基因的数目
人类基因约为30000个
线虫有20000个基因
230000/220000=210000≌103000
4、基因组计划带来的希望
• 实验数据的积累速度在迅速地增加
• 计算机科学和技术也在不断地发展
单个基因组分析
基因序列
基因功能
基因的表达调控
基因产物
基因多态性
比较基因组分析
物种关系
物种进化
物种起源
人、鼠基因组比较
人基因组
老鼠约75%的基因
与人类相同。
鼠基因组
鼠染色体上的颜色和数字代表在人染色体上对应的片段.
SARS 基因组
(Severe Acute Respiratory Syndrome)
全基因组核酸搜索结果
分段核酸搜索结果
全基因组蛋白质搜索结果
原核基因组特点
原核生物的遗传物质大都是环状DNA,它
们基因组存在固有的特点,可以利用这些特
点分辨物种,识别基因。
长开放阅读框
开放阅读框(open reading frame) :结构基
因内从起始密码子开始到终止密码子的一段
核苷酸区域,其间不存在任何终止密码,可
编码完整的多肽链,这一区域被称为开放阅
读框。
ORF表明该区域可能对应于一个原核生物基
因的编码序列。
长开放阅读框
绝大部分原核生物蛋白质的长度大于60个氨
基酸
在大肠杆菌E.coli中,蛋白质编码区域平均长
度为316.8个密码子,不到1.8%的基因的长
度小于60个密码子
原核基因分析的简单原则
若终止密码子出现在非编码核酸序列中,大约每21
个密码子出现一次(3/64).
如果所有的密码子在随机的核酸序列中以相同的频
率出现,则不含终止密码子且长度为N个密码子的
序列出现的几率为(61/64)N .
长度为N的ORF的95%显著性置信度等价于5%“随
机”命中的可能性,即(61/64)N=0.05,这里N等
于60,表示典型长度的ORF中密码子的数目。
高基因密度
原核基因组中的基因密度非常高
完全测序的细菌和古细菌的基因组数据表明,
其中85%到88%的核酸序列与基因的编码直
接相关。
在大肠杆菌(E.coli)中总共有4,288个基因,平
均编码长度为950bp,而基因之间的平均间隔长
度只有118bp。
简单的基因结构
原核基因为连续基因,其编码区是一个完整
的DNA 片段。
GC含量
碱基G、C相对于A、T的丰度很早就被看作是区分
细菌基因组的特征之一 .
不同的原核生物中,GC含量(GC content)从
25%到75%,变化非常大。
大部分细菌是通过从其它生物体大规模获得基因
(长度为几万甚至几十万个核苷酸)而进化的(水平
转移).
简而言之,许多细菌基因组表现为具有不同GC含量
的区域的组合物,这些区域反映了细菌的进化历史。
真核基因组特点
基因组规模大
非编码序列大
基因结构复杂
基因转录调控方式复杂
可变剪接
CpG岛
等值区
密码子使用偏性
基因组规模
真核细胞的细胞核中一般有多条线性染色体,
而且通常包含每条染色体的双拷贝。
人的基因组总长度超过30亿对碱基,而大肠
杆菌的基因组只有500多万个碱基。
非编码序列巨大
真核生物具有复杂的基因组结构。
编码区域在人类基因组所占的比例不超过3%。
其余97%是非编码序列,而在非编码序列中,
各种重复序列占了很大一部分。
基因结构复杂
基因转录调控方式复杂
真核基因的表达涉及多种RNA聚合酶。
与原核生物只使用一种由多个蛋白聚合而成的RNA
聚合酶不同,真核生物至少使用由8到12个蛋白组
成的三种不同类型的RNA聚合酶。
RNA 聚合酶I和III负责转录生成RNA分子,这些分
子本身执行重要的功能,在所有的真核细胞中需要
始终保持相当恒定的水平。
RNA聚合酶II专门负责转录编码蛋白质的基因。
RNA聚合酶II识别的启动子序列的多样性反映了区
别基因的复杂程度,即在特定类型的细胞中和在特
定的时间,区别哪些基因该表达而哪些基因不该表
达。
可变剪接
估计有20%或更多的人类基因因为可变剪接
(alternative splicing)而产生两种或多种不
同的mRNA序列 .
有一个人类的基因已经被证明,相同的原始
转录物可以产生64种不同的mRNA
CpG岛
真核生物基因组的GC含量的差别没有在原核
生物间观察到的那么明显,但是CG两联核苷
酸(常称作CpG,以表明连接两个核苷酸的
磷酸二脂键)的出现频率仅为其随机出现的
频率的20%,而没有发现其它核苷酸对有异
常的出现频率。
CpG岛
许多人类基因5’-端的1~2kb片段中发现CpG岛
(CpG island),此处CpG的密度达到随机预测的
水平。
人类基因组全长序列的分析结果表明,大约有
45,000这样的岛,并且有一半左右与已知的管家基
因(housekeeping gene,指在所有组织和在发育的
所有阶段都高水平表达的基因)是有关联的,其余
的CpG岛有许多似乎是和组织特异性基因的启动子
相关联的。CpG岛很少出现在不含基因的区域和那
些发生多次突变的基因中。
等值区
定义:具有一致碱基组成的长区域
特征 :
等值区基因组序列的长度超过1,000,000对碱基
虽然不同的等值区其GC含量差别显著,但同一
等值区的GC含量始终相对均衡
人类基因组大约可以划分为五个不同类型的
等值区:a) L1和L2,平均GC含量分别为39%和42%(欠
GC))
b) H1、H2和H3,GC含量平均值分别为46%、
49%和54% (丰GC)
密码子使用偏性
每个氨基酸至少对应1种密码子,最多有6种
对应的密码子
不同物种、不同生物体的基因密码子使用存
在着很大的差异(酵母精氨酸偏好AGA,果蝇
偏好CGC)
从生物学基础来看,不同的密码子使用模式
的形成可能与基因的GC含量有关。
基因组序列分析
DNA序列分析
——基因序列
——基因表达调控信息
寻找基因牵涉到两个方面的工作 :
识别与基因相关的特殊序列信号
预测基因的编码区域
结合两个方面的结果确定基因的位置和结构
基因表达调控信息隐藏在基因的上游区域,在组成上具有
一定的特征,可以通过序列分析识别这些特征。
5.4.1 基因组序列分析步骤和分析结果评价
在DNA序列中,除了基因之外,还包含许多其它信息,这
些信息大部分与核酸的结构特征相关联,通常决定了DNA
与蛋白质或者DNA与RNA的相互作用。
存放这些信息的DNA片段称为功能位点
如启动子(Promoter)、基因终止序列(Terminator
sequence)、剪切位点(Splice site)等。
一个基本的DNA序列分析方案
发现重复元素
数据库搜索
分析功能位点
序列组成统计分析
综合分析
功能序列分析的准确性来自于对“功能序列”和
“非功能序列”的辨别能力。
两个集合:
训练集(training set)
用于建立完成识别任务的数学模型。
测试集或控制集(control set)
用于检验所建模型的正确性。
用训练集中实例对预测模型进行训练,使之通过
学习后具有正确处理和辨别能力。然后,用模型
对测试集中的实例进行“功能”与“非功能”的
判断,根据判断结果计算模识别的准确性。
收集已知的功能序列和非功能序列实例
(这些序列之间是非相关的 )
训练集
(training set)
测试集或控制集
(control set)
建立完成识别任务的模型
检验所建模型的正确性
对预测模型进行训练,
使之通过学习后具有
正确处理和辨别能力。
进行“功能”与“非功能”的
判断,根据判断结果计算
模识别的准确性。
识别“功能序列”和“非功能序列”的过程
Sn ——敏感性
Sp——特异性
Sn
Sp
Tp
T p Fn
Tn
Tn Fp
Tp是正确识别的功能序列数,
Tn为正确识别的非功能序列数,
Fn是被错误识别为非功能序列的功能序列数,
Fp是被错误识别为功能序列的非功能序列数。
敏感性和特异性的权衡
对于一个实用程序,既要求有较高的敏感性,也要
求有较高的特异性。
如果敏感性很高,但特异性比较低,则在实际应用
中会产生高比率的假阳性;
相反,如果特异性很高,而敏感性比较低,则会产
生高比率的假阴性。
对于敏感性和特异性需要进行权衡,给出综合评价
指标。
对于一个识别程序准确性可按下式进行综合评价:
AC
Sn S p
2
另一个综合评介指标为相关系数,其计算计算公式
为:
CC
Tp Tn Fn Fp
(Tp Fn ) (Tn Fp ) (Tp Fp ) (Tn Fn )
选择训练集和测试集
在检测算法的可行性时,需要从已知的数据中
按照不同的方式选择训练集和测试集
测试集的构成非常关键
在不同的测试集上进行测试可能会得到不同的
准确性结果,甚至准确性相差很大。
建立标准的功能序列测试集合。
如基因转录剪切位点的测试集合、编码区域的
测试集合等。
5.4.2 核苷酸关联分析
对于一个给定的基因组,最简单的计算就是
统计DNA序列中各类核苷酸出现的频率。
对于随机分布的DNA序列,每种核苷酸的出
现是均匀分布的
出现频率各为0.25。
而真实基因组的核苷酸分布则是非均匀的
核苷酸
频率
A
0.3248693727808
C
0.1751306272192
G
0.1751306272192
T
0.3248693727808
酵母基因组核苷酸出现频率
在统计过程中,如果同时计算DNA的正反
两条链,则根据碱基配对原则,A和T、C
和G的出现频率相同。
如果仅统计一条链,则虽然A和T、C和G的
出现频率不同,但是非常接近。
核苷酸
频率
A
0.344
C
0.155
G
0.157
T
0.343
M.jannaschii单链核苷酸出现频率
基因和其它功能区域
在正反两条链上出现的
可能性通常一样
正反两条链在信息的
组织结构方面不应该有差别
核苷酸出现频率也不应该
有偏差
正反两条链碱基互补的原则
单链上A和T、C和G的
出现频率相近。
单链上A和T、C和G的出现频率相近的解释
两联核苷酸频率
不同基因组中两个连续核苷酸出现
的频率也是不相同的
4种核苷酸可以组合成16种两联核
苷酸
对酵母基因组
两联核苷酸的
统计结果
其中核苷酸对
出现频率最高
的达到0.119
而出现频率最
低的只有
0.028
酵母基因组两联核苷酸频率表
关联性分析
令:
Pij —— 代表两联核苷酸(i,j)的出现频率
Pi —— 代表核苷酸i的出现频率
则:
Pij’= Pij/(PiPj)
的值反应核苷酸i和j的关联关系
如果Pij’=1,则在两个连续的位置上,核苷酸
i和j的出现是相对独立的。
关联性分析
对于酵母基因组
PA=0.3248
PAA=0.1193
PAA’
=0.1193/(0.3248*0.3248)
=1.131 > 1
表明在两个连续位置上“A”的出现不是独立
的,而是相关的。
同样,对于相隔一定距离k(k代表核苷酸个数)
的两个核苷酸,也可能具有一定的相关性。
假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位
置的频率,则可定义一个反应统计相关性的互信
息I(k)
I (k )
4
p
i , j 1
ij
(k ) log 2
pij (k )
pi p j
I(k)值得大小实际上反应了距离为k的两个核苷酸
之间的相关性的程度
三联核苷酸——基因密码子
在进行编码区域识别时,常常需要对三联
核苷酸进行统计分析,这实际上是分析密
码子的使用偏性。
由于密码子的简并性(degeneracy),每个氨
基酸至少对应1种密码子,最多有6种对应的密
码子。
在基因中,同义密码子的使用并不是完全一致
的。
不同物种、不同生物体的基因密码子使用存在
着很大的差异
基因密码子的使用与基因编码的蛋白的结构和功
能有关,与基因表达的生理功能有着密切的联系
蛋白的三级结构与密码子使用概率有密切的关系
通过对密码子的聚类分析,可以很清晰地将具有不同
三级结构蛋白质的编码基因分成不同的类,而具有相
似三级结构蛋白的编码基因则大致聚在同一类中,从
而证明基因密码子的使用偏性与蛋白质三级结构具有
密切的相关性。
在不同物种中,类型相同的基因具有相近的同义
密码子使用偏性
对于同一类型的基因由物种引起的同义密码子使用偏
性的差异较小
针对酵母第一染色体的分析结果
第二部分
基因识别
基因识别
基因识别是生物信息学领域里的一个重
要研究内容
基因识别问题,在近几年受到广泛的重
视
当人类基因组研究进入一个系统测序阶段
时,急需可靠自动的基因组序列翻译解释
技术,以处理大量已测定的但未知功能或
未经注释的DNA序列
原核基因识别
重点在于识别编码区域
非翻译区域(untranslated regions, UTR)
编码区域两端的DNA,有一部分被转录,
但是不被翻译,这一部分称为非翻译区域
5’UTR---基因上游区域的非翻译区域
3’UTR---基因下游区域的非翻译区域
对于任何给定的核酸序列(单链DNA或
mRNA),根据密码子的起始位置,可
以按照三种方式进行解释。
例如,序列ATTCGATCGCAA
(1) ATTCGA TCGCAA
(2) ATTCGAT CGCAA
(3) ATTCGATCGCAA
这三种阅读顺序称为阅读框(reading
frames)
一个开放阅读框(ORF,open reading
frame)是一个没有终止编码的密码子序
列。
原核基因识别任务的重点是识别开放阅读
框,或者说识别长的编码区域。
基于基因密码子特性的识别方法
辨别编码区域与非编码区域的一种方法
是检查终止密码子的出现频率
终止密码子出现的期望次数为:
每21个( 64/3)密码子出现一次终止密
码子
基本思想:
如果能够找到一个比较长的序列,其相应
的密码子序列不含终止密码子,则这段序
列可能就是编码区域。
基本算法:
扫描给定的DNA序列,在三个不同的阅读
框中寻找较长的ORF。遇到终止密码子以
后,回头寻找起始密码子。
这种算法过于简单,不适合于处理短的
ORF或者交叠的ORF。
识别编码区域的另一种方法是分析各种
密码子出现的频率
例如,亮氨酸、丙氨酸、色氨酸分别有
6个、4个和1个密码子
将一个随机均匀分布的DNA序列翻译成氨基酸
序列,则在氨基酸序列中上述3种氨基酸出现的
比例应该为6:4:1
但是在真实的氨基酸序列中,上述比例并不
正确
这说明DNA的编码区域并非随机序列
假设在一条DNA序列中已经找到所有的
ORF,那么可以利用密码子频率进一步
区分编码ORF和非编码ORF
马尔柯夫链模型
利用这种方法,可以计算一个ORF成为
编码区域的可能性。
一个简单的统计模型
假设相继的密码子是独立的,不存在前后依
赖关系。
令fabc代表密码子abc在编码区域出现的频率
给定序列
a1,b1,c1, a2,b2,c2,…, an+1,bn+1
从密码子a1b1c1开始的阅读框,其n个密码子
的出现概率为
p1 f a1b1c1 f a1b2c2 ... f anbncn
第二种和第三种阅读框n个密码子出现的概
率分别为
p2 f b1c1a2 f b2c2 a3 ... f bn cn an1
p3 f c1a2b2 f c2 a3b3 ... f cn an1bn1
第i个阅读框成为编码阅读框的概率
计算:
pi
Pi
p1 p2 p3
算法:
在序列上移动长度为n的窗口,计算Pi
根据Pi的值识别编码的阅读框
基于编码区域碱基组成特征的识别方法
编码序列与非编码序列在碱基组成上
有区别
单个碱基的组成比例
多个碱基的组成
通过统计分析识别编码序列
分析实例
2、真核基因识别问题
真核基因远比原核基因复杂:
一方面,真核基因的编码区域是非连续
的,编码区域被分割为若干个小片段。
另一方面,真核基因具有更加丰富的基
因调控信息,这些信息主要分布在基因
上游区域。
基因识别基本思路
•找出基因两端的功能区域:
转录启动区
终止区
• 在启动区下游位置寻找翻译起始密码子
• 识别转录剪切位点
剪切给体位点
剪切接受体位点
各种不同的方法有不同的适应面,而不
同的方法有时可以结合起来以提高基因
识别的准确率。
关键问题是如何提高一个识别算法的敏
感性(sensitivity,Sn)和特异性
(specificity,Sp)。
3、基因识别的主要方法
两大类识别方法:
从头算方法(或基于统计的方法)
根据蛋白质编码基因的一般性质和特征进行识别,
通过统计值区分外显子、内含子及基因间区域
基于同源序列比较的方法
利用数据库中现有与基因有关的信息(如EST序
列、蛋白质序列),通过同源比较,帮助发现新
基因。
最理想的方法是综合两大类方法的优点,
开发混合算法。
4、编码区域识别
两类方法 :
基于特征信号的识别
内部外显子
剪切位点
5’端的外显子一定在核心启动子的下游
3’端的外显子的下游包含多聚A信号和终
止编码
基于统计度量的方法
根据密码子使用倾向
双联密码统计度量等
密码子使用倾向
在一个基因中,第i个(i=1,64)密码子相对使用
倾向RSCUi的定义如下:
Obsi
RSCU i
Expi
(5-65)
Obsi是该基因中第i个密码子实际出现的次数
Expi是对应密码子期望的出现次数
aa
Exp
syn
i
i
(5-66)
i
aai是统计的第i个密码子出现的次数
syni是所有与第i个密码子同义密码子出现的次数
RSCU大于1表示相应密码子出现的次数比期望次数
高,而小于1则表示出现次数相对较少。
双联密码统计度量
设一段DNA序列为S,从S的第i位到第j位的双联密
码统计度量IF6(i,j)定义为:
ln( f i k / Fi k )
k 0,3, 6,..., j 6
IF6 (i, j ) max ln( f i k / Fi k ) (5-67)
k 1, 4, 7 ,..., j 5
ln( f i k / Fi k )
k 2,5,8,..., j 4
fk是从第k位开始的双联密码的频率
Fk是该双联密码随机出现的频率
通过相似搜索发现编码区域或者外显子
EST(Expressed Sequence Tags)
cDNA
蛋白质序列
目前大多数预测程序都将数据库相似性
搜索的信息结合进基因预测过程
同时考虑序列特征信号和统计度量
GRAIL
用人工神经网络识别编码区域
人工神经网络的概念
4、别名
人工神经系统(ANS)
神经网络(NN)
自适应系统(Adaptive Systems)、自适应网
(Adaptive Networks)
联接模型(Connectionism)
神经计算机(Neurocomputer)
ANN 具有学习(Learning)能力
人工神经网络可以根据所在的环境去改变它
的行为
自相联的网络
异相联的网络:它在接受样本集合A时,可
以抽取集合A中输入数据与输出数据之间的
映射关系。——“抽象”功能。
不同的人工神经网络模型,有不同的学习/训
练算法
基本特征的自动提取
由于其运算的不精确性,表现成“去噪音、
容残缺”的能力,利用这种不精确性,比较
自然地实现模式的自动分类。
普化(Generalization)能力与抽象能力
适应性(Applicability)问题
擅长两个方面:
对大量的数据进行分类,并且只有较少的几种情
况;
必须学习一个复杂的非线性映射。
目前应用:
人们主要将其用于语音、视觉、知识处理、辅助
决策等方面。
在数据压缩、模式匹配、系统建模、模糊控制、
求组合优化问题的最佳解的近似解(不是最佳近
似解)等方面也有较好的应用。
1、构成
生物神经网
树突(Dendrite)
轴突(Axon)
胞体(Soma)
胞体(Soma)
突触(Synapse)
生物神经网
3、六个基本特征:
1)神经元及其联接;
2)神经元之间的联接强度决定信号传递的强弱;
3)神经元之间的联接强度是可以随训练改变的;
4)信号可以是起刺激作用的,也可以是起抑制作
用的;
5)一个神经元接受的信号的累积效果决定该神经
元的状态;
6) 每个神经元可以有一个“阈值”。
人工神经元
神 经 元是 构 成神 经 网络 的 最基 本 单元 (构
件)。
人工神经元模型应该具有生物神经元的六个
基本特性。
人工神经元的基本构成
x w
1
1
x2 w2
∑
…
xn wn
net=XW
人工神经元模拟生物神经元的一阶特性。
输入:X=(x1,x2,…,xn)
联接权:W=(w1,w2,…,wn)T
网络输入: net=∑xiwi
向量形式: net=XW
激活函数(Activation Function)
激活函数——执行对该神经元所获得的网络
输入的变换,也可以称为激励函数、活化函
数: o=f(net)
1、线性函数(Liner Function)
f(net)=k*net+c
o
c
o
net
4、S形函数
f(net)=a+b/(1+exp(-d*net))
a,b,d为常数。它的饱和值为a和a+b。
最简单形式为:
f(net)= 1/(1+exp(-d*net))
函数的饱和值为0和1。
S形函数有较好的增益控制
4、S形函数
o
a+b
c=a+b/2
(0,c)
a
net
简单单级网
x1
o1
w11
w1m
x2
o2
w2m
…
xn
… wn1
…
om
wnm
输入层
输出层
简单单级网
W=(wij)
输出层的第j个神经元的网络输入记为netj :
netj=x1w1j+x2w2j+…+xnwnj
其中, 1≤ j ≤ m。取
NET=(net1,net2,…,netm)
NET=XW
O=F(NET)
Neural network mathematics
Inputs
Output
y11 2
1 y1 f ( y1 , w12 )
y32
2
2
3
y 12 f ( x 2 , w12 ) y1 y 2 2
2
1
2
y
f
(
y
,
w
y
y
y 2 f ( y , w2 )
Out
1)
3
1
2
y31 f ( x3 , w31 )
y3 2
1
2
y3
1 y3 f ( y , w3 )
y4
y 14 f ( x 4 , w14 )
y11 f ( x1 , w11 )
学习规则
有导师学习在学习训练过程中需要不断给网
络成对提供一个输入模式和一个期望网络正
确输出的模式,称为“教师信号”。当网络
的输出与期望的教师信号不符时,则调整权
值,能产生所期望的输出。
BP神经网络是指基于误差反向传播
算法的多层前馈神经网络
反向传播算法的基本思路:学习过程由信号的正
向传播和反向传播两个过程组成。正向传播时,输
入样本由输入层进入,经隐层处理后传向输出层。
若实际输出与教师信号不符,则转入误差的反向传
播阶段。输出误差将通过隐层向输入层逐层反传,
并把误差分摊而得到各层单元的误差信号,作为修
正各单元权值的依据。权值的调整过程即BP网络的
学习过程,直到网络输出精度满足要求为止。
权值的更改
梯度下降法的基本思想
首先设置权W的一组初值,然后,连接计算
均方误差相对于权的梯度,并按上式一小步
小步地修正权值,当满足一定的准则时(比
如MSE进入到下限的某一范围时)即停止。
这时称为算法收敛。对于梯度下降算法来说,
最大的问题是不能保证收敛到全局最优。
梯度下降法的缺点
输入是一系列反映功能位点信号特征和序列编码统计特征的参数
输出就是对一段DNA序列是否是编码区域的判别结果
神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关
性
生物信息中,神经网络主要应用于:
①序列编码分析;
②蛋白质二级结构预测;
③单肽及其切割位点预测;
④遗传密码的结构和起源分析;
⑤真核生物基因寻找和内含子剪接位点预测。
第三部分
调控元件识别
序列模式
1. 功能结构域,functional domain
2. 模块,BLOCK
3. 模体,motif
4. 模式,pattern/profile
功能结构域
1. 具有完整的、独立的三级结构
2. 具有特定的生物学功能
3. 一般长度,几十到几百个氨基酸
4. 允许插入/缺失,即允许存在gap
模块/BLOCK
1. 几个到几十个氨基酸
2. 无gap,从全局多序列比对的结果直接处理得到
3. 描述蛋白质家族或者一类蛋白质的序列保守性
BLOCK
模体/Motif
1. 不具有独立的三级结构
2. 具有特定的生物学功能:结合,修饰,细胞亚定位,
维持结构,等
3. 长度一般几个到几十个氨基酸或者碱基;
4. 例如,SUMO化的序列模体:Ψ-K-X-E (Ψ:A, I, L, V,
M, F, P; X:任意氨基酸)
模式/Pattern/Profile
1. 在算法上用来描述一类功能结构域,模体
或者模块的表示方式
2. 根据序列数据,构建的预测模型
3. 数据形式:概率表示
4. 用来预测新的可能符合特定模式的序列
5. 例如,直接将Ψ-K-X-E视为SUMO化位点的,
普适的“模式”,则可以预测所有包含该模
式的蛋白质序列
2. 位点特异性打分矩阵
(1) Position Specific Scoring Matrix
(PSSM)/ Weight Matrix Model(WMM)
(2) 对蛋白质家族进行多序列比对分析,发
现结果中保守的BLOCK
(3) 根据BLOCK序列推导相应的PSSM
(4) 不考虑gap的影响
(5) BLOCK长度一般在几个~几十个残基/碱
基
锌指功能结构域的PSSM
BLOCK -> PSSM
二十种
氨基酸
代表每一列
矩阵中的数值:当前位置上,某
种氨基酸出现的频率的log值
第二种PSSM
每一个位置上显示每种氨基酸或者碱基出现的
频率
四种碱基
碱基的位置
第三种PSSM
每一个位置显示氨基酸/碱基出现的概率
PSSM:思考与应用
1. 可以根据BLOCK推导得到的PSSM进行数据库的
搜索,发现包含该模式的新的蛋白质,并预测功能
2. 需要思考的问题:
(1) PSSM必须能够很好的反映BLOCK, Motif以及Domain
的真实情况。然而,数据有限;如何解决?
(2) 根据PSSM如何计算新的序列?
(3) PSSM中究竟包含着何等信息?
问题一Pseudocounts
1. 如果训练数据中包含很多序列,并且每个位置上
的氨基酸出现频率合理,则根据该训练数据得到的
PSSM能够很好的反映训练数据的真实情况。否则,
得到的PSSM可能会有明显的偏差
2. 解决方案,引入伪计数(pseudocounts)
A. pseudocounts太多,PSSM偏离真实情况太远
B. pseudocounts太少,许多可能的氨基酸变化就忽略了
3. 数据量大时,伪计数可以少一些,反之则要增大
为计数的比例
4. 一般的经验,伪计数≤
N
Pseudocounts (2)
针对特定的氨基酸,如何确定是否需要引入
伪计数?
1. 方法一:令f(i)为氨基酸i在蛋白质数据库
(例如:UniProt)中的分布比例
2. 方法二:使用打分矩阵来衡量序列的相似
性(GPS的思想)
3. 方法三:对其他的BLOCK分析,来估算当
前BLOCK可能的氨基酸的分布
4. 方法四:blind guess…
问题二:PSSM->发
现
1. 计算log-odds ratio/Odds ratio
2. Do not miss: 性能检验!!!
3. 结果需要计算Sn, Sp, Ac & Mcc
4. 需要计算Self-consistency, Leave-one-out validation & nfold cross-validation
计算log-odds ratio
P(S|+),根据阳性训练数据计算出来的概率;
Then, P(S|-)?
1. 负样本/阴性数据的概率计算
2. 计算方法:
A. DNA序列,四种碱基出现的频率
B. 蛋白质序列,20种氨基酸出现的频率
Odds Ratio
Log-odds Ratio
计算流程:滑动窗口
设定域值;窗口宽度9bp;依次打分,预测
例:剪切模型
(Splicing)
计算log-odds ratio
问题三:PSSM->信息?
1. PSSM/motif/domain/BLOCK:每一个位
置上究竟包含了什么样的信息?
2. 对于同一个motif/PSSM:有些位点较其他
位点提供更多的信息,why?
3. 如何定量化“信息”?
信息论:Claude
Shannon
信息论的奠基人
1,048,576个盒子:
Yes/No?
1. 随机将10000RMB的支票放入1,048,576
个盒子之一
2. Play 20 questions: yes/no
8个盒子
1. 最少多少个yes/no的问题能够定位支票?
2. Answer: log28 = 3
1,048,576个盒子:
Yes/No?
1. 随机将10000RMB的支票放入1,048,576个
盒子之一
2.Play 20 questions: yes/no
220 = 1,048,576
2b =
信息论
M; b为bit (binary digit) 信息
1.
2. M:所有概率的总量;因此:
3. b = log2(M); => b = -log2(1/M) => b = log2(P); 所有概率相同,则P=1/M
4. 例:对于某一个motif的一个位置上,可能
存在20种氨基酸,且概率相等,则P=1/20 =>
5. b = -log2(1/20) = 4.32 bits
信息论 (2)
1. 若概率不等同,
如何处理?
2. 定义 ui= -log2(Pi)
信息的平均值 =
N: 全部序列的数目
普适的信息平均值 =
Ni: 在该位置上为氨
基酸i的序列的数目
信息论 (3)
=>
1. 上式中,Ni/N=Pi;因此, 上式可转化为:
2. 因此,香农的熵公式为:
信息论:意义?
1. 香农的信息熵公式:
H为每个位置上的“香农熵”
2. 香农熵:不确定性!
3. 在每一个位置上,各种氨基酸出现的不确
定性
信息论 (4)
P(D)=1, 因此,H= -1*log2(1) = -1 * 0 =0
No uncertainty
P(V) = P(I) = P(L) = P(M) = P(A) = 1/5;
H= -(1/5)*log2(1/5)- -(1/5)*log2(1/5)- (1/5)*log2(1/5)- -(1/5)*log2(1/5)- (1/5)*log2(1/5)=2.32 bit
Great uncertainty
Uncertainty -> Information
1. 盒子模型;
2. 假设:只能回答两个问题;
则
A. 回答问题之前,不确定性
为3 bits
B. 回答问题之后,不确定性
为1 bit
3. 获得信息R:
R= Hbefore – Hafter = 3-1 = 2
bits
Uncertainty -> Information (2)
假设,所有氨基酸出现的
频率是相等的;则
Hbefore = 4.32;
Hafter = 0;
Motif在该位置的信息量为:
4.32 bits
Hbefore = 4.32;
Hafter = 2.32;
Motif在该位置的信息量为:
2 bits
3. 模体发现:Gibbs
Sampler
1. Gibbs Sampler是一种Monte-Carlo类的方法,对
于输入序列,找到一个最大的似然函数
2. 对于序列s,且在位置A有一个motif的似然函数,
定义如下:
Gibbs Sampling 算法
(1)
1. 从每条序列上随机的抽取一段序列,序列
长度固定
motif
所有
序列
Gibbs Sampling 算法
(2)
2. 构建PSSM/权重矩阵
Gibbs Sampling 算法
(3)
3. 随机挑选一条序列
Gibbs Sampling 算法
(4)
4. 用构建好的PSSM对该序列上所有可能的
motif进行打分 (窗口滑动,每次1个氨基酸
或者碱基)
Gibbs Sampling 算法
(5)
5. 根据似然性的计算,得到似然值最大的模
体,即新的motif
Gibbs Sampling 算法 (6)
6. 更新PSSM矩阵
Gibbs Sampling 算
法 (7)
7. 反复迭代计算,直到似然性结果与PSSM
不再发生变化
Strong Motif
ACGTAGCA
Gibbs Sampler: 总结
1. 模体发现的一种随机算法(Monte Carlo)
2. 寻找次优解的算法
3. 根据PSSM/WMM对随机抽取的序列进行打分来
调整采样,直到结果收敛
4. 不能够保证每次运算的结果一致:需要多运算几
次,并进行比较
5. 对蛋白质、DNA、RNA序列模体的发现有帮助