密码子使用偏性 - 生物信息学研究所

Download Report

Transcript 密码子使用偏性 - 生物信息学研究所

第5章
基因组信息分析
5.1 关于遗传语言
5.2 原核基因组特点
5.3 真核基因组特点
5.4 基因组序列分析
5.5 基因识别方法
5.6 非编码区与分析和调控
元件建模
第一部分:
搜索遗传语言;
原核、真核基因组特
点
1、基因组DNA的奥秘
• 遗传信息存贮在4种字符组成的核酸序列中
• “天书”——用遗传语言书写的人类遗传蓝本
包含的信息量巨大
更重要的是目前人类对它了解甚少
天书中只有4个字符(碱基A、T、G、C)
既没有段落,也没有标点符号
是一个长度为3×109的一维序列。
• 科学家对这本天书了解最多的部分就是遗传密码
或者说掌握了DNA对蛋白质编码的规律
• 关于密码子
(1)密码子的使用是非随机的
• 如果密码子的第一、第二位碱基是A、U,
那么第三位将尽可能使用G、C;反之亦然。
• 如果三位都用G、C,则配对容易,分解难;
三位都用A、U,则相反。
• 一般地说,高表达的基因,要求翻译速度快,
要求密码子和反密码子配对快、分手也快。
(2)密码子的使用有一定的统计规律
• 对同义密码子的使用存在着偏爱
不同种属偏爱的密码子不同
人类基因组:
密码子第三位取A、U的情况占90%
而第三位取G、C仅占10%
密码子的使用偏性与基因功能、蛋白
质结构相关
(3)密码子中的密码
•
三个碱基的位置与所编码的氨基酸性质存在着联系
例如:
•
芳香族氨基酸——以U作为第一位碱基
•
中间位置碱基的性质与氨基酸是亲疏水性相关
疏水氨基酸的密码子,其第二位碱基是U
亲水氨基酸的密码子,其第二位碱基是A
第二位碱基是G、C的密码子所编码的氨基酸
亲水性、疏水性居中。
基因组信息
人类基因组:
• 编码区域只占1%-3%
•对于非编码序列,尚不清楚其含义或功能
•非编码区域对于生命活动具有重要的意义
包括内含子、简单重复序列、移动元件、伪基因
重复序列:
卫星(satellite)DNA
小卫星(mini-satellite)DNA
微卫星(micro-satellite)
顺式调控元件:
启动子、增强子、沉默子
2、探索遗传语言
• 用语言学的方法进行研究
自然语言
计算机程序设计语言
遗传语言
二进制序列0、1的长程关联性分析结果:
编码区域 ——自然语言
非编码区域 —— 程序设计语言
蛋白质编码区域所包含的信息相当于待加工的“数据”
数据经过加工处理以后产生对应的蛋白质;
而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方
面控制基因的表达和蛋白质的合成
• 用密码学方法进行研究
是否存在其它密码?
——调控信息密码?
——蛋白质结构的密码?
• 编码在DNA上的一维程序如何在四维时空
中控制生命体的生长发育
3、关于生物复杂性
生物的复杂性不仅仅是基因的数目
人类基因约为30000个
线虫有20000个基因
230000/220000=210000≌103000
4、基因组计划带来的希望
• 实验数据的积累速度在迅速地增加
• 计算机科学和技术也在不断地发展
单个基因组分析
基因序列
基因功能
基因的表达调控
基因产物
基因多态性
比较基因组分析
物种关系
物种进化
物种起源
人、鼠基因组比较
人基因组
老鼠约75%的基因
与人类相同。
鼠基因组
鼠染色体上的颜色和数字代表在人染色体上对应的片段.
SARS 基因组
(Severe Acute Respiratory Syndrome)
全基因组核酸搜索结果
分段核酸搜索结果
全基因组蛋白质搜索结果
原核基因组特点

原核生物的遗传物质大都是环状DNA,它
们基因组存在固有的特点,可以利用这些特
点分辨物种,识别基因。
长开放阅读框
开放阅读框(open reading frame) :结构基
因内从起始密码子开始到终止密码子的一段
核苷酸区域,其间不存在任何终止密码,可
编码完整的多肽链,这一区域被称为开放阅
读框。
 ORF表明该区域可能对应于一个原核生物基
因的编码序列。

长开放阅读框
绝大部分原核生物蛋白质的长度大于60个氨
基酸
 在大肠杆菌E.coli中,蛋白质编码区域平均长
度为316.8个密码子,不到1.8%的基因的长
度小于60个密码子

原核基因分析的简单原则



若终止密码子出现在非编码核酸序列中,大约每21
个密码子出现一次(3/64).
如果所有的密码子在随机的核酸序列中以相同的频
率出现,则不含终止密码子且长度为N个密码子的
序列出现的几率为(61/64)N .
长度为N的ORF的95%显著性置信度等价于5%“随
机”命中的可能性,即(61/64)N=0.05,这里N等
于60,表示典型长度的ORF中密码子的数目。
高基因密度
原核基因组中的基因密度非常高
 完全测序的细菌和古细菌的基因组数据表明,
其中85%到88%的核酸序列与基因的编码直
接相关。

在大肠杆菌(E.coli)中总共有4,288个基因,平
均编码长度为950bp,而基因之间的平均间隔长
度只有118bp。
简单的基因结构
原核基因为连续基因,其编码区是一个完整
的DNA 片段。
GC含量




碱基G、C相对于A、T的丰度很早就被看作是区分
细菌基因组的特征之一 .
不同的原核生物中,GC含量(GC content)从
25%到75%,变化非常大。
大部分细菌是通过从其它生物体大规模获得基因
(长度为几万甚至几十万个核苷酸)而进化的(水平
转移).
简而言之,许多细菌基因组表现为具有不同GC含量
的区域的组合物,这些区域反映了细菌的进化历史。
真核基因组特点
基因组规模大
 非编码序列大
 基因结构复杂
 基因转录调控方式复杂
 可变剪接
 CpG岛
 等值区
 密码子使用偏性

基因组规模
真核细胞的细胞核中一般有多条线性染色体,
而且通常包含每条染色体的双拷贝。
 人的基因组总长度超过30亿对碱基,而大肠
杆菌的基因组只有500多万个碱基。

非编码序列巨大
真核生物具有复杂的基因组结构。
 编码区域在人类基因组所占的比例不超过3%。
 其余97%是非编码序列,而在非编码序列中,
各种重复序列占了很大一部分。

基因结构复杂
基因转录调控方式复杂





真核基因的表达涉及多种RNA聚合酶。
与原核生物只使用一种由多个蛋白聚合而成的RNA
聚合酶不同,真核生物至少使用由8到12个蛋白组
成的三种不同类型的RNA聚合酶。
RNA 聚合酶I和III负责转录生成RNA分子,这些分
子本身执行重要的功能,在所有的真核细胞中需要
始终保持相当恒定的水平。
RNA聚合酶II专门负责转录编码蛋白质的基因。
RNA聚合酶II识别的启动子序列的多样性反映了区
别基因的复杂程度,即在特定类型的细胞中和在特
定的时间,区别哪些基因该表达而哪些基因不该表
达。
可变剪接
估计有20%或更多的人类基因因为可变剪接
(alternative splicing)而产生两种或多种不
同的mRNA序列 .
 有一个人类的基因已经被证明,相同的原始
转录物可以产生64种不同的mRNA

CpG岛

真核生物基因组的GC含量的差别没有在原核
生物间观察到的那么明显,但是CG两联核苷
酸(常称作CpG,以表明连接两个核苷酸的
磷酸二脂键)的出现频率仅为其随机出现的
频率的20%,而没有发现其它核苷酸对有异
常的出现频率。
CpG岛


许多人类基因5’-端的1~2kb片段中发现CpG岛
(CpG island),此处CpG的密度达到随机预测的
水平。
人类基因组全长序列的分析结果表明,大约有
45,000这样的岛,并且有一半左右与已知的管家基
因(housekeeping gene,指在所有组织和在发育的
所有阶段都高水平表达的基因)是有关联的,其余
的CpG岛有许多似乎是和组织特异性基因的启动子
相关联的。CpG岛很少出现在不含基因的区域和那
些发生多次突变的基因中。
等值区
定义:具有一致碱基组成的长区域
 特征 :

等值区基因组序列的长度超过1,000,000对碱基
虽然不同的等值区其GC含量差别显著,但同一
等值区的GC含量始终相对均衡

人类基因组大约可以划分为五个不同类型的
等值区:a) L1和L2,平均GC含量分别为39%和42%(欠
GC))
b) H1、H2和H3,GC含量平均值分别为46%、
49%和54% (丰GC)
密码子使用偏性
每个氨基酸至少对应1种密码子,最多有6种
对应的密码子
 不同物种、不同生物体的基因密码子使用存
在着很大的差异(酵母精氨酸偏好AGA,果蝇
偏好CGC)
 从生物学基础来看,不同的密码子使用模式
的形成可能与基因的GC含量有关。

基因组序列分析
DNA序列分析
——基因序列
——基因表达调控信息
寻找基因牵涉到两个方面的工作 :
 识别与基因相关的特殊序列信号
 预测基因的编码区域
 结合两个方面的结果确定基因的位置和结构
基因表达调控信息隐藏在基因的上游区域,在组成上具有
一定的特征,可以通过序列分析识别这些特征。
5.4.1 基因组序列分析步骤和分析结果评价

在DNA序列中,除了基因之外,还包含许多其它信息,这
些信息大部分与核酸的结构特征相关联,通常决定了DNA
与蛋白质或者DNA与RNA的相互作用。

存放这些信息的DNA片段称为功能位点
 如启动子(Promoter)、基因终止序列(Terminator
sequence)、剪切位点(Splice site)等。
一个基本的DNA序列分析方案
发现重复元素
数据库搜索
分析功能位点
序列组成统计分析
综合分析

功能序列分析的准确性来自于对“功能序列”和
“非功能序列”的辨别能力。

两个集合:
训练集(training set)
 用于建立完成识别任务的数学模型。
测试集或控制集(control set)
 用于检验所建模型的正确性。

用训练集中实例对预测模型进行训练,使之通过
学习后具有正确处理和辨别能力。然后,用模型
对测试集中的实例进行“功能”与“非功能”的
判断,根据判断结果计算模识别的准确性。
收集已知的功能序列和非功能序列实例
(这些序列之间是非相关的 )
训练集
(training set)
测试集或控制集
(control set)
建立完成识别任务的模型
检验所建模型的正确性
对预测模型进行训练,
使之通过学习后具有
正确处理和辨别能力。
进行“功能”与“非功能”的
判断,根据判断结果计算
模识别的准确性。
识别“功能序列”和“非功能序列”的过程

Sn ——敏感性

Sp——特异性
Sn 
Sp




Tp
T p  Fn
Tn

Tn  Fp
Tp是正确识别的功能序列数,
Tn为正确识别的非功能序列数,
Fn是被错误识别为非功能序列的功能序列数,
Fp是被错误识别为功能序列的非功能序列数。
敏感性和特异性的权衡




对于一个实用程序,既要求有较高的敏感性,也要
求有较高的特异性。
如果敏感性很高,但特异性比较低,则在实际应用
中会产生高比率的假阳性;
相反,如果特异性很高,而敏感性比较低,则会产
生高比率的假阴性。
对于敏感性和特异性需要进行权衡,给出综合评价
指标。

对于一个识别程序准确性可按下式进行综合评价:
AC 

Sn  S p
2
另一个综合评介指标为相关系数,其计算计算公式
为:
CC 
Tp  Tn  Fn  Fp
(Tp  Fn )  (Tn  Fp )  (Tp  Fp )  (Tn  Fn )

选择训练集和测试集
在检测算法的可行性时,需要从已知的数据中
按照不同的方式选择训练集和测试集

测试集的构成非常关键
在不同的测试集上进行测试可能会得到不同的
准确性结果,甚至准确性相差很大。

建立标准的功能序列测试集合。
如基因转录剪切位点的测试集合、编码区域的
测试集合等。
5.4.2 核苷酸关联分析
对于一个给定的基因组,最简单的计算就是
统计DNA序列中各类核苷酸出现的频率。
 对于随机分布的DNA序列,每种核苷酸的出
现是均匀分布的

出现频率各为0.25。

而真实基因组的核苷酸分布则是非均匀的
核苷酸
频率
A
0.3248693727808
C
0.1751306272192
G
0.1751306272192
T
0.3248693727808
酵母基因组核苷酸出现频率

在统计过程中,如果同时计算DNA的正反
两条链,则根据碱基配对原则,A和T、C
和G的出现频率相同。

如果仅统计一条链,则虽然A和T、C和G的
出现频率不同,但是非常接近。
核苷酸
频率
A
0.344
C
0.155
G
0.157
T
0.343
M.jannaschii单链核苷酸出现频率
基因和其它功能区域
在正反两条链上出现的
可能性通常一样
正反两条链在信息的
组织结构方面不应该有差别
核苷酸出现频率也不应该
有偏差
正反两条链碱基互补的原则
单链上A和T、C和G的
出现频率相近。
单链上A和T、C和G的出现频率相近的解释
两联核苷酸频率

不同基因组中两个连续核苷酸出现
的频率也是不相同的

4种核苷酸可以组合成16种两联核
苷酸
对酵母基因组
两联核苷酸的
统计结果
其中核苷酸对
出现频率最高
的达到0.119
而出现频率最
低的只有
0.028
酵母基因组两联核苷酸频率表
关联性分析
令:
Pij —— 代表两联核苷酸(i,j)的出现频率
Pi —— 代表核苷酸i的出现频率
则:
Pij’= Pij/(PiPj)
的值反应核苷酸i和j的关联关系
如果Pij’=1,则在两个连续的位置上,核苷酸
i和j的出现是相对独立的。
关联性分析

对于酵母基因组
PA=0.3248
PAA=0.1193
PAA’
=0.1193/(0.3248*0.3248)
=1.131 > 1
表明在两个连续位置上“A”的出现不是独立
的,而是相关的。

同样,对于相隔一定距离k(k代表核苷酸个数)
的两个核苷酸,也可能具有一定的相关性。

假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位
置的频率,则可定义一个反应统计相关性的互信
息I(k)
I (k ) 
4
p
i , j 1

ij
(k ) log 2
pij (k )
pi p j
I(k)值得大小实际上反应了距离为k的两个核苷酸
之间的相关性的程度
三联核苷酸——基因密码子

在进行编码区域识别时,常常需要对三联
核苷酸进行统计分析,这实际上是分析密
码子的使用偏性。
由于密码子的简并性(degeneracy),每个氨
基酸至少对应1种密码子,最多有6种对应的密
码子。
在基因中,同义密码子的使用并不是完全一致
的。
不同物种、不同生物体的基因密码子使用存在
着很大的差异


基因密码子的使用与基因编码的蛋白的结构和功
能有关,与基因表达的生理功能有着密切的联系
蛋白的三级结构与密码子使用概率有密切的关系
 通过对密码子的聚类分析,可以很清晰地将具有不同
三级结构蛋白质的编码基因分成不同的类,而具有相
似三级结构蛋白的编码基因则大致聚在同一类中,从
而证明基因密码子的使用偏性与蛋白质三级结构具有
密切的相关性。

在不同物种中,类型相同的基因具有相近的同义
密码子使用偏性
 对于同一类型的基因由物种引起的同义密码子使用偏
性的差异较小
针对酵母第一染色体的分析结果
第二部分

基因识别
基因识别
基因识别是生物信息学领域里的一个重
要研究内容
 基因识别问题,在近几年受到广泛的重
视

当人类基因组研究进入一个系统测序阶段
时,急需可靠自动的基因组序列翻译解释
技术,以处理大量已测定的但未知功能或
未经注释的DNA序列
 原核基因识别
重点在于识别编码区域

非翻译区域(untranslated regions, UTR)
编码区域两端的DNA,有一部分被转录,
但是不被翻译,这一部分称为非翻译区域

5’UTR---基因上游区域的非翻译区域
3’UTR---基因下游区域的非翻译区域

对于任何给定的核酸序列(单链DNA或
mRNA),根据密码子的起始位置,可
以按照三种方式进行解释。
 例如,序列ATTCGATCGCAA
(1) ATTCGA TCGCAA
(2) ATTCGAT CGCAA
(3) ATTCGATCGCAA


这三种阅读顺序称为阅读框(reading
frames)
一个开放阅读框(ORF,open reading
frame)是一个没有终止编码的密码子序
列。
原核基因识别任务的重点是识别开放阅读
框,或者说识别长的编码区域。
基于基因密码子特性的识别方法

辨别编码区域与非编码区域的一种方法
是检查终止密码子的出现频率
终止密码子出现的期望次数为:
每21个( 64/3)密码子出现一次终止密
码子
基本思想:
如果能够找到一个比较长的序列,其相应
的密码子序列不含终止密码子,则这段序
列可能就是编码区域。

基本算法:
扫描给定的DNA序列,在三个不同的阅读
框中寻找较长的ORF。遇到终止密码子以
后,回头寻找起始密码子。
这种算法过于简单,不适合于处理短的
ORF或者交叠的ORF。

识别编码区域的另一种方法是分析各种
密码子出现的频率
例如,亮氨酸、丙氨酸、色氨酸分别有
6个、4个和1个密码子
将一个随机均匀分布的DNA序列翻译成氨基酸
序列,则在氨基酸序列中上述3种氨基酸出现的
比例应该为6:4:1
但是在真实的氨基酸序列中,上述比例并不
正确
这说明DNA的编码区域并非随机序列

假设在一条DNA序列中已经找到所有的
ORF,那么可以利用密码子频率进一步
区分编码ORF和非编码ORF

马尔柯夫链模型

利用这种方法,可以计算一个ORF成为
编码区域的可能性。

一个简单的统计模型
假设相继的密码子是独立的,不存在前后依
赖关系。
令fabc代表密码子abc在编码区域出现的频率
给定序列
a1,b1,c1, a2,b2,c2,…, an+1,bn+1
从密码子a1b1c1开始的阅读框,其n个密码子
的出现概率为
p1  f a1b1c1  f a1b2c2  ...  f anbncn

第二种和第三种阅读框n个密码子出现的概
率分别为
p2  f b1c1a2  f b2c2 a3  ...  f bn cn an1
p3  f c1a2b2  f c2 a3b3  ...  f cn an1bn1

第i个阅读框成为编码阅读框的概率
计算:
pi
Pi 
p1  p2  p3

算法:
在序列上移动长度为n的窗口,计算Pi
根据Pi的值识别编码的阅读框
基于编码区域碱基组成特征的识别方法

编码序列与非编码序列在碱基组成上
有区别
单个碱基的组成比例
多个碱基的组成

通过统计分析识别编码序列
分析实例
2、真核基因识别问题
真核基因远比原核基因复杂:

一方面,真核基因的编码区域是非连续
的,编码区域被分割为若干个小片段。

另一方面,真核基因具有更加丰富的基
因调控信息,这些信息主要分布在基因
上游区域。
基因识别基本思路
•找出基因两端的功能区域:
转录启动区
终止区
• 在启动区下游位置寻找翻译起始密码子
• 识别转录剪切位点
剪切给体位点
剪切接受体位点

各种不同的方法有不同的适应面,而不
同的方法有时可以结合起来以提高基因
识别的准确率。

关键问题是如何提高一个识别算法的敏
感性(sensitivity,Sn)和特异性
(specificity,Sp)。
3、基因识别的主要方法
两大类识别方法:
 从头算方法(或基于统计的方法)
 根据蛋白质编码基因的一般性质和特征进行识别,
通过统计值区分外显子、内含子及基因间区域

基于同源序列比较的方法
 利用数据库中现有与基因有关的信息(如EST序
列、蛋白质序列),通过同源比较,帮助发现新
基因。

最理想的方法是综合两大类方法的优点,
开发混合算法。
4、编码区域识别
两类方法 :
 基于特征信号的识别
内部外显子
剪切位点
5’端的外显子一定在核心启动子的下游
3’端的外显子的下游包含多聚A信号和终
止编码

基于统计度量的方法
根据密码子使用倾向
双联密码统计度量等
密码子使用倾向

在一个基因中,第i个(i=1,64)密码子相对使用
倾向RSCUi的定义如下:
Obsi
RSCU i 
Expi

(5-65)
Obsi是该基因中第i个密码子实际出现的次数
Expi是对应密码子期望的出现次数
aa

Exp 
 syn
i
i
(5-66)
i
aai是统计的第i个密码子出现的次数
syni是所有与第i个密码子同义密码子出现的次数

RSCU大于1表示相应密码子出现的次数比期望次数
高,而小于1则表示出现次数相对较少。
双联密码统计度量

设一段DNA序列为S,从S的第i位到第j位的双联密
码统计度量IF6(i,j)定义为:

  ln( f i  k / Fi  k )
k 0,3, 6,..., j 6
IF6 (i, j )  max   ln( f i  k / Fi  k ) (5-67)
k 1, 4, 7 ,..., j 5
  ln( f i  k / Fi  k )
k  2,5,8,..., j  4
fk是从第k位开始的双联密码的频率
Fk是该双联密码随机出现的频率
通过相似搜索发现编码区域或者外显子
EST(Expressed Sequence Tags)
cDNA
蛋白质序列

目前大多数预测程序都将数据库相似性
搜索的信息结合进基因预测过程

同时考虑序列特征信号和统计度量
GRAIL
用人工神经网络识别编码区域
人工神经网络的概念
4、别名
 人工神经系统(ANS)
 神经网络(NN)
 自适应系统(Adaptive Systems)、自适应网
(Adaptive Networks)
 联接模型(Connectionism)
 神经计算机(Neurocomputer)

ANN 具有学习(Learning)能力
人工神经网络可以根据所在的环境去改变它
的行为
 自相联的网络
 异相联的网络:它在接受样本集合A时,可
以抽取集合A中输入数据与输出数据之间的
映射关系。——“抽象”功能。
 不同的人工神经网络模型,有不同的学习/训
练算法

基本特征的自动提取
由于其运算的不精确性,表现成“去噪音、
容残缺”的能力,利用这种不精确性,比较
自然地实现模式的自动分类。
 普化(Generalization)能力与抽象能力

适应性(Applicability)问题

擅长两个方面:
对大量的数据进行分类,并且只有较少的几种情
况;
必须学习一个复杂的非线性映射。

目前应用:
人们主要将其用于语音、视觉、知识处理、辅助
决策等方面。
在数据压缩、模式匹配、系统建模、模糊控制、
求组合优化问题的最佳解的近似解(不是最佳近
似解)等方面也有较好的应用。
1、构成
生物神经网
树突(Dendrite)
轴突(Axon)
胞体(Soma)
胞体(Soma)
突触(Synapse)
生物神经网

3、六个基本特征:
1)神经元及其联接;
2)神经元之间的联接强度决定信号传递的强弱;
3)神经元之间的联接强度是可以随训练改变的;
4)信号可以是起刺激作用的,也可以是起抑制作
用的;
5)一个神经元接受的信号的累积效果决定该神经
元的状态;
6) 每个神经元可以有一个“阈值”。
人工神经元
神 经 元是 构 成神 经 网络 的 最基 本 单元 (构
件)。
 人工神经元模型应该具有生物神经元的六个
基本特性。

人工神经元的基本构成
x w
1
1
x2 w2
∑
…
xn wn

net=XW
人工神经元模拟生物神经元的一阶特性。
输入:X=(x1,x2,…,xn)
联接权:W=(w1,w2,…,wn)T
网络输入: net=∑xiwi
向量形式: net=XW
激活函数(Activation Function)
激活函数——执行对该神经元所获得的网络
输入的变换,也可以称为激励函数、活化函
数: o=f(net)
 1、线性函数(Liner Function)

f(net)=k*net+c
o
c
o
net
4、S形函数
f(net)=a+b/(1+exp(-d*net))
a,b,d为常数。它的饱和值为a和a+b。
最简单形式为:
f(net)= 1/(1+exp(-d*net))
函数的饱和值为0和1。
 S形函数有较好的增益控制
4、S形函数
o
a+b
c=a+b/2
(0,c)
a
net
简单单级网
x1
o1
w11
w1m
x2
o2
w2m
…
xn
… wn1
…
om
wnm
输入层
输出层
简单单级网
W=(wij)
输出层的第j个神经元的网络输入记为netj :
 netj=x1w1j+x2w2j+…+xnwnj
其中, 1≤ j ≤ m。取
NET=(net1,net2,…,netm)
NET=XW
O=F(NET)
Neural network mathematics
Inputs
Output
 y11  2
 1  y1  f ( y1 , w12 )
 y32 
 2
2
3
y 12  f ( x 2 , w12 ) y1   y 2  2
2
1
2
y

f
(
y
,
w
y

y


y 2  f ( y , w2 )
Out
1)
3

1
 2 
y31  f ( x3 , w31 )
 y3  2
1
2
y3 
1  y3  f ( y , w3 )


 y4 
y 14  f ( x 4 , w14 )
y11  f ( x1 , w11 )
学习规则

有导师学习在学习训练过程中需要不断给网
络成对提供一个输入模式和一个期望网络正
确输出的模式,称为“教师信号”。当网络
的输出与期望的教师信号不符时,则调整权
值,能产生所期望的输出。
BP神经网络是指基于误差反向传播
算法的多层前馈神经网络

反向传播算法的基本思路:学习过程由信号的正
向传播和反向传播两个过程组成。正向传播时,输
入样本由输入层进入,经隐层处理后传向输出层。
若实际输出与教师信号不符,则转入误差的反向传
播阶段。输出误差将通过隐层向输入层逐层反传,
并把误差分摊而得到各层单元的误差信号,作为修
正各单元权值的依据。权值的调整过程即BP网络的
学习过程,直到网络输出精度满足要求为止。
权值的更改
梯度下降法的基本思想

首先设置权W的一组初值,然后,连接计算
均方误差相对于权的梯度,并按上式一小步
小步地修正权值,当满足一定的准则时(比
如MSE进入到下限的某一范围时)即停止。
这时称为算法收敛。对于梯度下降算法来说,
最大的问题是不能保证收敛到全局最优。
梯度下降法的缺点
输入是一系列反映功能位点信号特征和序列编码统计特征的参数
输出就是对一段DNA序列是否是编码区域的判别结果
神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关
性
生物信息中,神经网络主要应用于:
①序列编码分析;
②蛋白质二级结构预测;
③单肽及其切割位点预测;
④遗传密码的结构和起源分析;
⑤真核生物基因寻找和内含子剪接位点预测。
第三部分

调控元件识别
序列模式
1. 功能结构域,functional domain
 2. 模块,BLOCK
 3. 模体,motif
 4. 模式,pattern/profile

功能结构域
1. 具有完整的、独立的三级结构
 2. 具有特定的生物学功能
 3. 一般长度,几十到几百个氨基酸
 4. 允许插入/缺失,即允许存在gap

模块/BLOCK



1. 几个到几十个氨基酸
2. 无gap,从全局多序列比对的结果直接处理得到
3. 描述蛋白质家族或者一类蛋白质的序列保守性
BLOCK
模体/Motif
 1. 不具有独立的三级结构



2. 具有特定的生物学功能:结合,修饰,细胞亚定位,
维持结构,等
3. 长度一般几个到几十个氨基酸或者碱基;
4. 例如,SUMO化的序列模体:Ψ-K-X-E (Ψ:A, I, L, V,
M, F, P; X:任意氨基酸)
模式/Pattern/Profile
1. 在算法上用来描述一类功能结构域,模体
或者模块的表示方式
 2. 根据序列数据,构建的预测模型
 3. 数据形式:概率表示
 4. 用来预测新的可能符合特定模式的序列
 5. 例如,直接将Ψ-K-X-E视为SUMO化位点的,
普适的“模式”,则可以预测所有包含该模
式的蛋白质序列

2. 位点特异性打分矩阵
(1) Position Specific Scoring Matrix
(PSSM)/ Weight Matrix Model(WMM)
 (2) 对蛋白质家族进行多序列比对分析,发
现结果中保守的BLOCK
 (3) 根据BLOCK序列推导相应的PSSM
 (4) 不考虑gap的影响
 (5) BLOCK长度一般在几个~几十个残基/碱
基

锌指功能结构域的PSSM
BLOCK -> PSSM
二十种
氨基酸
代表每一列
矩阵中的数值:当前位置上,某
种氨基酸出现的频率的log值
第二种PSSM

每一个位置上显示每种氨基酸或者碱基出现的
频率
四种碱基
碱基的位置
第三种PSSM

每一个位置显示氨基酸/碱基出现的概率
PSSM:思考与应用
 1. 可以根据BLOCK推导得到的PSSM进行数据库的
搜索,发现包含该模式的新的蛋白质,并预测功能

2. 需要思考的问题:
 (1) PSSM必须能够很好的反映BLOCK, Motif以及Domain
的真实情况。然而,数据有限;如何解决?
 (2) 根据PSSM如何计算新的序列?
 (3) PSSM中究竟包含着何等信息?
问题一Pseudocounts


1. 如果训练数据中包含很多序列,并且每个位置上
的氨基酸出现频率合理,则根据该训练数据得到的
PSSM能够很好的反映训练数据的真实情况。否则,
得到的PSSM可能会有明显的偏差
2. 解决方案,引入伪计数(pseudocounts)
 A. pseudocounts太多,PSSM偏离真实情况太远
 B. pseudocounts太少,许多可能的氨基酸变化就忽略了


3. 数据量大时,伪计数可以少一些,反之则要增大
为计数的比例
4. 一般的经验,伪计数≤
N
Pseudocounts (2)
针对特定的氨基酸,如何确定是否需要引入
伪计数?
 1. 方法一:令f(i)为氨基酸i在蛋白质数据库
(例如:UniProt)中的分布比例
 2. 方法二:使用打分矩阵来衡量序列的相似
性(GPS的思想)
 3. 方法三:对其他的BLOCK分析,来估算当
前BLOCK可能的氨基酸的分布
 4. 方法四:blind guess…

问题二:PSSM->发
现

1. 计算log-odds ratio/Odds ratio

2. Do not miss: 性能检验!!!

3. 结果需要计算Sn, Sp, Ac & Mcc

4. 需要计算Self-consistency, Leave-one-out validation & nfold cross-validation
计算log-odds ratio

P(S|+),根据阳性训练数据计算出来的概率;
Then, P(S|-)?

1. 负样本/阴性数据的概率计算

2. 计算方法:
A. DNA序列,四种碱基出现的频率
B. 蛋白质序列,20种氨基酸出现的频率
Odds Ratio
Log-odds Ratio
计算流程:滑动窗口

设定域值;窗口宽度9bp;依次打分,预测
例:剪切模型
(Splicing)
计算log-odds ratio
问题三:PSSM->信息?
1. PSSM/motif/domain/BLOCK:每一个位
置上究竟包含了什么样的信息?
 2. 对于同一个motif/PSSM:有些位点较其他
位点提供更多的信息,why?
 3. 如何定量化“信息”?

信息论:Claude
Shannon

信息论的奠基人
1,048,576个盒子:
Yes/No?
1. 随机将10000RMB的支票放入1,048,576
个盒子之一
 2. Play 20 questions: yes/no

8个盒子
 1. 最少多少个yes/no的问题能够定位支票?

2. Answer: log28 = 3
1,048,576个盒子:
Yes/No?
1. 随机将10000RMB的支票放入1,048,576个
盒子之一
 2.Play 20 questions: yes/no


220 = 1,048,576
2b =
信息论
M; b为bit (binary digit) 信息
1.
 2. M:所有概率的总量;因此:
 3. b = log2(M); => b = -log2(1/M) => b = log2(P); 所有概率相同,则P=1/M
 4. 例:对于某一个motif的一个位置上,可能
存在20种氨基酸,且概率相等,则P=1/20 =>
 5. b = -log2(1/20) = 4.32 bits

信息论 (2)
1. 若概率不等同,
如何处理?
 2. 定义 ui= -log2(Pi)

信息的平均值 =
N: 全部序列的数目
普适的信息平均值 =
Ni: 在该位置上为氨
基酸i的序列的数目
信息论 (3)
=>
1. 上式中,Ni/N=Pi;因此, 上式可转化为:
 2. 因此,香农的熵公式为:

信息论:意义?


1. 香农的信息熵公式:
H为每个位置上的“香农熵”

2. 香农熵:不确定性!

3. 在每一个位置上,各种氨基酸出现的不确
定性
信息论 (4)

P(D)=1, 因此,H= -1*log2(1) = -1 * 0 =0
No uncertainty


P(V) = P(I) = P(L) = P(M) = P(A) = 1/5;
H= -(1/5)*log2(1/5)- -(1/5)*log2(1/5)- (1/5)*log2(1/5)- -(1/5)*log2(1/5)- (1/5)*log2(1/5)=2.32 bit
Great uncertainty
Uncertainty -> Information
1. 盒子模型;
 2. 假设:只能回答两个问题;
则

A. 回答问题之前,不确定性
为3 bits
B. 回答问题之后,不确定性
为1 bit
3. 获得信息R:
 R= Hbefore – Hafter = 3-1 = 2
bits

Uncertainty -> Information (2)




假设,所有氨基酸出现的
频率是相等的;则
Hbefore = 4.32;
Hafter = 0;
Motif在该位置的信息量为:
4.32 bits



Hbefore = 4.32;
Hafter = 2.32;
Motif在该位置的信息量为:
2 bits
3. 模体发现:Gibbs
Sampler


1. Gibbs Sampler是一种Monte-Carlo类的方法,对
于输入序列,找到一个最大的似然函数
2. 对于序列s,且在位置A有一个motif的似然函数,
定义如下:
Gibbs Sampling 算法
(1)

1. 从每条序列上随机的抽取一段序列,序列
长度固定
motif
所有
序列
Gibbs Sampling 算法
(2)

2. 构建PSSM/权重矩阵
Gibbs Sampling 算法
(3)

3. 随机挑选一条序列
Gibbs Sampling 算法
(4)

4. 用构建好的PSSM对该序列上所有可能的
motif进行打分 (窗口滑动,每次1个氨基酸
或者碱基)
Gibbs Sampling 算法
(5)

5. 根据似然性的计算,得到似然值最大的模
体,即新的motif
Gibbs Sampling 算法 (6)

6. 更新PSSM矩阵
Gibbs Sampling 算
法 (7)

7. 反复迭代计算,直到似然性结果与PSSM
不再发生变化
Strong Motif
ACGTAGCA
Gibbs Sampler: 总结





1. 模体发现的一种随机算法(Monte Carlo)
2. 寻找次优解的算法
3. 根据PSSM/WMM对随机抽取的序列进行打分来
调整采样,直到结果收敛
4. 不能够保证每次运算的结果一致:需要多运算几
次,并进行比较
5. 对蛋白质、DNA、RNA序列模体的发现有帮助