密码子使用偏性 - 生物信息学研究所

Transcript 密码子使用偏性 - 生物信息学研究所

第5章
基因组信息分析
5.1 关于遗传语言
5.2 原核基因组特点
5.3 真核基因组特点
5.4 基因组序列分析
5.5 基因识别方法
5.6 非编码区与分析和调控
元件建模
第一部分：
搜索遗传语言；
原核、真核基因组特
点
1、基因组DNA的奥秘
• 遗传信息存贮在4种字符组成的核酸序列中
• “天书”——用遗传语言书写的人类遗传蓝本
包含的信息量巨大
更重要的是目前人类对它了解甚少
天书中只有4个字符（碱基A、T、G、C）
既没有段落，也没有标点符号
是一个长度为3×109的一维序列。
• 科学家对这本天书了解最多的部分就是遗传密码
或者说掌握了DNA对蛋白质编码的规律
• 关于密码子
（1）密码子的使用是非随机的
• 如果密码子的第一、第二位碱基是A、U，
那么第三位将尽可能使用G、C；反之亦然。
• 如果三位都用G、C，则配对容易，分解难；
三位都用A、U，则相反。
• 一般地说，高表达的基因，要求翻译速度快，
要求密码子和反密码子配对快、分手也快。
（2）密码子的使用有一定的统计规律
• 对同义密码子的使用存在着偏爱
不同种属偏爱的密码子不同
人类基因组：
密码子第三位取A、U的情况占90%
而第三位取G、C仅占10%
密码子的使用偏性与基因功能、蛋白
质结构相关
（3）密码子中的密码
•
三个碱基的位置与所编码的氨基酸性质存在着联系
例如：
•
芳香族氨基酸——以U作为第一位碱基
•
中间位置碱基的性质与氨基酸是亲疏水性相关
疏水氨基酸的密码子，其第二位碱基是U
亲水氨基酸的密码子，其第二位碱基是A
第二位碱基是G、C的密码子所编码的氨基酸
亲水性、疏水性居中。
基因组信息
人类基因组：
• 编码区域只占1%-3%
•对于非编码序列，尚不清楚其含义或功能
•非编码区域对于生命活动具有重要的意义
包括内含子、简单重复序列、移动元件、伪基因
重复序列:
卫星（satellite）DNA
小卫星（mini-satellite）DNA
微卫星（micro-satellite）
顺式调控元件:
启动子、增强子、沉默子
2、探索遗传语言
• 用语言学的方法进行研究
自然语言
计算机程序设计语言
遗传语言
二进制序列0、1的长程关联性分析结果：
编码区域 ——自然语言
非编码区域 —— 程序设计语言
蛋白质编码区域所包含的信息相当于待加工的“数据”
数据经过加工处理以后产生对应的蛋白质；
而非编码区域则相当于“程序”或“指令”，确定如何在时间和空间方
面控制基因的表达和蛋白质的合成
• 用密码学方法进行研究
是否存在其它密码？
——调控信息密码？
——蛋白质结构的密码？
• 编码在DNA上的一维程序如何在四维时空
中控制生命体的生长发育
3、关于生物复杂性
生物的复杂性不仅仅是基因的数目
人类基因约为30000个
线虫有20000个基因
230000/220000=210000≌103000
4、基因组计划带来的希望
• 实验数据的积累速度在迅速地增加
• 计算机科学和技术也在不断地发展
单个基因组分析
基因序列
基因功能
基因的表达调控
基因产物
基因多态性
比较基因组分析
物种关系
物种进化
物种起源
人、鼠基因组比较
人基因组
老鼠约75%的基因
与人类相同。
鼠基因组
鼠染色体上的颜色和数字代表在人染色体上对应的片段.
SARS 基因组
（Severe Acute Respiratory Syndrome)
全基因组核酸搜索结果
分段核酸搜索结果
全基因组蛋白质搜索结果
原核基因组特点

原核生物的遗传物质大都是环状DNA，它
们基因组存在固有的特点，可以利用这些特
点分辨物种，识别基因。
长开放阅读框
开放阅读框(open reading frame) ：结构基
因内从起始密码子开始到终止密码子的一段
核苷酸区域，其间不存在任何终止密码，可
编码完整的多肽链，这一区域被称为开放阅
读框。
 ORF表明该区域可能对应于一个原核生物基
因的编码序列。

长开放阅读框
绝大部分原核生物蛋白质的长度大于60个氨
基酸
 在大肠杆菌E.coli中，蛋白质编码区域平均长
度为316.8个密码子，不到1.8%的基因的长
度小于60个密码子

原核基因分析的简单原则



若终止密码子出现在非编码核酸序列中，大约每21
个密码子出现一次（3/64）.
如果所有的密码子在随机的核酸序列中以相同的频
率出现，则不含终止密码子且长度为N个密码子的
序列出现的几率为（61/64）N .
长度为N的ORF的95%显著性置信度等价于5%“随
机”命中的可能性，即（61/64）N=0.05，这里N等
于60，表示典型长度的ORF中密码子的数目。
高基因密度
原核基因组中的基因密度非常高
 完全测序的细菌和古细菌的基因组数据表明，
其中85％到88％的核酸序列与基因的编码直
接相关。

在大肠杆菌（E.coli）中总共有4,288个基因，平
均编码长度为950bp，而基因之间的平均间隔长
度只有118bp。
简单的基因结构
原核基因为连续基因，其编码区是一个完整
的DNA 片段。
GC含量




碱基G、C相对于A、T的丰度很早就被看作是区分
细菌基因组的特征之一 .
不同的原核生物中，GC含量（GC content）从
25%到75%，变化非常大。
大部分细菌是通过从其它生物体大规模获得基因
（长度为几万甚至几十万个核苷酸）而进化的(水平
转移).
简而言之，许多细菌基因组表现为具有不同GC含量
的区域的组合物，这些区域反映了细菌的进化历史。
真核基因组特点
基因组规模大
 非编码序列大
 基因结构复杂
 基因转录调控方式复杂
 可变剪接
 CpG岛
 等值区
 密码子使用偏性

基因组规模
真核细胞的细胞核中一般有多条线性染色体，
而且通常包含每条染色体的双拷贝。
 人的基因组总长度超过30亿对碱基，而大肠
杆菌的基因组只有500多万个碱基。

非编码序列巨大
真核生物具有复杂的基因组结构。
 编码区域在人类基因组所占的比例不超过3%。
 其余97%是非编码序列，而在非编码序列中，
各种重复序列占了很大一部分。

基因结构复杂
基因转录调控方式复杂





真核基因的表达涉及多种RNA聚合酶。
与原核生物只使用一种由多个蛋白聚合而成的RNA
聚合酶不同，真核生物至少使用由8到12个蛋白组
成的三种不同类型的RNA聚合酶。
RNA 聚合酶I和III负责转录生成RNA分子，这些分
子本身执行重要的功能，在所有的真核细胞中需要
始终保持相当恒定的水平。
RNA聚合酶II专门负责转录编码蛋白质的基因。
RNA聚合酶II识别的启动子序列的多样性反映了区
别基因的复杂程度，即在特定类型的细胞中和在特
定的时间，区别哪些基因该表达而哪些基因不该表
达。
可变剪接
估计有20%或更多的人类基因因为可变剪接
（alternative splicing）而产生两种或多种不
同的mRNA序列 .
 有一个人类的基因已经被证明，相同的原始
转录物可以产生64种不同的mRNA

CpG岛

真核生物基因组的GC含量的差别没有在原核
生物间观察到的那么明显，但是CG两联核苷
酸（常称作CpG，以表明连接两个核苷酸的
磷酸二脂键）的出现频率仅为其随机出现的
频率的20%，而没有发现其它核苷酸对有异
常的出现频率。
CpG岛


许多人类基因5’-端的1~2kb片段中发现CpG岛
（CpG island），此处CpG的密度达到随机预测的
水平。
人类基因组全长序列的分析结果表明，大约有
45,000这样的岛，并且有一半左右与已知的管家基
因(housekeeping gene，指在所有组织和在发育的
所有阶段都高水平表达的基因）是有关联的，其余
的CpG岛有许多似乎是和组织特异性基因的启动子
相关联的。CpG岛很少出现在不含基因的区域和那
些发生多次突变的基因中。
等值区
定义：具有一致碱基组成的长区域
 特征：

等值区基因组序列的长度超过1,000,000对碱基
虽然不同的等值区其GC含量差别显著，但同一
等值区的GC含量始终相对均衡

人类基因组大约可以划分为五个不同类型的
等值区:a) L1和L2，平均GC含量分别为39%和42%(欠
GC))
b) H1、H2和H3，GC含量平均值分别为46%、
49%和54% (丰GC)
密码子使用偏性
每个氨基酸至少对应1种密码子，最多有6种
对应的密码子
 不同物种、不同生物体的基因密码子使用存
在着很大的差异(酵母精氨酸偏好AGA，果蝇
偏好CGC)
 从生物学基础来看，不同的密码子使用模式
的形成可能与基因的GC含量有关。

基因组序列分析
DNA序列分析
——基因序列
——基因表达调控信息
寻找基因牵涉到两个方面的工作：
 识别与基因相关的特殊序列信号
 预测基因的编码区域
 结合两个方面的结果确定基因的位置和结构
基因表达调控信息隐藏在基因的上游区域，在组成上具有
一定的特征，可以通过序列分析识别这些特征。
5.4.1 基因组序列分析步骤和分析结果评价

在DNA序列中，除了基因之外，还包含许多其它信息，这
些信息大部分与核酸的结构特征相关联，通常决定了DNA
与蛋白质或者DNA与RNA的相互作用。

存放这些信息的DNA片段称为功能位点
 如启动子（Promoter）、基因终止序列（Terminator
sequence）、剪切位点（Splice site）等。
一个基本的DNA序列分析方案
发现重复元素
数据库搜索
分析功能位点
序列组成统计分析
综合分析

功能序列分析的准确性来自于对“功能序列”和
“非功能序列”的辨别能力。

两个集合：
训练集（training set）
 用于建立完成识别任务的数学模型。
测试集或控制集（control set）
 用于检验所建模型的正确性。

用训练集中实例对预测模型进行训练，使之通过
学习后具有正确处理和辨别能力。然后，用模型
对测试集中的实例进行“功能”与“非功能”的
判断，根据判断结果计算模识别的准确性。
收集已知的功能序列和非功能序列实例
（这些序列之间是非相关的）
训练集
（training set）
测试集或控制集
（control set）
建立完成识别任务的模型
检验所建模型的正确性
对预测模型进行训练，
使之通过学习后具有
正确处理和辨别能力。
进行“功能”与“非功能”的
判断，根据判断结果计算
模识别的准确性。
识别“功能序列”和“非功能序列”的过程

Sn ——敏感性

Sp——特异性
Sn 
Sp




Tp
T p  Fn
Tn

Tn  Fp
Tp是正确识别的功能序列数，
Tn为正确识别的非功能序列数，
Fn是被错误识别为非功能序列的功能序列数，
Fp是被错误识别为功能序列的非功能序列数。
敏感性和特异性的权衡




对于一个实用程序，既要求有较高的敏感性，也要
求有较高的特异性。
如果敏感性很高，但特异性比较低，则在实际应用
中会产生高比率的假阳性；
相反，如果特异性很高，而敏感性比较低，则会产
生高比率的假阴性。
对于敏感性和特异性需要进行权衡，给出综合评价
指标。

对于一个识别程序准确性可按下式进行综合评价：
AC 

Sn  S p
2
另一个综合评介指标为相关系数，其计算计算公式
为：
CC 
Tp  Tn  Fn  Fp
(Tp  Fn )  (Tn  Fp )  (Tp  Fp )  (Tn  Fn )

选择训练集和测试集
在检测算法的可行性时，需要从已知的数据中
按照不同的方式选择训练集和测试集

测试集的构成非常关键
在不同的测试集上进行测试可能会得到不同的
准确性结果，甚至准确性相差很大。

建立标准的功能序列测试集合。
如基因转录剪切位点的测试集合、编码区域的
测试集合等。
5.4.2 核苷酸关联分析
对于一个给定的基因组，最简单的计算就是
统计DNA序列中各类核苷酸出现的频率。
 对于随机分布的DNA序列，每种核苷酸的出
现是均匀分布的

出现频率各为0.25。

而真实基因组的核苷酸分布则是非均匀的
核苷酸
频率
A
0.3248693727808
C
0.1751306272192
G
0.1751306272192
T
0.3248693727808
酵母基因组核苷酸出现频率

在统计过程中，如果同时计算DNA的正反
两条链，则根据碱基配对原则，A和T、C
和G的出现频率相同。

如果仅统计一条链，则虽然A和T、C和G的
出现频率不同，但是非常接近。
核苷酸
频率
A
0.344
C
0.155
G
0.157
T
0.343
M.jannaschii单链核苷酸出现频率
基因和其它功能区域
在正反两条链上出现的
可能性通常一样
正反两条链在信息的
组织结构方面不应该有差别
核苷酸出现频率也不应该
有偏差
正反两条链碱基互补的原则
单链上A和T、C和G的
出现频率相近。
单链上A和T、C和G的出现频率相近的解释
两联核苷酸频率

不同基因组中两个连续核苷酸出现
的频率也是不相同的

4种核苷酸可以组合成16种两联核
苷酸
对酵母基因组
两联核苷酸的
统计结果
其中核苷酸对
出现频率最高
的达到0.119
而出现频率最
低的只有
0.028
酵母基因组两联核苷酸频率表
关联性分析
令:
Pij —— 代表两联核苷酸（i，j）的出现频率
Pi —— 代表核苷酸i的出现频率
则：
Pij’= Pij/(PiPj)
的值反应核苷酸i和j的关联关系
如果Pij’=1，则在两个连续的位置上，核苷酸
i和j的出现是相对独立的。
关联性分析

对于酵母基因组
PA=0.3248
PAA=0.1193
PAA’
=0.1193/（0.3248*0.3248）
=1.131 > 1
表明在两个连续位置上“A”的出现不是独立
的，而是相关的。

同样，对于相隔一定距离k（k代表核苷酸个数）
的两个核苷酸，也可能具有一定的相关性。

假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位
置的频率，则可定义一个反应统计相关性的互信
息I(k)
I (k ) 
4
p
i , j 1

ij
(k ) log 2
pij (k )
pi p j
I(k)值得大小实际上反应了距离为k的两个核苷酸
之间的相关性的程度
三联核苷酸——基因密码子

在进行编码区域识别时，常常需要对三联
核苷酸进行统计分析，这实际上是分析密
码子的使用偏性。
由于密码子的简并性（degeneracy），每个氨
基酸至少对应1种密码子，最多有6种对应的密
码子。
在基因中，同义密码子的使用并不是完全一致
的。
不同物种、不同生物体的基因密码子使用存在
着很大的差异


基因密码子的使用与基因编码的蛋白的结构和功
能有关，与基因表达的生理功能有着密切的联系
蛋白的三级结构与密码子使用概率有密切的关系
 通过对密码子的聚类分析，可以很清晰地将具有不同
三级结构蛋白质的编码基因分成不同的类，而具有相
似三级结构蛋白的编码基因则大致聚在同一类中，从
而证明基因密码子的使用偏性与蛋白质三级结构具有
密切的相关性。

在不同物种中，类型相同的基因具有相近的同义
密码子使用偏性
 对于同一类型的基因由物种引起的同义密码子使用偏
性的差异较小
针对酵母第一染色体的分析结果
第二部分

基因识别
基因识别
基因识别是生物信息学领域里的一个重
要研究内容
 基因识别问题，在近几年受到广泛的重
视

当人类基因组研究进入一个系统测序阶段
时，急需可靠自动的基因组序列翻译解释
技术，以处理大量已测定的但未知功能或
未经注释的DNA序列
 原核基因识别
重点在于识别编码区域

非翻译区域（untranslated regions, UTR）
编码区域两端的DNA，有一部分被转录，
但是不被翻译，这一部分称为非翻译区域

5’UTR---基因上游区域的非翻译区域
3’UTR---基因下游区域的非翻译区域

对于任何给定的核酸序列（单链DNA或
mRNA），根据密码子的起始位置，可
以按照三种方式进行解释。
 例如，序列ATTCGATCGCAA
（1） ATTCGA TCGCAA
（2） ATTCGAT CGCAA
（3） ATTCGATCGCAA


这三种阅读顺序称为阅读框（reading
frames）
一个开放阅读框（ORF,open reading
frame）是一个没有终止编码的密码子序
列。
原核基因识别任务的重点是识别开放阅读
框，或者说识别长的编码区域。
基于基因密码子特性的识别方法

辨别编码区域与非编码区域的一种方法
是检查终止密码子的出现频率
终止密码子出现的期望次数为：
每21个（ 64/3）密码子出现一次终止密
码子
基本思想：
如果能够找到一个比较长的序列，其相应
的密码子序列不含终止密码子，则这段序
列可能就是编码区域。

基本算法：
扫描给定的DNA序列，在三个不同的阅读
框中寻找较长的ORF。遇到终止密码子以
后，回头寻找起始密码子。
这种算法过于简单，不适合于处理短的
ORF或者交叠的ORF。

识别编码区域的另一种方法是分析各种
密码子出现的频率
例如，亮氨酸、丙氨酸、色氨酸分别有
6个、4个和1个密码子
将一个随机均匀分布的DNA序列翻译成氨基酸
序列，则在氨基酸序列中上述3种氨基酸出现的
比例应该为6:4:1
但是在真实的氨基酸序列中，上述比例并不
正确
这说明DNA的编码区域并非随机序列

假设在一条DNA序列中已经找到所有的
ORF，那么可以利用密码子频率进一步
区分编码ORF和非编码ORF

马尔柯夫链模型

利用这种方法，可以计算一个ORF成为
编码区域的可能性。

一个简单的统计模型
假设相继的密码子是独立的，不存在前后依
赖关系。
令fabc代表密码子abc在编码区域出现的频率
给定序列
a1,b1,c1, a2,b2,c2,…, an+1,bn+1
从密码子a1b1c1开始的阅读框，其n个密码子
的出现概率为
p1  f a1b1c1  f a1b2c2  ...  f anbncn

第二种和第三种阅读框n个密码子出现的概
率分别为
p2  f b1c1a2  f b2c2 a3  ...  f bn cn an1
p3  f c1a2b2  f c2 a3b3  ...  f cn an1bn1

第i个阅读框成为编码阅读框的概率
计算：
pi
Pi 
p1  p2  p3

算法：
在序列上移动长度为n的窗口，计算Pi
根据Pi的值识别编码的阅读框
基于编码区域碱基组成特征的识别方法

编码序列与非编码序列在碱基组成上
有区别
单个碱基的组成比例
多个碱基的组成

通过统计分析识别编码序列
分析实例
2、真核基因识别问题
真核基因远比原核基因复杂：

一方面，真核基因的编码区域是非连续
的，编码区域被分割为若干个小片段。

另一方面，真核基因具有更加丰富的基
因调控信息，这些信息主要分布在基因
上游区域。
基因识别基本思路
•找出基因两端的功能区域:
转录启动区
终止区
• 在启动区下游位置寻找翻译起始密码子
• 识别转录剪切位点
剪切给体位点
剪切接受体位点

各种不同的方法有不同的适应面，而不
同的方法有时可以结合起来以提高基因
识别的准确率。

关键问题是如何提高一个识别算法的敏
感性（sensitivity，Sn）和特异性
（specificity，Sp）。
3、基因识别的主要方法
两大类识别方法：
 从头算方法（或基于统计的方法）
 根据蛋白质编码基因的一般性质和特征进行识别，
通过统计值区分外显子、内含子及基因间区域

基于同源序列比较的方法
 利用数据库中现有与基因有关的信息（如EST序
列、蛋白质序列），通过同源比较，帮助发现新
基因。

最理想的方法是综合两大类方法的优点，
开发混合算法。
4、编码区域识别
两类方法：
 基于特征信号的识别
内部外显子
剪切位点
5’端的外显子一定在核心启动子的下游
3’端的外显子的下游包含多聚Ａ信号和终
止编码

基于统计度量的方法
根据密码子使用倾向
双联密码统计度量等
密码子使用倾向

在一个基因中，第i个（i=1，64）密码子相对使用
倾向RSCUi的定义如下：
Obsi
RSCU i 
Expi

（5-65）
Obsi是该基因中第i个密码子实际出现的次数
Expi是对应密码子期望的出现次数
aa

Exp 
 syn
i
i
（5-66）
i
aai是统计的第i个密码子出现的次数
syni是所有与第i个密码子同义密码子出现的次数

RSCU大于1表示相应密码子出现的次数比期望次数
高，而小于1则表示出现次数相对较少。
双联密码统计度量

设一段DNA序列为S，从S的第i位到第j位的双联密
码统计度量IF6（i，j）定义为：

  ln( f i  k / Fi  k )
k 0,3, 6,..., j 6
IF6 (i, j )  max   ln( f i  k / Fi  k ) （5-67）
k 1, 4, 7 ,..., j 5
  ln( f i  k / Fi  k )
k  2,5,8,..., j  4
fk是从第k位开始的双联密码的频率
Fk是该双联密码随机出现的频率
通过相似搜索发现编码区域或者外显子
EST（Expressed Sequence Tags）
cDNA
蛋白质序列

目前大多数预测程序都将数据库相似性
搜索的信息结合进基因预测过程

同时考虑序列特征信号和统计度量
GRAIL
用人工神经网络识别编码区域
人工神经网络的概念
4、别名
 人工神经系统（ANS）
 神经网络（NN）
 自适应系统（Adaptive Systems）、自适应网
（Adaptive Networks）
 联接模型（Connectionism）
 神经计算机（Neurocomputer）

ANN 具有学习（Learning）能力
人工神经网络可以根据所在的环境去改变它
的行为
 自相联的网络
 异相联的网络：它在接受样本集合A时，可
以抽取集合A中输入数据与输出数据之间的
映射关系。——“抽象”功能。
 不同的人工神经网络模型，有不同的学习/训
练算法

基本特征的自动提取
由于其运算的不精确性，表现成“去噪音、
容残缺”的能力，利用这种不精确性，比较
自然地实现模式的自动分类。
 普化（Generalization）能力与抽象能力

适应性(Applicability)问题

擅长两个方面：
对大量的数据进行分类，并且只有较少的几种情
况；
必须学习一个复杂的非线性映射。

目前应用：
人们主要将其用于语音、视觉、知识处理、辅助
决策等方面。
在数据压缩、模式匹配、系统建模、模糊控制、
求组合优化问题的最佳解的近似解（不是最佳近
似解）等方面也有较好的应用。
1、构成
生物神经网
树突（Dendrite）
轴突（Axon）
胞体(Soma)
胞体(Soma)
突触（Synapse）
生物神经网

3、六个基本特征：
1）神经元及其联接；
2）神经元之间的联接强度决定信号传递的强弱；
3）神经元之间的联接强度是可以随训练改变的；
4）信号可以是起刺激作用的，也可以是起抑制作
用的；
5）一个神经元接受的信号的累积效果决定该神经
元的状态；
6) 每个神经元可以有一个“阈值”。
人工神经元
神经元是构成神经网络的最基本单元（构
件）。
 人工神经元模型应该具有生物神经元的六个
基本特性。

人工神经元的基本构成
x w
1
1
x2 w2
∑
…
xn wn

net=XW
人工神经元模拟生物神经元的一阶特性。
输入：X=（x1，x2，…，xn）
联接权：W=（w1，w2，…，wn）T
网络输入： net=∑xiwi
向量形式： net=XW
激活函数(Activation Function)
激活函数——执行对该神经元所获得的网络
输入的变换，也可以称为激励函数、活化函
数： o=f（net）
 1、线性函数（Liner Function）

f（net）=k*net+c
o
c
o
net
4、S形函数
f（net）=a+b/(1+exp(-d*net))
a，b，d为常数。它的饱和值为a和a+b。
最简单形式为：
f（net）= 1/(1+exp(-d*net))
函数的饱和值为0和1。
 S形函数有较好的增益控制
4、S形函数
o
a+b
c=a+b/2
(0,c)
a
net
简单单级网
x1
o1
w11
w1m
x2
o2
w2m
…
xn
… wn1
…
om
wnm
输入层
输出层
简单单级网
W=（wij）
输出层的第j个神经元的网络输入记为netj ：
 netj=x1w1j+x2w2j+…+xnwnj
其中, 1≤ j ≤ m。取
NET=（net1，net2，…，netm）
NET=XW
O=F（NET）
Neural network mathematics
Inputs
Output
 y11  2
 1  y1  f ( y1 , w12 )
 y32 
 2
2
3
y 12  f ( x 2 , w12 ) y1   y 2  2
2
1
2
y

f
(
y
,
w
y

y


y 2  f ( y , w2 )
Out
1)
3

1
 2 
y31  f ( x3 , w31 )
 y3  2
1
2
y3 
1  y3  f ( y , w3 )


 y4 
y 14  f ( x 4 , w14 )
y11  f ( x1 , w11 )
学习规则

有导师学习在学习训练过程中需要不断给网
络成对提供一个输入模式和一个期望网络正
确输出的模式，称为“教师信号”。当网络
的输出与期望的教师信号不符时，则调整权
值，能产生所期望的输出。
BP神经网络是指基于误差反向传播
算法的多层前馈神经网络

反向传播算法的基本思路：学习过程由信号的正
向传播和反向传播两个过程组成。正向传播时，输
入样本由输入层进入，经隐层处理后传向输出层。
若实际输出与教师信号不符，则转入误差的反向传
播阶段。输出误差将通过隐层向输入层逐层反传，
并把误差分摊而得到各层单元的误差信号，作为修
正各单元权值的依据。权值的调整过程即BP网络的
学习过程，直到网络输出精度满足要求为止。
权值的更改
梯度下降法的基本思想

首先设置权W的一组初值，然后，连接计算
均方误差相对于权的梯度，并按上式一小步
小步地修正权值，当满足一定的准则时（比
如MSE进入到下限的某一范围时）即停止。
这时称为算法收敛。对于梯度下降算法来说，
最大的问题是不能保证收敛到全局最优。
梯度下降法的缺点
输入是一系列反映功能位点信号特征和序列编码统计特征的参数
输出就是对一段DNA序列是否是编码区域的判别结果
神经网络具有非线性映射能力，能够发现输入和输出之间的高阶相关
性
生物信息中，神经网络主要应用于：
①序列编码分析；
②蛋白质二级结构预测；
③单肽及其切割位点预测；
④遗传密码的结构和起源分析；
⑤真核生物基因寻找和内含子剪接位点预测。
第三部分

调控元件识别
序列模式
1. 功能结构域，functional domain
 2. 模块，BLOCK
 3. 模体，motif
 4. 模式，pattern/profile

功能结构域
1. 具有完整的、独立的三级结构
 2. 具有特定的生物学功能
 3. 一般长度，几十到几百个氨基酸
 4. 允许插入/缺失，即允许存在gap

模块/BLOCK



1. 几个到几十个氨基酸
2. 无gap，从全局多序列比对的结果直接处理得到
3. 描述蛋白质家族或者一类蛋白质的序列保守性
BLOCK
模体/Motif
 1. 不具有独立的三级结构



2. 具有特定的生物学功能：结合，修饰，细胞亚定位，
维持结构，等
3. 长度一般几个到几十个氨基酸或者碱基；
4. 例如，SUMO化的序列模体：Ψ-K-X-E (Ψ:A, I, L, V,
M, F, P; X:任意氨基酸)
模式/Pattern/Profile
1. 在算法上用来描述一类功能结构域，模体
或者模块的表示方式
 2. 根据序列数据，构建的预测模型
 3. 数据形式：概率表示
 4. 用来预测新的可能符合特定模式的序列
 5. 例如，直接将Ψ-K-X-E视为SUMO化位点的，
普适的“模式”，则可以预测所有包含该模
式的蛋白质序列

2. 位点特异性打分矩阵
(1) Position Specific Scoring Matrix
(PSSM)/ Weight Matrix Model(WMM)
 (2) 对蛋白质家族进行多序列比对分析，发
现结果中保守的BLOCK
 (3) 根据BLOCK序列推导相应的PSSM
 (4) 不考虑gap的影响
 (5) BLOCK长度一般在几个~几十个残基/碱
基

锌指功能结构域的PSSM
BLOCK -> PSSM
二十种
氨基酸
代表每一列
矩阵中的数值：当前位置上，某
种氨基酸出现的频率的log值
第二种PSSM

每一个位置上显示每种氨基酸或者碱基出现的
频率
四种碱基
碱基的位置
第三种PSSM

每一个位置显示氨基酸/碱基出现的概率
PSSM：思考与应用
 1. 可以根据BLOCK推导得到的PSSM进行数据库的
搜索，发现包含该模式的新的蛋白质，并预测功能

2. 需要思考的问题：
 (1) PSSM必须能够很好的反映BLOCK, Motif以及Domain
的真实情况。然而，数据有限；如何解决？
 (2) 根据PSSM如何计算新的序列？
 (3) PSSM中究竟包含着何等信息？
问题一Pseudocounts


1. 如果训练数据中包含很多序列，并且每个位置上
的氨基酸出现频率合理，则根据该训练数据得到的
PSSM能够很好的反映训练数据的真实情况。否则，
得到的PSSM可能会有明显的偏差
2. 解决方案，引入伪计数(pseudocounts)
 A. pseudocounts太多，PSSM偏离真实情况太远
 B. pseudocounts太少，许多可能的氨基酸变化就忽略了


3. 数据量大时，伪计数可以少一些，反之则要增大
为计数的比例
4. 一般的经验，伪计数≤
N
Pseudocounts (2)
针对特定的氨基酸，如何确定是否需要引入
伪计数？
 1. 方法一：令f(i)为氨基酸i在蛋白质数据库
(例如：UniProt)中的分布比例
 2. 方法二：使用打分矩阵来衡量序列的相似
性(GPS的思想)
 3. 方法三：对其他的BLOCK分析，来估算当
前BLOCK可能的氨基酸的分布
 4. 方法四：blind guess…

问题二：PSSM->发
现

1. 计算log-odds ratio/Odds ratio

2. Do not miss: 性能检验！！！

3. 结果需要计算Sn, Sp, Ac & Mcc

4. 需要计算Self-consistency, Leave-one-out validation & nfold cross-validation
计算log-odds ratio

P(S|+)，根据阳性训练数据计算出来的概率；
Then, P(S|-)?

1. 负样本/阴性数据的概率计算

2. 计算方法：
A. DNA序列，四种碱基出现的频率
B. 蛋白质序列，20种氨基酸出现的频率
Odds Ratio
Log-odds Ratio
计算流程：滑动窗口

设定域值；窗口宽度9bp；依次打分，预测
例：剪切模型
(Splicing)
计算log-odds ratio
问题三：PSSM->信息？
1. PSSM/motif/domain/BLOCK：每一个位
置上究竟包含了什么样的信息？
 2. 对于同一个motif/PSSM：有些位点较其他
位点提供更多的信息，why?
 3. 如何定量化“信息”？

信息论：Claude
Shannon

信息论的奠基人
1,048,576个盒子：
Yes/No?
1. 随机将10000RMB的支票放入1,048,576
个盒子之一
 2. Play 20 questions: yes/no

8个盒子
 1. 最少多少个yes/no的问题能够定位支票？

2. Answer: log28 = 3
1,048,576个盒子：
Yes/No?
1. 随机将10000RMB的支票放入1,048,576个
盒子之一
 2.Play 20 questions: yes/no


220 = 1,048,576
2b =
信息论
M; b为bit (binary digit) 信息
1.
 2. M：所有概率的总量；因此：
 3. b = log2(M); => b = -log2(1/M) => b = log2(P); 所有概率相同，则P=1/M
 4. 例：对于某一个motif的一个位置上，可能
存在20种氨基酸，且概率相等，则P=1/20 =>
 5. b = -log2(1/20) = 4.32 bits

信息论 (2)
1. 若概率不等同，
如何处理？
 2. 定义 ui= -log2(Pi)

信息的平均值 =
N: 全部序列的数目
普适的信息平均值 =
Ni: 在该位置上为氨
基酸i的序列的数目
信息论 (3)
=>
1. 上式中，Ni/N=Pi;因此, 上式可转化为：
 2. 因此，香农的熵公式为：

信息论：意义？


1. 香农的信息熵公式：
H为每个位置上的“香农熵”

2. 香农熵：不确定性！

3. 在每一个位置上，各种氨基酸出现的不确
定性
信息论 (4)

P(D)=1, 因此，H= -1*log2(1) = -1 * 0 =0
No uncertainty


P(V) = P(I) = P(L) = P(M) = P(A) = 1/5;
H= -(1/5)*log2(1/5)- -(1/5)*log2(1/5)- (1/5)*log2(1/5)- -(1/5)*log2(1/5)- (1/5)*log2(1/5)=2.32 bit
Great uncertainty
Uncertainty -> Information
1. 盒子模型；
 2. 假设：只能回答两个问题；
则

A. 回答问题之前，不确定性
为3 bits
B. 回答问题之后，不确定性
为1 bit
3. 获得信息R：
 R= Hbefore – Hafter = 3-1 = 2
bits

Uncertainty -> Information (2)




假设，所有氨基酸出现的
频率是相等的；则
Hbefore = 4.32;
Hafter = 0;
Motif在该位置的信息量为：
4.32 bits



Hbefore = 4.32;
Hafter = 2.32;
Motif在该位置的信息量为：
2 bits
3. 模体发现：Gibbs
Sampler


1. Gibbs Sampler是一种Monte-Carlo类的方法，对
于输入序列，找到一个最大的似然函数
2. 对于序列s，且在位置A有一个motif的似然函数，
定义如下：
Gibbs Sampling 算法
(1)

1. 从每条序列上随机的抽取一段序列，序列
长度固定
motif
所有
序列
Gibbs Sampling 算法
(2)

2. 构建PSSM/权重矩阵
Gibbs Sampling 算法
(3)

3. 随机挑选一条序列
Gibbs Sampling 算法
(4)

4. 用构建好的PSSM对该序列上所有可能的
motif进行打分 (窗口滑动，每次1个氨基酸
或者碱基)
Gibbs Sampling 算法
(5)

5. 根据似然性的计算，得到似然值最大的模
体，即新的motif
Gibbs Sampling 算法 (6)

6. 更新PSSM矩阵
Gibbs Sampling 算
法 (7)

7. 反复迭代计算，直到似然性结果与PSSM
不再发生变化
Strong Motif
ACGTAGCA
Gibbs Sampler: 总结





1. 模体发现的一种随机算法(Monte Carlo)
2. 寻找次优解的算法
3. 根据PSSM/WMM对随机抽取的序列进行打分来
调整采样，直到结果收敛
4. 不能够保证每次运算的结果一致：需要多运算几
次，并进行比较
5. 对蛋白质、DNA、RNA序列模体的发现有帮助

密码子使用偏性 - 生物信息学研究所

Transcript 密码子使用偏性 - 生物信息学研究所

Directory