MicroRNA预测分类及其特性研究

Download Report

Transcript MicroRNA预测分类及其特性研究

MicroRNA预测分类及其特性研究
胡玲玲
指导老师:邹 权 副教授
王其聪 副教授
1
目录
1 选题背景及意义
本文目录
结构
2 miRNA特性及研究预测算法介绍
3 家族分类及其生物医学应用
4不平衡分类策略及在miRNA上的应用
3
什么是microRNA(miRNA)?
microRNA前体
包含
成熟体microRNA
AUCGUGCAGAGACUAGACUGAC
~22nt
4
研究意义及现状
发育
细胞
增殖
miRNA
作用重
大
器官
形成
生物研究
miRNA
病毒
防御
造血
过程
生物信息学
miRNA挖掘
生物验证
前体预测
家族预测
其他
5
主要工作
1. miRNA预测挖掘方法总结对比
2. miRNA家族预测及生物医学应用
3. 提出一种不平衡分类算法
6
7
miRNA前体分类方法
Software
Positive data
Negative data
Sensitivity
Specificity
Accuracy
tp
fn
tn
fp
microPred
1591
109
260
1440
93.59%
15.29%
37.51%
MiPred
73
17
62
28
81.11%
68.89%
75.00%
Virgo
931
408
1080
506
69.52%
68.10%
68.75%
Triplet-SVM
1007
283
442
307
78.06%
59.01%
71.41%
8
miRNA提取挖掘方法
Software
预测的数量
已知的数量
预测正确的数
Precision
Recall
量
MirAlign
16
25
14
87.50%
56.00%
miRabela
16
26
15
93.75%
57.69%
MIReNA
38
42
27
71.05%
64.29%
9
10
一致的二级结
构
类似的生物学
功能
other
Family:let-7
m1
m2
目的:让miRNA正确的找到所属家族
m3
11
miRBase18.0中家族分布图
大家族包含
大部分的miRNA
未知序列更有可能
属于大家族
top19(20类)
top99(100类)
all(1314类)
12
分层的随机森林预测模型
output – prediction result
hierarchical prediction model
Third layer
Family
Result
miRNA family,
such as lin-4
Other
Second layer
T99 or Other Family
T99
miRNA family,
such as let-7
T19
miRNA family,
such as mir-2
Other
First layer
T19 or Other Family
Pre-miRNA
input
Fasta File
Pre-miRNA vs Pseudo
Pseudo
Pseudo hairpins
like miRNA
13
执行流程
图1
first layer
使用20类模型预测序列(图1)
否则
结果类标<=19
second layer
使用100类模型预测序列(图1)
否则
结果类标<=99
third layer
全类标预测(图1)
从PubMed查询预测结果家族相关的疾病信息
14
实验设计
输入
[sequence]
miRClassify
输出
[family]
20类文件
训练集大小的影响
[50%,66%,80%,90%]
<RF>
10-fold-CV
100类文件
不同n-gram的影响
[3-gram,4-gram,5-gram,6gram]
<RF>
1314类文件
每层的预测准确度
[1st layer,2nd layer,3rd layer]
<RF>
不同分类算法的影响
[RT,RF, Decision
Tree,SVM,NN,Boost+RF,Boost+SV
M]
评价标准
结果
Classifiers*
Acc of 1st layer
Acc of 2nd layer
Acc of 3rd layer
Random Tree
90.92
75.06
47.04
Random Forest
95.14
85.56
69.59
Decision Tree
95.11
59.20
61.84
Support Vector Machine 85.88
61.41
55.59
(SVM)
Nearest Neighbour
93.85
89.63
69.74
Boost+Random Forest
95.36
87.02
72.10
Boost+SVM
84.54
60.14
26.63
16
网站
18
不平衡分类现状和意义
• 金融欺诈检测
• 医疗诊断
• 网络入侵检测
• 反垃圾邮件
• 生物信息学等领域
19
改进算法
•基于采样
–过抽样
–欠抽样
•基于集成分类器
易丢失重
要信息
–基于单个基分类器 Bagging算法
–基于多个基分类器 Vote算法
20
单一基分类器与集成分类器
2
1
1
2
2
不平衡分类算法imDC
不平衡数据集
分类
样本
J48
RF
小类样本集
大类样本集
other
大类样本集(权重)
5个最优算法C[5]
数据集D1
……
数据集Dn
基分类器1
……
基分类器n
N- / N+决定基分类器个数n
基分类算法:n%5
C[5]
加权投票
加权投票
集成分类器
22
实验设计
表1 uci数据
说明
数据集
cmc,haberman,ionosphere,letter和pima
对比算法
AdaBoost ,随机降采样(UnderSampl),混合采样
( HSampl),AsymBoost,BalanceCascade和LibID
表2 miRNA数据
说明
数据集
miRNA前体数据集
对比算法
Triplet-svm,LibID
23
UCI数据
实验对比
miRNA实验对比
25
26
总结
主要创新点
• 提出了一种分层级联的家族分类预测的方法
• 引入了一种不平衡分类策略:ImDC
• 对比分析主流的miRNA挖掘预测方法
展望
• 相关理论研究
• 不平衡分类时间性能,参数调优
研究成果
1. Quan Zou*, Yaozong Mao, Lingling Hu, Yunfeng Wu, Zhiliang Ji*. miRClassify: An
advanced web server for miRNA family classification and annotation. Computers in
Biology and Medicine. 2014, 45:157-160. (SCI 3区, IF2011=1.089)
2. Chunyu Wang, Lingling Hu, Maozu Guo, Quan Zou. An ensemble learning method
for identifying imbalanced miRNA data. Genetics and Molecular Research. Accepted
(SCI, IF2010=1.013)
3. Lingling Hu, Yong Huang, Qicong Wang,Quan Zou, Yi Jiang. Benchmark comparison
of ab initio microRNA identification methods and software. Genetics and Molecular
Research. 2012, 11(4):4525-4538. (SCI, IF2010=1.013)
28
谢
谢
欢迎各位老师同学批评指
正
29