swxxx - 第三军医大学生物信息学中心

Download Report

Transcript swxxx - 第三军医大学生物信息学中心

第三军医大学生物信息学高
性能计算平台的构建与使用
邹凌云 Ph.D.
第三军医大学生物信息学中心
E-mail: [email protected]
http://bioinfo.tmmu.edu.cn
2015/4/9
2
提纲
生物信息中心情况简介
生物信息学平台的构建
数据库检索系统的使用
高性能计算系统的使用
生物信息学分析实例
Q&A
BIC TMMU
2015/4/9
3
生物信息中心情况简介
生物信息学平台的构建
数据库检索系统的使用
高性能计算系统的使用
生物信息学分析实例
Q&A
BIC TMMU
2015/4/9
4
第三军医大学生物信息学中心简介
职能
建设并开放生物信息学平台供校内外用户使用
提供生物信息学分析服务
开展生物信息学教学和研究
联系方式
第三军医大学基础部生命科学楼7楼710房
网站: http://bioinfo.tmmu.edu.cn
邮箱:[email protected]
电话:771932;023-68771932
5
负责人
邹凌云 Ph.D.
(2008年毕业于国防科技大学,获博士学位。主要研究方
向为生物信息学。)
E-mail:[email protected]
Cell:13512395250
Tel: 023-68771932
2015/4/9
6
生物信息中心情况简介
生物信息学平台的构建
数据库检索系统的使用
高性能计算系统的使用
生物信息学分析实例
Q&A
BIC TMMU
2015/4/9
7
Why Bioinformatics?
2015/4/9
8
Bioinformatics: What do we need?
对分子生物信息数据能够
快速获取的平台
What do
we need?
满足各种生物信息学分析所
需的大规模计算能力的平台
从互联网快速接入服务器并
进行生物信息学分析的平台
9
Why High Performance Computing(HPC)?
1
2
3
超大规模的数据处理
• 基因组测序序列:
5×1020量级
• 蛋白质折叠计算:
3×1023 量级
• 药物设计
平均筛选10000种
化合物以上才能得到
一种新药
超大计算规模的算法
• 分子动力学模拟
多用户同时的计算
需求
• 一个和尚、两个和
BIC TMMU
2015/4/9
• 分子相互作网络
• 分子进化分析
• 蛋白质结构模拟
•……
尚、三个和尚…
10
我们的已经完成的工作
1. 将多个重要的生物信息数据库
本地化安装
快速获取各种分子生
物信息数据
2. 建立了一个高性能计算系统
满足各种生物信息
学分析的HPC
3. 将平台接入校园网/互联网
随时从网络接入提交
计算任务来分析数据
11
生物信息学平台的架构
http://bioinfo.tmmu.edu.cn
万兆网络交换机
数据库系统
高性能计算系统
存储系统
高性能服务器
刀片式服务器集
群(Cluster)
磁盘存储阵列
12
生物信息学平台硬件与软件系统
Our Platform
Hardware
浪潮天梭高性
能服务器集群
(cluster)
Software
Linux系统:
• Rocks Cluster5.4
• CentOS 5.5
• RedHat AS 4
13
What is Cluster(集群)?
多台计算机通过高速网络连成一个并行计算系统
System1
System2
CPUs
CPUs
Memory Bus
Memory
Chipset
...
SAN
CPUs
Memory Bus
Chipset
I/O Bus
LAN
System3
Memory
...
LAN
Memory
I/O Bus
SAN
Local Area Network
2015/4/9
Chipset
I/O Bus
System Area Network
BIC TMMU
Memory Bus
LAN
SAN
14
Why cluster?
BIC TMMU
容易扩展
从几十个节点到几万个节点
容易并行
并行计算的最优选择之一
容易维护
单个节点的故障不影响整体
2015/4/9
15
Why cluster?
普通PC
BIC TMMU
2015/4/9
cluster
16
K Computer
Jaguar
Roadrunner
天河1号
17
What is Rocks Cluster?
一种免费
集群操作
系统
基于
CentOS
Linux
Rocks Cluster
集成生物
信息学软
件包
18
Rocks Cluster 5.4 的主要功能模块
Rocks Roll
1. Base roll
2. Kernel
基本功能
模块
RedHat
2015/4/9
Linux内核
3. OS
操作系统
组件
4. SGE
SUN Grid
Engine 分布
式任务管理
系统
5. bio
Biosoft
Package
19
我校生物信息学平台拓扑结构图
用户
用
户
26个刀片式计算节点
One Computer!
20
生物信息平台物理分布视图
千兆以太网交换机
42 U
42 U
1U
42 U
光纤交换机
1U
2U
用户管理节点
2U
数据库节点
2U
I/O服务器1
2U
I/O服务器2
刀片服务器组1
7U
1U
KVM切换器
刀片服务器组2
7U
刀片服务器组3
7U
2U
2U
2U
存储阵列
21
生物信息学平台计算机群
 数据库节点
 双路Intel 至强5450处理器
2.83GHZ
 8个核心,32G 内存
 其他节点
 8核、16G 内存
 存储系统
 30个1 TB硬盘的存储阵列
 性能指标:
 208个计算核心
 2万亿次/秒 浮点运算
22
以Rocks Cluster为核心的Linux操作环境
• 管理节点
• 数据库节点
Rocks cluster 5.4
16G 内存
64位
CentOS 5.4
32G 内存
64位
• 终端计算机
• 计算节点
Rocks cluster 5.4
16G 内存
64位
平台
操作环境
bio-linux 6.0
2G RAM
32位
23
为什么选择Unix/Linux来构建平台?
科学研究的通用平台
90%以上的科学软件在Unix/Linux下开发
多数生物信息学软件只有Unix/Linux版本
数量庞大的各种小工具
Sed, awk, vi, emacs, diff, cvs, etc…
极多的高质量文档
免费^_^ !
24
各节点的主机名称及IP地址
管理节点
主机名称:big.hpc.org;
IP地址:202.202.232.201
计算节点(26台刀片式服务器)
Blade1: compute-0-0~compute-0-9
Blade2: compute-1-0~compute-1-9
Blade3: compute-2-0~compute-2-5
数据库节点:
主机名:database
IP地址:202.202.232.202
访问域名:http://bioinfo.tmmu.edu.cn
BIC TMMU
2015/4/9
25
平台的并行计算环境
MPI( Message Passing Interface)
MPICH2
 最基本的MPI,运行简单,应用广泛,效率不高
 安装路径: /opt/mpich2/gnu/bin/
openmpi
 功能强大、灵活,支持infiniband,效率高
 安装路径:/opt/openmpi/bin/
各计算节点的公共目录
/disk1 和 /disk2,容量均为8T
2015/4/9
26
平台的任务管理系统 SGE
任务管理系统:自动分配计算资源来运行用户的计算任务
Sun Grid Engine (SGE)
LSF
OpenPBS
本平台安装的是SGE
用户在进行生物信息学计算之前,需要编写SGE计算脚本
文件,通过提交脚本文件来使用计算资源。
2015/4/9
27
其他设备:bio-linux终端计算机
1. 安装了bio-linux系统,图形操作界面
2. 集成了十多种生物信息学软件,免费使用
3. 可迅速连接高性能计算系统进行大规模计算分析
BIC TMMU
2015/4/9
28
29
生物信息学平台的使用方式
使用方式
通过校园网或互联网的任意计算机远程
登录使用
前来我校基础部生命科学楼7楼本地使用
30
生物信息中心情况简介
生物信息学平台的构建
数据库检索系统的使用
高性能计算系统的使用
生物信息学分析实例
Q&A
BIC TMMU
2015/4/9
31
国际生物信息数据库的本地化过程
Internet
Bio-mirror
国际生物信
息数据库ftp
本地数据
库节点
MRS数
据库检
索系统
Http://bioinfo.tmmu.edu.cn
其他生物
信息数据库
下载元数据
Internet
构建检索系统
发布数据库
32
已经收录的数据库
Genbank
M
R
S
检
索
系
统
EMBL
Uniprot KB

20多个生物医学相关的
数据库

主要数据库每日更新

集成Blast、ClustalW、
Jmol等分析工具

可将自己的Web-Server
程序、数据库发布到互
联网
PDB
Refseq
Prosite
……
33
MRS数据库综合检索系统
Entrez = The Life Science Search Engine ----- NCBI
SRS = Sequence Retrieval System
----- EBI
MRS = Maarten’s Retrieval System
----- BIC at TMMU
Google = Thé best generic search and retrieval system
fast
free
Linux x86-64 version
2015/4/9
34
生物信息数据库的使用
3
2
1
• 登录生物信息中
心主页:
http://bioinfo.tmmu.edu.cn
•从主页进入生物
信息数据库
• 选择所需要
的数据库
• 在检索栏内
通过输入关键
词等方式检索
数据
35
36
生物信息数据库检索系统:一站式检索
37
生物信息中心情况简介
生物信息学平台的构建
数据库检索系统的使用
高性能计算系统的使用
生物信息学分析实例
Q&A
BIC TMMU
2015/4/9
38
高性能计算系统的使用
1
Linux基础知识
2
已安装生物信息学软件
3
用户使用流程
4
生物信息学实例分析
39
1、Linux基础知识
什么是Linux?
免费的类Unix操作系统,适合PC机、服务器
具有Unix的全部功能,稳定,高效,网络性能优异
以Linux为基础的不同的发行版(Distribution):
Ubuntu: 适合初学者
Debian: Ubuntu的始祖,适合系统管理员
Fedora: 适合专业开发者
Redhat/CentOS: 适合个人或企业级服务器
openSUSE:适合个人办公
40
Linux很难吗?
看起来很复杂,不知从何下手
– 实际上上手很快
Linux系统不好用
– *nux不是用来当桌面的
书太多,每本都很厚
– 推荐O’Reilly系列
41
Linux系统的主要组成
Linux的内核:内核是系统的核心,是运行程序和管理像磁盘和打
印机等硬件设备的核心程序。
Linux SHELL: Shell是系统的用户界面,提供了用户与内核进行交
互操作的一种接口。
Linux文件系统: Linux文件系统是文件存放在磁盘等存储设备上的
组织方法。Linux能支持多种文件系统,如EXT2、EXT3、FAT、
VFAT、ISO9660、NFS、SMB等。
Linux应用系统:标准的Linux系统都有一整套称为应用程序的程序
集,包括文本编辑器、编程语言、办公套件、Internet工具、数据
库等。
42
Linux命令模式下的基本操作命令
ls 或者 ll: 列出当前目录下全部文件
相当于DOS下的dir
cd : 改变当前目录至指定目录
例:[zouly@big ~]$ cd /disk1/biosoft/
mkdir: 建立文件夹
例:[zouly@big ~]$ mkdir blast-test
cp: 拷贝文件命令
例: [zouly@big ~]$ cp enzyme.dat /disk1/data/
pwd: 查看用户当前所在的路径
43
Linux命令模式下的基本操作命令
cat:查看文件内容
[zouly@big ~]$ cat 1OMB.pdb
more: 逐屏显示文件内容
vi:新建文件或编辑文件
例:[zouly@big ~]$ vi 1OMB.pdb
mv: 移动文件或目录
rm: 删除文件或目录
44
Linux下解压缩文件
全能的解压缩命令: tar
例:
tar xvfj blast2.2.21.tar.bz2
tar xvfz blast2.2.21.tar.gz
tar xvfz blast2.2.21.taz
tar xvf
blast2.2.21.tar
45
2、平台上已安装的生物信息学软件
软件类型
序列相似
性比较
多序列
比对
软件名称
软件版本
安装路径
说明
fasta
35.4.9
/opt/bio
*(系统自带)
blast
2.2.21
/disk1/biosoft
☺(后安装)
mpiblast
1.5.0
/opt/bio
并行blast *
ClustalW
2.0.12
/opt/bio
*
ClustalW-mpi
0.15
/disk1/biosoft
并行ClustalW ☺
T_coffee
8.14
/opt/bio
*
MUSCLE
4.0
/disk1/biosoft
☺
46
软件类型
全基因组
比较
基因组注
释和分析
分子进化
与系统发
生分析
软件名称
软件版本
安装路径
说明
Mauve
2.3.1
/disk1/biosoft
☺
GenomeComp
1.3
/disk1/biosoft
☺
MUMmer
3.22
/disk1/biosoft
☺
glimmer
3.0.2
/opt/bio
微生物基因预测*
EMBOSS
6.1.0
/opt/bio
综合分析包*
ncbi
6.1-4
/opt/bio
综合分析包*
phylip
3.69
/opt/bio
*
mrbayes
3.1.2
/opt/bio
*
PAML
4.4
/disk1/biosoft
☺
47
软件类型
蛋白质序
列和结构
分析
序列拼接
与分析
分子对接
软件名称
软件版本
安装路径
说明
Hmmer
2.3.2
/opt/bio
保守结构域鉴定*
DomainFinder
2.0.4
/disk1/biosoft
☺
Interproscan
4.6
/disk1/biosoft
☺
Modeller
9v9
/disk1/biosoft
Rasmol
2.7.3
/disk1/biosoft
三维结构观察☺
Tigr_Assembler
3.0.2
/opt/bio
*
CAP3
3.0
/disk1/biosoft
☺
Staden package
2.0b6
/disk1/biosoft
☺
Autodock
4.2.1
/opt/bio
*
Autodock_vina
4.3
/disk1/biosoft
☺
Dock/Dock_mpi
6.4
/disk1/biosoft
☺
蛋白质结构预测
☺
48
软件类型
分子模拟
分子网络
分析
RNA折叠
与非编码
RNA预测
其他软件
软件名称
软件版本
安装路径
说明
gromacs
4.0.5
/opt/bio
*
NAMD
2.7
/disk1/biosoft
☺
VMD
1.8.6
/disk1/biosoft
☺
osprey
1.2.0
/disk1/biosoft
分子网络构建☺
cytoscape
2.6.3
/disk1/biosoft
分子网络可视化☺
mfold
3.5
/disk1/biosoft
☺
unafold
3.8
/disk1/biosoft
☺
miranda
3.3
/disk1/biosoft
miRNA作用位点预测☺
Matlab
R2010a
/disk1/biosoft
☺
primer3
3.0
/disk1/biosoft
引物设计☺
49
如何在平台上运行一个生物软件?
安装在/opt/bio/下面的软件,登录平台后可直接运行
例如:[zouly@big ~]$ autodock4
安装在/disk1/biosoft/下的软件,SSH登录平台后,运行带
完整路径的执行程序名
例: [zouly@big ~]$ /disk1/biosoft/autodock/bin/aotudock4
上传软件到自己的目录下使用
例:上传Autodock程序到自己的目录 /disk1/zouly/Autodock
[zouly@big ~]$ ./Autodock4/autodock4
点击演示
50
如何进入本地数据库的ftp下载原始数据
生物信息数据ftp地址为 ftp://202.202.232.202
对应的计算网络内的ip为:10.1.1.103
利用Linux 自带的ftp工具进入,命令:ftp 10.1.1.103
2015/4/9
51
输入用户名: anonymous,即可登陆
使用 get 命令可以下载其中的文件到用户目录
使用 close命令关闭ftp连接
使用quit命令退出ftp程序
2015/4/9
52
3、用户使用流程介绍
用户申请帐号
SSH方式登录平台
编写计算任务的脚本
提交计算任务
计算完成, 获得结果
53
3.1 用户账号申请和使用
通过下列电子邮箱申请免费使用帐号
[email protected]
申请用户名为姓名拼音与数字的组合,如贾君鹏,可
申请用户名 jiajp 或 jiajunpeng 或 jiajp1982,等等
申请的帐号和密码将通过邮箱发送给用户
用户目录默认在 /disk1或/disk2下,如贾君鹏的
目录: /disk1/jiajp
BIC TMMU
2015/4/9
54
3.2 登录/退出平台
平台登录的IP地址:202.202.232.201
连接校园网和互联网的计算机均可登录
通过SSH方式登录平台
Windows用户推荐使用Xmanager软件包中的xshell软件来登录
Linux用户可直接通过SSH方式登录
要登录图形桌面推荐使用VNC Viewer软件进行
用户计算机与平台之间上传下载数据
推荐使用Xmanager中的xftp来进行
以上软件可到http://bioinfo.tmmu.edu.cn 下载
BIC TMMU
2015/4/9
55
使用Xmanager中的Xshell登陆平台
Xshell登陆演示
登陆后的个人用户目录位于 /disk1
如:用户zouly 登陆后,其用户目录为 /disk1/zouly
2015/4/9
56
使用Xmamager中的 xshell软件登录平台示例
BIC TMMU
2015/4/9
视频演示
57
SSH方式登录成功!
58
使用XFTP在用户和平台之间上传下载文件
BIC TMMU
2015/4/9
59
本地目录
BIC TMMU
2015/4/9
计算平台用户目录
视频演示
60
使用VNC Viewer登录图形界面的步骤
第1步:自己的电脑上安装VNC-4.0软件
第2步:SSH方式登录平台,然后运行vncserver命令,设
定vnc连接密码,确定连接端口号(图中端口号是3)
以用户zouly为例,运行vncserver命令:
61
第3步,修改用户登陆配置文件 $HOME/.vnc/xstartup
如,zouly用户修改 /disk1/zouly/.vnc/xstartup
将该文件中最后一行的
twm & 修改为 gnome-session &
第4步:启动VNC Viewer,输入202.202.232.201:端口号
2015/4/9
62
第5步: 输入连接密码, 远程图形界面登录成功
视频演示
63
第6步:退出图形化登陆,删除连接端口号
删除连接端口的命令:vncserver –kill :端口号
例如:
2015/4/9
64
3.3 编写计算任务脚本
确定需要使用哪个软件来进行计算分析
阅读该软件的使用手册,了解软件的使用方
法
根据你的计算任务,编写一个SGE计算任务
脚本文件,该文件对你需要系统进行计算的
任务进行描述。
BIC TMMU
2015/4/9
65
Example:使用clustalw-mpi进行多序列比对
问题:对来自多个菌种的traG蛋白质序列进行比对
解决思路:使用并行ClustalW程序ClustalW-mpi,对
序列进行多序列比对.
参考分析流程:
SSH登录系统
上传序列文件 traG.fasta 到自己的目录
编写SGE脚本文件,提交
分析结果
BIC TMMU
2015/4/9
66
步骤 1:上传待分析的数据 traG.fasta
通过xftp上传数据到用户工作目录 /disk1/zouly/traG
67
步骤 2:编写mpiblast的计算脚本文件
在工作目录内创建一个文件,如clustalw-mpi.qsub,内容如下
#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
export MPI_DIR=/opt/openmpi/
$MPI_DIR/bin/mpirun -np $NSLOTS
/disk1/biosoft/clustalW-mpi/clustalw-mpi-0.15/clustalwmpi -infile=traG.fasta -outfile=result.aln
68
clustalw-mpi.qsub 脚本文件内容的含义解析:
#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
公共部分,所有脚本通用
export MPI_DIR=/opt/openmpi/
$MPI_DIR/bin/mpirun
声明使用openmpi并行环境
调用mpirun进行并行计算
/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15/clustalw-mpi
-infile=traG.fasta -outfile=result.aln
使用clustalw-mpi进行序列比对的程序命令
BIC TMMU
2015/4/9
69
clustalw-mpi程序执行命令解析:
/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15/clustalw-mpi
-infile=traG.fasta -outfile=result.aln
clustalw-mpi程序的路径
-infile= 指定输入的序列文件名
-outfile= 指定保存比对结果的文件名
70
步骤3:向系统提交计算任务
将写好的脚本程序提交到系统,SGE将自动分配计算节点
开始计算
提交计算任务的命令如下:
[zouly@big traG]$ qsub -pe orte 16 clustalw-mpi.qsub
Your job 54 ("clustalw-mpi.qsub") has been submitted
提交计算任务的命令解析:
qsub
提交计算任务的命令
-pe orte 16
申请使用16 个CPU 计算核心来进行计算
clustalw-mpi.qsub 脚本文件的名称
71
步骤4:查看计算任务状态
查看任务运行状态的命令
(查看基本信息)
qstat
qstat -f (查看计算节点工作状态)
qstat -j job-ID (查看正在运行的任务的详细情况)
[zouly@big traG]$ qstat
job-ID prior name
user
state submit/start at
queue
-----------------------------------------------------------------------------------------------54 0.55500 clustalw-m zouly
BIC TMMU
2015/4/9
r
04/27/2011 15:49:46 [email protected]
72
步骤5:查看计算结果
结果保存在result.aln文件中
BIC TMMU
2015/4/9
73
使用qdel命令删除已经提交的计算任务
使用命令:qdel job-ID
例如,用户提交的计算任务ID号为60,则删除该计算任
务的方法:
[zouly@big t]$ qdel 60
2015/4/9
74
生物信息学平台使用演示
SSH 连接生物信息学平台演示
图形方式连接生物信息学平台演示
XFTP 上传下载文件
使用clustalw-mpi 进行并行计算任务提交演示
BIC TMMU
2015/4/9
75
使用平台进行生物信息学分析实例
1
使用Mauve 比对多个肠道杆菌全基因组
2
使用Modeller进行蛋白质结构建模
3
使用Gromacs进行分子动力学模拟
77
Any Question?
生物学中有着至少500年也解决不完的有趣问题。
——Donnald E. Knuth
(美国著名计算机科学家)
78
思考题
申请一个高性能计算平台账号,登录并运行一个程序
在生物信息学中心数据库系统中检索并下载某个蛋白质
家族的1000条以上的序列数据,编写计算脚本,使用高
性能计算系统进行并行多序列比对,给出比对结果
2015/4/9
79
Thank you!
Inspur
group
2015/4/9