生物信息学高性能计算系统使用介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1
2
3
超大规模的数据处理 • 基因组测序序列:
5×1020量级 • 蛋白质折叠计算:
3×1023 量级 • 药物设计
平均筛选10000种 化合物以上才能得到 一种新药
超大计算规模的算法 • 分子动力学模拟
• 分子相互作网络 • 分子进化分析 • 蛋白质结构模拟 •……
多用户同时的计算 需求
• 一个和尚、两个和
30
生物信息中心情况简介 生物信息学平台的构建 数据库检索系统的使用 高性能计算系统的使用 生物信息学分析实例 Q&A
BIC TMMU 2021/4/10
31
国际生物信息数据库的本地化过程
Bio-mirror 国国国国国 国 国 国 国 ftp
国国国国 国国国国国
Internet
Internet
http://bioinfo.tmmu.edu.cn
万兆网络交换机
数据库系统 高性能服务器
高性能计算系统
刀片式服务器集 群(Cluster)
存储系统 磁盘存储阵列
12
生物信息学平台硬件与软件系统
Our Platform
Hardware
浪潮天梭高性 能服务器集群 (cluster)
Software
Linux系统: • Rocks cluster • CentOS • RedHat AS 4
集成生物 信息学软
件包
Rocks Cluster
18
Rocks Cluster 5.4 的主要功能模块
Biblioteka Baidu
Rocks Roll
1. Base roll
基本功能 模块
2. Kernel
RedHat Linux内核
3. OS
操作系统 组件
4. SGE
SUN Grid Engine 分布 式任务管理
系统
5. bio
例: [zouly@big ~]$ cp enzyme.dat /disk1/data/
pwd: 查看用户当前所在的路径
43
Linux命令模式下的基本操作命令
cat:查看文件内容
[zouly@big ~]$ cat 1OMB.pdb
more: 逐屏显示文件内容 vi:新建文件或编辑文件
例:[zouly@big ~]$ vi 1OMB.pdb
13
What is Cluster(集群)?
多台计算机通过高速网络连成一个并行计算系统
System1 CPUs
System2 CPUs
System3 CPUs
Memory Bus
... Chipset Memory
I/O Bus
Memory Bus
Memory Bus
... Chipset Memory
----- BIC at TMMU
Google = Thébest generic search and retrieval system
fast
free
Linux x86-64 version
2021/4/10
34
生物信息数据库的使用
1
• 登录生物信息中 心主页:
http://bioinfo.tmmu.edu.cn
极多的高质量文档 免费^_^ !
24
各节点的主机名称及IP地址
管理节点
主机名称:big.hpc.org; IP地址:202.202.232.201
计算节点(26台刀片式服务器)
compute-0-0~compute-0-9 compute-1-0~compute-1-9 compute-2-0~compute-2-5
3
生物信息中心情况简介 生物信息学平台的构建 数据库检索系统的使用 高性能计算系统的使用 生物信息学分析实例 Q&A
BIC TMMU 2021/4/10
4
第三军医大学生物信息中心简介
职能
建设并开放生物信息学平台供校内外用户使用 提供生物信息学分析服务 开展生物信息学教学和研究
联系方式
第三军医大学基础部生命科学楼七楼 网站: http://bioinfo.tmmu.edu.cn 邮箱:bioinfo_tmmu@126.com
第三军医大学生物信息学高 性能计算平台的构建与使用
2021/4/10
生物信息中心 邹凌云 lyzou@tmmu.edu.cn
Tel: 68771932
2
提纲
生物信息中心情况简介 生物信息学平台的构建 数据库检索系统的使用 高性能计算系统的使用 生物信息学分析实例 Q&A
BIC TMMU 2021/4/10
42
Linux命令模式下的基本操作命令
ls 或者 ll: 列出当前目录下全部文件
相当于DOS下的dir
cd : 改变当前目录至指定目录
例:[zouly@big ~]$ cd /disk1/biosoft/
mkdir: 建立文件夹
例:[zouly@big ~]$ mkdir blast-test
cp: 拷贝文件命令
mv: 移动文件或目录 rm: 删除文件或目录
44
Linux下解压缩文件
全能的解压缩命令: tar 例:
tar xvfj blast2.2.21.tar.bz2 tar xvfz blast2.2.21.tar.gz tar xvfz blast2.2.21.taz tar xvf blast2.2.21.tar
Ubuntu: 适合初学者 Debian: Ubuntu的始祖,适合系统管理员 Fedora: 适合专业开发者 Redhat/CentOS: 适合个人或企业级服务器 openSUSE:适合个人办公
40
Linux很难吗?
看起来很复杂,不知从何下手
– 实际上上手很快
Linux系统不好用
– *nux不是用来当桌面的
Chipset Memory
I/O Bus
I/O Bus
LAN SAN
LAN SAN
LAN SAN
System Area Network
Local Area Network
BIC TMMU 2021/4/10
14
Why cluster?
容易扩展 从几十个节点到几万个节点 容易并行 并行计算的最优选择之一
容易维护 单个节点的故障不影响整体
BIC TMMU 2021/4/10
15
Why cluster?
BIC TMMU 2021/4/10
16
Dawning Nebulae
Roadrunner
Jaguar
天河1号
17
What is Rocks Cluster?
一种免费 集群操作
系统
基于 CentOS Linux
Biosoft Package
2021/4/10
19
生物信息学平台拓扑结构图
26个刀片式计算节点
用户
用 户
One Computer!
21
生物信息学平台计算机群
数据库节点
➢ 双路Intel 至强5450处理器 2.83GHZ
➢ 8个核心,32G 内存
其他节点
➢ 8核、16G 内存
存储系统
➢ 30个1 TB硬盘的存储阵列
38
高性能计算系统的使用
1
Linux基础知识
2
已安装生物信息学软件
3
用户使用流程
4
生物信息学实例分析
39
1、Linux基础知识 什么是Linux?
免费的类Unix操作系统,适合PC机、服务器 具有Unix的全部功能,稳定,高效,网络性能优异 以Linux为基础的不同的发行版(Distribution):
尚、三个和尚…
BIC TMMU 2021/4/10
10
我们的已经完成的工作
1. 将多个重要的生物信息数据库 快速获取各种分子生
本地化安装
物信息数据
2. 建立了一个高性能计算系统
满足各种生物信息 学分析的HPC
3. 将平台接入校园网/互联网
随时从网络接入提交 计算任务来分析数据
11
生物信息学平台的架构
国国国国 国国国
MRS国
国国国
国国国
Http://bioinfo.tmmu.edu.cn
下载元数据
构建检索系统
发布数据库
32
已经收录的数据库
Genbank
EMBL
M
R
Uniprot KB
S

PDB


Refseq

Prosite
……
20多个生物医学相关的 数据库
主要数据库每日更新 集成Blast、ClustalW、
2021/4/10
8
Bioinformatics: What do we need?
What do we need?
对分子生物信息数据能够 快速获取的平台
满足各种生物信息学分析所 需的大规模计算能力的平台
从互联网快速接入服务器并 进行生物信息学分析的平台
9
Why High Performance Computing(HPC)?
平台 操作环境
• 终端计算机
bio-linux 6.0 2G RAM 32位
23
为什么选择Unix/Linux来构建平台?
科学研究的通用平台 90%以上的科学软件在Unix/Linux下开发 多数生物信息学软件只有Unix/Linux版本
数量庞大的各种小工具 Sed, awk, vi, emacs, diff, cvs, etc…
Jmol等分析工具 可将自己的Web-Server
程序、数据库发布到互 联网
33
MRS数据库综合检索系统
Entrez = The Life Science Search Engine ----- NCBI
SRS = Sequence Retrieval System
----- EBI
MRS = Maarten’s Retrieval System
各计算节点的公共目录 /disk1 和 /disk2,容量均为8T
2021/4/10
26
平台的任务管理系统 SGE
任务管理系统:自动分配计算资源来运行用户的计算任务
Sun Grid Engine (SGE) LSF OpenPBS
本平台安装的是SGE 用户在进行生物信息学计算之前,需要编写SGE计算脚本 文件,通过提交脚本文件来使用计算资源。
书太多,每本都很厚 – 推荐O’Reilly系列
41
Linux系统的主要组成
Linux的内核:内核是系统的核心,是运行程序和管理像磁盘和打 印机等硬件设备的核心程序。 Linux SHELL: Shell是系统的用户界面,提供了用户与内核进行交 互操作的一种接口。 Linux文件系统: Linux文件系统是文件存放在磁盘等存储设备上的 组织方法。Linux能支持多种文件系统,如EXT2、EXT3、FAT、 VFAT、ISO9660、NFS、SMB等。 Linux应用系统:标准的Linux系统都有一整套称为应用程序的程序 集,包括文本编辑器、编程语言、办公套件、Internet工具、数据 库等。
性能指标:
208个计算核心 2万亿次/秒 峰值运算速度
22
以Rocks Cluster为核心的Linux操作环境
• 管理节点
Rocks cluster 5.4 16G 内存 64位
• 数据库节点
CentOS 5.4 32G 内存
64位
• 计算节点
Rocks cluster 5.4 16G 内存 64位
2021/4/10
27
其他设备:bio-linux终端计算机
1. 安装了bio-linux系统,图形操作界面 2. 集成了十多种生物信息学软件,免费使用 3. 可迅速连接高性能计算系统进行大规模计算分析
BIC TMMU 2021/4/10
28
29
生物信息学平台的使用方式
使用方式 通过校园网或互联网的任意计算机远程登录 使用 前来我校基础部生命科学楼7楼本地使用
数据库节点:
主机名:database;IP地址:202.202.232.202 访问域名:http://bioinfo.tmmu.edu.cn
BIC TMMU 2021/4/10
25
平台的并行计算环境
MPI( Message Passing Interface) MPICH2 最基本的MPI,运行简单,应用广泛,效率不高 安装路径: /opt/mpich2/gnu/bin/ openmpi 功能强大、灵活,支持infiniband,效率高 安装路径:/opt/openmpi/bin/
5
专家、教授、研究人员
专家教授
胡福泉 易东 饶贤才 谭银玲 许雪青
主要负责人、教学与研究人员
邹凌云 倪青山 朱军民 伍亚舟
6
生物信息中心情况简介 生物信息学平台的构建 数据库检索系统的使用 高性能计算系统的使用 生物信息学分析实例 Q&A
BIC TMMU 2021/4/10
7
Why Bioinformatics?
•从主页进入生物 信息数据库
2
• 选择所需要 的数据库
3
• 在检索栏内 通过输入关键 词等方式检索 数据
35
36
生物信息数据库检索系统:一站式检索
37
生物信息中心情况简介 生物信息学平台的构建 数据库检索系统的使用 高性能计算系统的使用 生物信息学分析实例 Q&A
BIC TMMU 2021/4/10
45
2、平台上已安装的生物信息学软件
软件类型 软件名称
序列相似 性比较
相关文档
最新文档