生物信息学及其软件平台
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目功能描述(二)
用户通过网页提交检索,检索经过预处 理的核酸、蛋白质序列数据库,将结果 以图形、图像的形式,通过网页返回给 用户查看,检索后的数据应具备较高的 可用性(以图形化的方式将相应的算法 处理结果表达出来)
竞争优势
强大的计算资源
高性能计算机 并行Blast解决了Blast在单节点上的瓶颈问题 Genebank HTG Division 生物学家与计算机开发人员的紧密配合
软件
并行软件: Blast,Phrap,SW
串行
生物信息学 处理软件平台
Blast
Genscan Blocks
各种算法
并行
市场化
生物学家
项目功能描述(一)
从Genbank中提取原始数据,经过机群 系统的处理(运行各种目前流行的算法, 如Blast、GenScan、Blast等对提取的数 据进行分析),生成raw data,最后经过 文本处理程序(perl)的处理,得到xml 格式的数据。
后基因组时代
后基因组时代的挑战:
1. 蛋白组学: 序列->结构->功能 2.研究生物的生长代谢的过程和疾病的机制 3.基因组药物 ……… 生物信息学离不开高性能计算机。 并需要信息学家的参与。 急需有自主知识产权的生物信息处理软件平 台和大量高效的快速的新算法的开发及改进。
Major Application I:Designing Drugs
Genbank flatfile
流程图
用户数据
算法流水线 集群运算(曙光,PBS, …..) 数据处理,数据库管理,XML,。。。
搜索引擎 网站 WEB Server
HTML
图视化
xPBS 命令 GUI
xPBS MON 节点监控
图视化—HTG 没有Genbank注释
图视化—PRI (有Genbank注释)
现有各种生物信息学网站(公共
免费的,如NCBI, EMBL)
特点:数据多、全,并且具有权威性 缺点:1)用户太多(全世界),国内的网慢,比如
有时递交较长的序列做Blast会很长时间得 不到结果 2)数据库太大太多,使用不易 付费的,如:eBioinformatics.com, doubletwist,com,虽然使用方便,帮助用户 在网站上保留数据,服务性好,软件也好用 但是需付费,学术力量不强
Bioinformatics: 科技界一颗 耀眼的新星
在BIOINFORMATICS 没有诞生之前, 一 个新药的问世需要十年时间,数亿美元 的R&D,而BIOINFORMATICS已将这个 过程减少三分之二,R&D的费用也相应大 大减少。许多中小BIOTECH 公司也看到 了BIOINFORMATICS 的巨大作用和潜在 的商机,纷纷投资BIOINFORMATICS研 究项目。
生物信息学构架 (2)
数据结构、信息提取过程的不统一、数 据集成和标准化工作的不力是目前生物 信息学的一个问题,这个问题妨碍了信 息的交互,这一点在基因组和蛋白组学 研究中很突出。孤立的基因组和蛋白组 数据只能揭示很少的在活体细胞内的基 因/蛋白的功能信息,而一个集成的,以 系统学方法管理的生物信息学数据将为 研究者带来更广阔的视野。
美国电脑执照--高薪阶层
“BIOINFORMATICS CERTIFICATION”,这是 目前最新的一门生物化学工程与电脑技术相结 合的课程。包括“CBS”证书和“CBM”证书。 Visual Basic -- $1195 Visual C + + -- $1295 BioInformatics -- CBS, CBM $2500 MIT: Course: 20.01s Date: June 24 - 28, 2002 Tuition: $2,500
第三部分:
建立自主知识产权的生物信息 学处理软件平台
我们能做什么
时期 生物信息学的作用
我Leabharlann Baidu能做的
序列基因组 收集、存储、分析和 共享信息资源
能
功能基因组 识别基因及功能,图谱 能 蛋白质组
鉴别和分类 疾病基因预测/基因芯片 研制新药/产业化
能
治疗/研究
药物设计
能?
能??
Genbank HTG
HTG 是GenBank、DDJB及EMBL为使生物 学家更好地进行同源性对比搜寻高通量基 因组序列而作的特殊分类。占所有DNA序列 的70%以上。HTG部分包括那些通过高通 量测序中心测序产生的尚未完成的DNA序 列,有或没有注释。
blocks-算法(2)
BLOCKS
>PR00678 1/10 blocks: PI3 KINASE P85 REGULATORY SUBUNIT SIGNATURE Block Frame Location (aa) Block E-value PR00678D 0 416-434 1.6 |--- 157 amino acids---| PR00678 AAA::::::BB::::CCCC::::::DDDEEEE:::::FFFGGGG 7UP1_DROME <::::::::::::::::::::::: :: :DDD
生物信息学及其软件平台
2002年2月
庄君 中科院计算所生物信息学实验室
第一部分:
生物信息学研究需要什么?
需要什么?
a. b. c.
数据库(DNA、蛋白质序列) 各种算法(Blast, Genscan……) 这样就行了吗? ——用户(生物学研究人员)如何能 更好的使用a和b
Bioinformatics – a Definition --Oxford English Dictionary
服务器-客户式结构client-server
生物信息网络中的数据库服务广泛 采用服务器-客户式结构,这些服务器包 括为数众多的数据库搜索和序列对比服 务器以及各专业领域的服务器.
生物信息数据库种类
生物信息数据库是种类繁多。 近年来,世界各国的生物学家和计算机 科学家合作,已经开发了几百个数据库
(Molecular) bio – informatics: bioinformatics is conceptualising biology in terms of molecules (in the sense of Physical chemistry) and applying “informatics techniques” (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular biology and has many practical applications.
Java (2)
Java迫使你更加系统化,必须进行程序构 架规划。而且它还能帮助你避免通常的 编码错误。” 有人说, Java 很慢. 真的吗?
第二部分:
我国生物信息学
现状及问题
1.我国已有强大的DNA测序中心: 华大,北方,南方,.. 但我们需要运算速度远比现在计算速度 快的机器或方法. 2.生物信息学处理系统处于初级规模.有一 些Genbank,EMBL,GCG的镜象. (1).没有自己的完善的系统 (2).没有大量新算法的开发 3.后基因组: 科研单位及制药工业并未完 全吸收利用生物信息学的工具.
Major Application III: Overall Genome Characterization
Overall Occurrence of a Certain Feature in the Genome
e.g. how many kinases in Yeast
Compare Organisms and Tissues
Understanding How Structures Bind Other Molecules (Function) Designing Inhibitors Docking, Structure Modeling
Major Application II: Finding Homologs
高性能算法的支持
我们对生物信息领域深刻的理解
社会效益和经济效益
社会效益
具有我国自主知识产权的生物信息处理软件平台
1、提供个人数据和服务 2、为客户的特殊要求度身定做数据或处理系统 3、新算法的开发
生物信息学处理软件平台版本 1.0
1。 目前只注释人类的Genome数据库 a.预测基因结构 b.预测蛋白编码基因 2。目前数据库最重要来源是GenBank序列。 未完成注释的HTG序列70%,已部分完成注释的PRI序列 30%. 我们的平台包括: a.通过一个庞大的算法流水线(pipeline)来 加工,和注释未完成(或已完成)的基因组的DNA序列. b. 数据库格式化: XML 技术. c.通过搜索引擎在网络上实现可用性。 d. 数据图视化 及 用户服务。
CIF:生物信息学构架
Corporate Information Factory(CIF)是一个 支援企业级的信息系统构架结构。生物信息学 是在生物研究中信息系统的应用。CIF正是一 个从不同的源头来集成生物信息学数据,数据 库中管理这些信息,并将这些信息递交专家系 统进行处理的一个完整的体系,数据集成、数 据标准化、数据完整准确性是CIF的特点。当 这些运作起来之后,CIF提供了一个企业级管 理生物信息数据的方法。
Bioinformatics and XML
XML因其将数据信息本身的存储与关联与 表现形式相分离,强大的可扩展性,本 身层次清晰的树形结构特性以及跨平台、 跨语言的特性而成为良好网际语言,并 在各种数据和存取工作中大显神通。生 物信息学的发展同样引入了XML技术。
JAVA
Java是一种跨平台的编程语言 在基于JAVA语言开发的网上序列查询和 类比排列系统上,科学家们可通过视图 方式对已知DNA、蛋白质结构、基因结构 及科学家们提交的序列进行比较,分析 出有意义的信息,包括新基因的发现, 重复序列的测定,调控基因的确定,完 整基因的分析等等。
项目目标(生物信息学处理软件平台)
开发一个可以使用Genscan,Blast,Blocks 等分析GeneBank的基因组数据并可以通 过Web界面进行查询的原型系统 不断完善,添加算法和更新数据,最终可 以通过提供数据和服务来获取社会效益 和经济效益
后基因组学数据 计算生物学模型/算法
各种序列: DNA,Protein
未来的图视化
第四部分:
基因组分析的算法的现状和发展 问题
Algorithms—已有算法(1)
我们的分析使用算法:(已完成的)
a. GENSCAN-预测exons(外显子),introns (内显子)和Promotor(起 动子)... 预测可用作替换拼接形式的基因 b. BLOCKS-预测出蛋白质的结构: motifs(模式)和domains(域)。 c. BLASTx-预测蛋白质的功能和相似性的家族。
Expression levels in Cancerous vs Normal Tissues
Databases, Statistics
proteomics data
Proteomics tools
Identification and characterization DNA -> Protein Similarity searches Pattern and profile searches Post-translational modification prediction Primary structure analysis Secondary structure prediction Tertiary structure Transmembrane regions detection Alignment