计算机在生物学中的应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
六 数据库目录 1 核酸研究(每年第一期是数据库专集) : / 2 NAR (核酸研究数据库总汇) : /nar/databse/ 3 DBcat (法国生物信息中心): biogen.fr/services/dbcat/ 4 nature(介绍基因组测序进展的新闻): www.nature/genomics
生物信息学(bioinformatics):利用计算机 技术并参照现代信息技术,对生物信息进行储 存、检索和综合分析。及一是对海量数据的收 集、整理与服务。二是使用数据。 生物信息学是把DNA序列分析作为源头,找 到基因组序列中代表蛋白质和mRNA的编码 区;同时,阐明基因组中大量存在的非编码区 的信息实质,破译隐藏在DNA序列中的遗传语 言规律;在此基础上,归纳、整理与基因组遗 传信息释放及其调控相关的转录谱和蛋白质谱 的数据,从而认识代谢、发育、分化、进化的 规律。
重要的生物信息中心:
ห้องสมุดไป่ตู้
1 美国国家生物技术信息中心(NCBI) /
(管理着包括GenBank在内的一批数据 库) 2 欧洲生物信息学研究所(EBI) / (主网页,可链接到其他项 目)
(各种数据库和分析工具)
生物学发展的展望—W. Gilbert (80年诺 贝尔化学奖)91年专门在“nature”撰文讨论 生物学研究形式的变化: 正在兴起的新的范式在于,所有的‘基因’ 将被知晓(在可用电子方式从数据库里读取 的意义上),今后生物学研究项目的起点将 是理论的。一位科学家将从理论猜测开始, 然后才转向实验去继续或检验该假设。 新的范式:从机理出发,推论在一定条件 下细胞的表现,再用实验去验证。 现代,生物学已分为两个部分:
计算机辅助工具的运用
一 Excel的功能: 表格处理;图表功能;数据库管理功能。 1 图表制作 建立图表,激活和修改图表项。 2 计算 引用:相对引用(=(a1-b1)/c1*d1) 绝对引用($ a$1-$b$1)/$c$1*$d$1 ) 函数:chitest(检验相关性);slope(斜率); intercept(截距)。 二 化学做图: ISIS DRAW2的应用 下载软件:/
AgDB(农业数据库和信息资源总清单): /agdb/ PharmGKB( 药物遗传学和药物基因组学): / GBIF(全球生物多样性信息机构): /linkfram.htm
四 模式生物数据库 模式生物:
人(Homo sapiens); 小鼠(Mus musculus); 大肠杆菌(Escherichia coli); 酿酒酵母(Saccharomyces cerevisiae); 果蝇(Drosophila melanogaster):遗传; 秀丽线虫(Caenorhabitedis elegans):只有约 千个细胞的动物,研究RNAi的模式生物; 海胆(Strongylocentrotus purpuratus):研究 发育和基因调控的模式生物; 拟南芥(Arabidopsis thaliana):生活周期6周 的十字花科植物,研究植物的模式生物。
二级核酸序列数据库 CUTG:密码子使用频度表 www.dna.affrc.go.jp/~nakamura/CUTG.html EPD:真核生物启动子数据库 www.epd.isb-sib.ch/ OOTFD:转录因子和基因表达数据库 / RepBase:真核生物DNA中重复序列数据库 www.firinst.orf/~server/repbase.html MPDB:外显子和内含子数据库 www.biotech.ist.unige.it/interlab/mpdb.html
计算机在生命科学和生物技术 中的应用
计算机是生物研究的工具。为了了解计算 机工具在生物研究中的应用,首先需要了解 生物研究的现状。 基因决定论 由于DNA双螺旋结构的发现,基因决定论 成为主要观点。人们尝试寻找决定生物功能 的基因,但是受到挫折。
一是由于美国能源部用30多年研究“核辐射 对人类基因突变作用”,未取得实质性突破 进展,受害者已表现 出明显的突变性状,但 检测不出其基因突变与对照组存在显著性差 异。 二是美国于1975年巨额投资启动的“肿瘤十 年计划”基本以失败告终。 R. Dulbecco 于1986在science上发表《癌症 研究的转折点:测序人类基因组》,认为要 彻底阐明癌症的发生、演进、侵袭和转移的 机制,必须对人体细胞的基因组进行全测序。 美国政府与1990年正式启动HGP。
基因组学 由于基因组是物种所有遗传信息的储藏 库,从根本上决定着物种个体的发育和生 理,因此,在研究遗传、发育、进化、功能 调控等基本生物学问题方面,基因组学关注 的是基因组整体的作用,而不是个别基因。 功能基因组学(后基因组学)的中心任务是 通过了解基因组表达与环境的关系,以及其 在基本生物学方面和人类健康和疾病相关的 生物医学问题方面的意义。 后基因组学 转录组学:关注mRNA的组成和细胞功能的 关系。
基因决定论2?一是由于美国能源部用30多年研究核辐射对人类基因突变作用未取得实质性突破进展受害者已表现出明显的突变性状但检测不出其基因突变与对照组存在显著性差检测不出其基因突变与对照组存在显著性差异
Excel计算和作图;序列数据应用于试验室技术改良(8); 第一章、生物信息数据库(12) 第二章、数据库检索(25) 第三章、序列比对(30) 一 序列比对策略(31);二 算法 (34) ;三 序列双重比对(42) ;四 多序列比对(47)。 第四章 在系统发生分析中的应用(51) 第五章、生物信息学在基因组构建中的应用;一 基因的识别和 鉴定(62)二 蛋白质功能的预测(73) ;三 蛋白质结构预 测(78) ;四 基因组中非编码区的研究(96) ;五 人类基 因组多样性计划(102) 。 第六章、计算机在其他方面的应用(107);药物开发(110)。 第七章、生物信息学在组学中的应用;一 基因组学研究(119); 二 功能基因组研究(128) ;三 蛋白质组研究(137) ;四 蛋白质的功能确定(140);五 代谢组(142);六 网络研究 (145);七 细胞计划(157) 。 第八章、生物医学信息资源(160)
三 专门研究的数据库 HGMD(可用于预测基因疾病): /medical_genetics/research/ hgmd/ PDD(人类体液中蛋白质与疾病关系): /pdd/ HIV(爱滋病分子免疫学): /immunology/immunomain.html WIT(重构代谢) :/wit2/ CSNDB(细胞信号网络):geo.nihs.go.jp/csndb/
蛋白质组学:其中心任务是通过比较不同时间 或不同细胞的蛋白质组成,以揭示蛋白质变化 的生物学意义。 结构基因组学:了解蛋白质三维结构与蛋白质 功能的关系。 蛋白质相互作用网络:了解蛋白质相互作用。 代谢组学:其中心任务是通过比较不同时间或 不同细胞的小分子组成,揭示生物学意义。 系统生物学:以一个理论模式为基础,与基因 组学和蛋白质组学的表现进行比较,判断生物 在分子水平上复杂的相互作用。
1 各种生物信息中心 2 大肠杆菌K12完全基因组序列: /pub/ 3 MYGD(酵母基因组\蛋白质和同源关系数据库) www.mips.biochem.mpg.de/proj/yeast/ 4 BDGP(果蝇基因组中心): /
生物信息学基本方法: 1 数据库信息检索; 2 用序列比对(alignment,对位排列)方法进 行数据库序列检索; 3 网络分析,计算机模拟。
问题:你对生物信息学的认识
第一章 生物信息数据库
生物信息数据库分类保存各种生物信息, 为大家提供计算机分析的基本材料。例文献 数据库、序列数据库。
一 信息中心:维护和提供数据库服务。 主要工作:在分子水平上应用数学和计算 科学的方法研究基础生物、医学问题;为科 学和医学界开发、维护和分享一系列的生物 信息学数据库;开发和促进生物信息学数据 库、数据存储、交换以及生物学命名规则的 标准化。
(A) PIR-PSD:序列来自于GenBank/EMBL/
DDBJ的编码序列的翻译、文献中的和用户
直接提交的序列。目前最大的公共蛋白质序列 数据库。衍生出iProClass(描述蛋白质家族 的关系及结构/功能特征),还有PIR-NREF , PIR-ASDB,IESA,PIR-NRL3D,RESID, PIR-ALN等其他辅助数据库。 /pirwww/ (B)SWISS-PROT/TrEMBL:经注释的蛋白 质数据库。每个条目包括蛋白质序列、引用文 献、分类学信息、注释等。注释包括蛋白质功 能、转录后修饰位点、特殊位点和区域、二级 结构、四级结构、与其他序列的形式性、序列 残缺与疾病的关系、序列变异体等信息。 /swissprot/
生物信息学
背景:
1 数据分析技术的发展:1962年Zuckerkandl和 Pauling将序列变异分析与其演化关系联系起 来,开辟了分子演化的研究领域;1964年 Davies开创了蛋白质结构预测研究;1970年 Needoeman和Wunsch发表了两序列比较算 法;1974年Ratner运用理论方法对分子遗传调 控系统进行分析;1975年Pipas和McMahon用 计算机技术预测二级结构。1976年后生物学数 据分析技术大量涌现。 2 人类基因组计划产生了大量基因信息(图0)
(公众服务网页)
3 日本核酸数据库(DDBJ): www.ddbj.nig.ac.jp/ 4 北京大学生物信息中心 (CBI或PKUCBI,是 EMBnet的中国节点,也是APBionet的中国 节点) /
二 序列数据库
1 一级数据库:记录实验结果和初步的解释 2 二级数据库:从一级数据库提取的信息构建 的数据库 一级核酸序列数据库: (A)GenBank: /genband/ (B)EMBL(欧洲分子生物学实验室的DNA 和RNA数据库): /
试验生物学:传统的、依靠实践发现事物的 性质和活动规律的学科。 研究对象是组成生 物体的元件。研究手段是物质分离和检测技 术。当前主要在于建立高通量检测技术。 理论生物学:根据事物已知性质和活动规律 推导其可能性质和活动规律的学科。 研究对 象是生物体整体。研究手段是逻辑分析和推 导。 计算机作为生物研究的工具,在前期生物学 研究工作中作为计算和存储工具起辅助作用。 在当前生物学研究工作中作为数据处理工具。 数据处理是高通量检测技术和理论生物学 研究的主要方法。产生生物信息学。
(C)DDBJ(日本核酸数据库): www.ddbj.nig.ac.jp/ 翻译编码的DNA序列(根据ORF,数据库 中搜索) (D)GeneBuilder: r.it/~webgene/genebuilder.html
(E)上海生命科学中心:/ 一级蛋白质序列数据库:
五 其他数据库 1 PubMed:生物医学文献数据库
2 OMIM(Online Mendelian inheritance in Man):保存所有已知的人类生物学和疾病信 息的数据库
3 GeneCard:/ 保存注释过(定性)基因的数据库 4 LocusLink:同3