第三讲-生物催化剂的基因数据挖掘

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Nucleic Acids Research Database Issue http://nar.oupjournals.org/ (First issue every year)
2010-07-14
1.1 基因组数据挖掘方法
What is bioinformatics?
什么是生物信息学?
生物信息学利用应用数学、信息学、统计学和计算机科学的 方法研究生物学的问题。目前的生物信息学基本上只是分子 生物学与信息技术(尤其是因特网技术)的结合体。生物信 息学的研究材料和结果就是各种各样的生物学数据,其研究 工具是计算机,研究方法包括对生物学数据的搜索(收集和 筛选)、处理(编辑、整理、管理和显示)及利用(计算、 模拟)。目前主要的研究方向有:序列比对,基因识别,基 因重组,蛋白质结构预测,基因表达,蛋白质反应的预测, 以及建立进化论的模型。
• Protein Folding prediction – PredictProtein, SwissModeler
序列比对分析 (BLAST)
1.通过序列比对工具BLAST学习 ,了解蛋白编码基因的功能注 释原理
2.介绍多序列联配工具ClustalX
序列比对的进化基础
• 序列比对的目的:
– 从核酸以及氨基酸的层次去分析序列的相同点 和不同点,以推测他们的结构、功能以及进化 上的联系
Directed evolution methodologies
Bioinformatics
Pre 1970s
1970s
1980s
1990s
Now
生物催化工程的发展前沿与现状
Natural enzymes Structure-guided protein engineering
Directed evolution methodologies
• 酶在工业应用上的局限:
量少:许多酶在野生状态下表达量较低; 娇嫩:酶容易失活 底物的溶解性和耐受性:天然的酶并非为工业生产而 生! 整细胞实际上是多酶体系 如何升级改进?
• 有了基因,可以?
– 从基因本质上改善酶的性质 – 大量重组表达 – 还可以研究:结构与功能的关系、进化……
2010-07-14
EBI (http://www.ebi.ac.uk/)
• SRS database interface
– EMBL, SwissProt, and many more
• Mwenku.baidu.comny server-based tools
– ClustalW, DALI, …
NCBI (The National Center for Biotechnology Information; http://www.ncbi.nlm.nih.gov/
1.1基因数据库资源
基因组计划项目的迅猛增加
截止至2008年8月20日,已完成全基因组测序的细胞生物有1909种,
正在进行的基因组计划还有11456种。 ——http://www.genomesonline.org
As of 15 April 2011), GenBank release 183.0 has 135,440,924 loci, 126,551,501,141 bases, from 135,440,924 reported sequences
SwissProt (http://expasy.cbr.nrc.ca/sprot/)
• Curation!!! – Error rate in the information is greatly reduced in comparison to most other databases.
• Extensive cross-linking to other data sources • SwissProt is the ‘gold-standard’ by which other
(Model) Organism specific information: Yeast: http://genomewww.stanford.edu/Saccharomyces / Arabidopis: http://www.tair.org/ Mouse: http://www.jax.org/ Fruitfly: http://www.fruitfly.org/ Nematode: http://www.wormbase.org/
• TIGR (The Institute for Genomics Research)(基因研究院) – http://www.tigr.org/
• Celera – http://www.celera.com/
克雷格·文特尔生于1946年10月 14日,美国颇具传奇色彩的生 物学家和创业家。文特尔在测 量人类基因组工程中发挥了关 键作用并创建了基因研究院( The Institute for Genomic Research)。2007年他被评为 时代杂志最有影响力的100人之 一5。
Protein Database
tBLASTn
BLASTn BLASTx tBLASTx
Translated
Nucleotide Database
Nucleotide Database
Translated
Translated
Protein Database
Nucleotide Database
The different versions of BLAST
– 通过判断两个序列之间的相似性来判定两者是 否具有同源性
• 相似性:直接的数量关系,如:序列之间相似部分 的百分比
• 同源性:质的判断,两个基因在进化上是否曾有共 同祖先的推断
选择物种 选择blast程序
QuerySequence
AminoacidSequence
DNASequence
BLASTp
databases can be measured, and is the best place to start if you have a specific protein to investigate
A few more resources to be
aware of
• Human Genome Working Draft(人类基因组) – http://genome.ucsc.edu/
• Gene finding – Genscan, GenomeScan, GeneMark, GRAIL
• Protein Domain analysis and identification – pfam, BLOCKS, ProDom,
• Pattern Identification/Characterization – Gibbs Sampler, AlignACE, MEME
GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C
3’端到5’端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始:
• 某一物种基因组数据库的挖掘
• 综合数聚库的挖掘 • 基于特定功能的基因数据挖掘 • 基于特定酶特定结构域的基因数据挖掘
• 关键在于什么?
1.3 酶基因数据挖掘案例
环氧水解酶的基因组数据挖掘
➢ Recently, several research groups including Swapandeep Singh Chimnia (India), Dick B. Janssen (The Netherlands), Sung Gyun Kang (Korea), Qing Zhu (China) etc have shown great interest in Bacillus sp. EHs and have achieved some improvements.
Five websites that all biologists should know
• NCBI (The National Center for Biotechnology Information; – http://www.ncbi.nlm.nih.gov/
• EBI (The European Bioinformatics Institute) – http://www.ebi.ac.uk/
下载页面: ftp://ftp.ebi.ac.uk/pub/software/clustalw2
欧洲生物学中心(EBI)还提供了Clustal W的网上运行服务( http://www.ebi.ac.uk/clustalw)
·
下载ClustalX
各种参数设定
目标序列
Jalview 结果下载
酶基因数据挖掘的策略
序列或目标序列的GI号 以文件格式上传
选择数据库
与核酸相关的数据库 与蛋白质相关的数据库
BlastP
进行比对的数据库 图形化结果
E值(E-value)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越 接近零,发生这一事件的可能性越小。
ClustalW/X的运行
• 本地运行
– 命令行操作的Clustal W(linux & windows) – 窗口化操作的ClustalX(windows)
• DDBJ (DNA Data Bank of Japan) – http://www.ddbj.nig.ac.jp
• SwissProt/ExPASy (Swiss Bioinformatics Resource) – http://expasy.cbr.nrc.ca/sprot/
• PDB (The Protein Databank) – http://www.rcsb.org/PDB/
Pre 1970s
1970s
1980s
1990s
Bioinformatics
Now
生物催化剂的发现:从挖土到挖基因!
Gene
传统生物催化剂的开发周期太长 生物催化剂在细胞中的含量太低
后基因组时代网上公开的基因组 序列中包含海量的新酶基因信息
快速获得大量可用于工业生产的生物催化剂成为可能!
为什么要做酶的基因克隆?
• 基本局部比对搜索工具(Basic Local Alignment Search Tool)
• NCBI上BLAST服务的网址: http://www.ncbi.nlm.nih.gov/blast/
• NCBI的BLAST程序及数据库下载网址: ftp://ftp.ncbi.nlm.nih.gov/blast
2011.09
生物催化剂的基因数据挖掘
李春秀 许 建 和 生物反应器工程国家重点实验室
生物催化研究室
• 1 基因数据挖掘 2 宏基因组技术
• 1 基因数据挖掘 • 1.1 基因组数据库 • 1.2 基因组数据的挖掘方法 • 1.3 酶基因数据挖掘案例
生物催化工程的发展前沿与现状
Natural enzymes Structure-guided protein engineering
Examples of Bioinformatics
• Database interfaces – Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, …
• Sequence alignment – BLAST, FASTA
• Multiple sequence alignment – Clustal, MultAlin, DiAlign
以Blastx为例:
目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC
6个读码框翻译
5’端到3’端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始:
CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始:
GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T
BlastN
相关文档
最新文档