生物信息学及常用工具简介
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中心研究方向
基因组注释 芯片数据分析
与实验室密切相关 的研究和支持
为蛋白质组学研究提供 生物信息学支持
应用医学生物 信息学
基于本体论的数据仓库系统 基因组 转录组 蛋白质组 代谢组
主要内容
多序列联配(Alignment)和进化树分析 PCR引物及芯片探针的设计 使用软件在数据库中检索、收集、整理文献 BLAST应用简介 序列片段的拼接 基因注释:编码蛋白区域的预测 NCBI的数据库 代谢途径分析数据库(KEGG) 蛋白质分析数据库(uniprot) 比较基因组的方法 目标基因的分析流程
/outorder=order /tree /newtree=tree
♦ 蛋白质结构与功能预测
序列数据选取
1. 生物实验中获取或收集的相关基因或蛋白序列 2. 利用NCBI Entrez,SRS(Sequence Retrieve System)获 取序列 3. 利用同源搜索工具BLAST,从公共数据库中搜索与自身 相关序列
▼ Jackknife
不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
▼ Permute
其目的与Bootstrap和Jackknife法不同,不常用。
为什么树不一致?
1、 数据选取不充分 2、基因或蛋白质序列选择 3、测序中序列错误 4、分析方法的选择
PHYLIP
PHYLIP ( Phylogeny Inference Package )(Joseph Felsenstein等,1986-1995)由华盛顿大学遗传系开发,1980 年首次公布,免费共享,包括35个独立程序,目前的版本是3.6。 下载地址: ftp:///pub/phylip/ 标准C语言开发,有Windows、 Macintosh,Linux/UNIX等版 本。 Windows: phylipw3.6source.exe、 phylipwx3.6executables.exe,
PHYLIP对序列的程序流程
protpars PHYLIP格式 多序列对位排列 蛋白质序列
seqboot
proml或 promlk protdist
DNA序列 clustalw 多序列联配
二
距离数据 dnapars或 dnapenny dnaml或 dnamlk dnadist
选取待分析的 DNA或蛋白序列 (blast、Entrez)
从关系最紧密的两个序列开始,以系统树示出的关系为指导,逐步放入临近的序列或 序列簇,并重新构建比对,直到所有的序列被加入,最后产生一个多重排列
CLUSTALW说明
♦ 输入序列必须是一个单一文件,对蛋白质序列比对,可以选择相应的氨 基酸置换矩阵,如BLOSUM62,PAM250矩阵等
♦ 输入数据格式:NBRF/PIR, EMBL/SWISSPROT, Pearson (FASTA), GDE,
♦ 尽量使待比对的序列长度相当
CLUSTALW功能
♦ 数据格式转化:clustalw.exe /convert /infile=sequence /output=format /outfile=output
♦ 多序列联配和进化树:clustalw.exe /infile=sequence /outfile=output /output=
为什么要做进化分析?
● 揭示物种之间的进化关系 需选择合适的基因或DNA序列来进行进化分析,这些基因或DNA序列需 有足够但不是太多的变异,比如分析线粒体序列揭示灵长类进化关系 ● 分析基因家族以及追溯特定基因的进化历史 某些物种的基因和已知物种基因关系很近,可以确定他们应该有相同的
功能。在一类物种中追溯某一基因的进化史,可推断出一个基因组中基 因长期留存以及物种间基因水平转移
format /outorder=order /align /newtree=tree
♦ profile对profile的比较:clustalw.exe /profile1=profile1 /profile2=profile2
/output=format /outfile=output /align
多序列比较 (Multiple Sequence Alignment) ♦ 对两个以上DNA, RNA或蛋白质序列作比较
♦ 计算复杂度远大于两序列比较
♦ 用于序列保守区域分析、序列相似性和进化分析
为什么做多序列比较?
▼ 可揭示一组相关序列对间的相似性 ▼ 获得进化过程中保守序列所表现出的功能motif信息 ▼ 可用来确定序列对间的变异位点 ▼ 可基于特殊区域设计特异性引物或探针 ▼ 有助于预测新的序列所具有的结构与功能 ▼ 可生成相应格式的输出文件(如:phylip)
距离矩阵分析: Fitch,kitsch,neighbor
基因频率分析: Gendist,contml 离散字符分析 Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factor 进化树绘制软件: drawtree,drawgram,retree 其他分析软件: dnamove, dnainvar, dnacomp, restdist,restml,seqboot,contrast ,treedist,consense
Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Research, 22:4673-4680.
自然和选择性突变
自然突变发生不影响蛋白质产物; 编码(codon)的第三个位置密码子 变化将不改变相应的氨基酸产物。 同义突变(Synonymous mutations) 选择性突变发生将影响蛋白质产物; 编码的第一和第二位置密码子变化 将改变相应的氨基酸产物 非同义突变(Non-synonymous mutations)
PHYLIP功能
i) DNA和蛋白质序列数据分析的软件 Ii) 序列数据转变成距离,对距离数据分析的软件 Iii)对基因频率和连续的元素分析的软件 Iv)把序列的每个碱基/氨基酸以0,1独立看待 V)按照DOLLO简约性算法对序列进行分析的软件 Vi)绘制和修改进化树的软件
PHYLIP程序介绍
分子序列分析: 蛋白质序列:protpars,proml,promlk,protdist 核酸序列:dnapenny,dnapars,dnaml,dnamlk,dnadist,
同源性(Homology)
同源性特性
相似的特性源自于一个共同祖先,同源性不能被观察.
同源性是基于相似性观察而得出的一个结论
同源性 & 相似性关系
• 同源性是质的关系. • 相似性是量的关系
直系同源与旁系同源
直系同源(orthologs): 同源的基 因是由于共同的祖先基因进化 而产生的.
旁系同源(paralogs): 同源的基 因是由于基因 复制产生的.
进化分析要点
▼ 待分析数据类型
a) 字符数据 b) 分子序列 c) 序列间距离
▼ 计算方法选择
简约法( parsimony )、距离法( distance )、最大似然法(maximum likelihood)等.
▼ 有根 数& 无根树 有无选择外类群 ▼ 有权重和无权重树
CLUSTALW算法
Step 1. 简单的两序列比对和距离矩阵计算
对所有序列做两序列比较,并对关系密切序列加权,比对得分构建距离矩阵
n:n条序列 比对次数:n(n-1)/2 Step 2. 邻接法(Neighbor-Joining)构建系统树
基于两序列比对距离矩阵,用邻接法计算系统树
Step 3. 累进排列,依据系统树进行多重排列
MSA
DIALIGN DCA MultAlin PILEUP HMMER MACAW
权重给出不同两个类之间的进化距离关系
系统发育树构建方法 最大简约法 (Maximum Parsimony, MP) 距离矩阵法 (Distance Matrix) 最大似然法 (Maximum Likelihood, ML)
构建进化树方法流程
选择相关序 列集,可为 DNA、 RNA或蛋白 质
多序列联 配或手工 处理获得 多序列对 位排列
一
FITCH
KITSCH
neighbor consense
drawtree、drawgram、retree、TreeView
树文件
多序列联配程序
CLUSTALW或 CLUSTALX T-COFFEE ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW/ ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX/ /software/TCoffee.htm l
CLUSTALW
CLUSTALW, 免费共享软件,基于动态规划算法对DNA或蛋白质序列作全局比对,生成 具有生物学意义的多序列排列、并构建亲缘关系树。
下载地址:ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW/ 有Windows XP, Macintosh, Linux/UNIX等版本
phylipwy3.6executables.exe
Felsenstein, J. 1993. PHYLIP (Phylogeny Inference Package) version 3.5c. Distributeቤተ መጻሕፍቲ ባይዱ by the author. Department of Genetics, University of Washington, Seattle 1993.
判断序列是 否具有 显著相似性 否
是 最大简约法
部分序列是 否具相似性 否 最大似然法
是 距离法
分析数据是否 支持预测模型
进化树评估
▼ 自展法(Bootstrap, Felsenstein 1985)
从整个序列的核苷酸(氨基酸)中任意选取一半,剩下的一半序列随机补齐组 成一个新的序列,(一般采样大小为500 - 1000)。
多序列联配与进化分析 及分析软件介绍
序列比对?
序列比对是生物信息学中重要的序列分析方法 通过序列同源性的比较进而了解基因的进化以及 生物系统发生的内在规律
序列比较类型
两序列比较 (Pairwise Alignment ) ♦ 对两个DNA, RNA或蛋白质序列作比较
♦ 用于序列同源搜索,功能分析等
生物信息学及常用工具简介
上海生物信息技术研究中心
简介
1.
上海生物信息技术研究中心(以下简称中 心)成立于2002年7月;
2. 中心是上海市科学技术委员会直属的从事 生命科学数据共享管理、生物信息技术研 究、产品开发和成果转化的独立事业法人 单位。
3. 中心主任为国家“863”计划生物信息技术 主题专家组组长、国家中长期战略规划科 技条件平台专题组副组长、中国科学院 “十一五”信息化专家组专家李亦学研究 员
♦ profile和序列间比对:clustalw.exe /profile1=profile /profile2=sequence
/sequence /outfile=output /output=format /outorder=order
♦ 系统发育树:clustalw.exe /infile=sequence /outfile=output /output=format
CLUSTAL(*.aln), GCG/MSF(Pileup), GCG9/RSF 等7种 忽略空格, 数字, 标点符号, “-” 表示gap(在GCG/MSF中用“.”)
♦ 输出格式:GCG/MSF, GDE, PHYLIP, CLUSTAL or NBRF/PIR 等5种 ♦ 有时需编辑序列,去除冗余信息 比如:从染色体序列中提取感兴趣的基因区域