基因组研究功能基因分析ppt课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

68
SWISS-MODEL • SWISS-MODEL: 网址/ • 非专业人士应用最为广泛的一个在线建模服务器。 • 特点：简单、自动化、对学术团队免费。
Automated mode:自动模式，可以称为是最傻瓜的方式提交自己的氨基酸序列+邮箱即可适用：一致性较高时
等电点，分子量预测工具
52
53
/protscale/
54
TGREASE疏水性参数
• 高正值的氨基酸具有更大的疏水性而低负值的氨基酸具有更强的亲水性
55
56
蛋白质跨膜区预测(TMHMM)
http://www.cbs.dtu.dk/services/TMHMM/
现代生物学实验技术
基因组学研究——功能基因分析
1 1
要求：
1.掌握常用的序列比对工具 2.能构建进化树 3.能够预测蛋白质的二级结构、疏水区、跨膜区等 4.能够进行简单的同源建模分析 5.了解KEGG数据库的检索
2
序列比对——BLAST应用
3
生物序列的同源性
同源性(homology)：指从一些数据中推断出的两个基因或蛋白质序列具有共
DNA 序列
蛋白质序列
转录&翻译
蛋白质结构
折叠
• 氨基酸序列只有折叠成特定的空间结构才具有相应的活性和相应的生物学功能
43
为什么要研究蛋白质结构? • 生物体中许多重要的功能由蛋白质完成 • 分析蛋白质结构、功能及其关系是蛋白质组计
划中的一个重要组成部分 • 分析蛋白质结构有助于药物设计研究 • 有助于了解蛋白质相互作用，这对于生物学、
医学和药学都是非常重要
44
蛋白质二级结构 • α-helix (30-35%)
α-螺旋 • β-sheet / β-strand (20-25%)
β-折叠 • Coil (40-50%) 无规则卷曲 • Loop 环 • β-turn β-转角
45
蛋白质3D 结构
转角或卷曲
α螺旋
Β折叠
环或转角
46
• 人工创建了一个知识库，这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。
• 与其他数据库相比，KEGG 的一个显著特点就是具有强大的图形功能，它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系，这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。
15
16
17
基因名
来源物种
一致程度，登录号
18
18
下载序列
所选序列
19
Cluster比对
20
Clustalx的工作界面（多序列比对模式）
21
Clustal的工作原理
Clustal输入多个序列
快速的序列两两比对，计算序列间的距离，获得一个距离矩阵。邻接法(NJ)构建一个树
根据进化树，渐进比对多个序列。
33
多序列联配后结果
34
以.meg格式保存结果
35
回到MEGA主窗口打开所保存的文件（.meg）
36
点击按钮打开文件窗口
37
显示保守位点显示变异位点
38
回到MEGA主窗口构建进化树
选择邻接法建树
当前打开的文件
39
选择Bootstrap检验
40
41
蛋白质二级结构预测
42
蛋白质结构为什么如此重要的？
从头预测法(Ab initio/de novo methods) 根据序列本身来从头预测蛋白质结构
67
同源建模基本原理： 1、一个蛋白质的结构由其氨基酸序列唯一的
决定。由一级结构，在理论上，足以获取其二级、三级结构。
2、三级结构的保守型远远大于一级结构的保守型。应用限制：模板蛋白和目标蛋白的序列一致性需要大于30%
同祖先的结论，属于质的判断。 A和B的关系上，是同源序列，或者非同源序列两种关系。而说A和B的同源性为80％都是不科学的。相似性(similarity)：是指一种直接的数量关系，如部分相同或相似的百分比或其它一些合适的度量。比如说，A序列和B序列的相似性是 80％，或者4/5。
序列间相似性越高，它们是同源序列的可能性就更高
75
76
77
78
甲硫醇
4-甲氧基-2-氧丁酸
79
某物质的特定代谢途径
双击可以查到酶或基因的序列信息描述
80
实验材料：
实验内容
根据导师给定的或实验室相关课题，选择一种酶或基因，
• PSIPRED – /psipred/
• NNPREDICT – /~nomi/nnpredict.html
• Chou and Fassman – /fasta_www/chofas.htm
22
Clustalx的输出结果
• .aln格式文件 – 这个文件是默认输出，可以转换成各种格式，而且很多软件都支持这种格式。
• .dnd格式文件 – 引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树 – 不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应，因此应该用.aln格式文件专门做进化分析。
7
组装的基因组序列库所有的 BLAST基因数据库基本blast
特定的BLAST
核酸数据库中比对核酸序列
蛋白质数据库中比对蛋白质序列
蛋白质数据库中比对核酸序列
蛋白质数据库中比对核酸序列
核酸数据库中比对蛋白质序列
8
8
Fasta格式文件
9
• 什么是fasta格式？怎么建立？ • 新建一个txt文本文件，命名如: bph.txt • Fasta的格式： >序列名称序列
24
第一步：输入序列文件。
25
26
27
建议用treeview 打开outtree，然后可以编辑
28
29
建树软件-mega
30
建树软件-mega
31
MEGA5可以识别fasta 格式文件将
17-RNASE1.fasta.txt
重命名为
17-RNASE1.fasta
32
ClustalW参数设置
• 3D预测是必须的，因为： – DNA 序列蛋白质序列空间结构
64
65
66
蛋白质结构预测方法：同源建模法(Comparative homology modeling)
依据蛋白序列与已经结构蛋白比对信息构建3D模型
折叠识别法(Threading fold recognition) 寻找与未知蛋白最合适的模板，进行序列与结构比对，最终建立结构模型
Blastx 核酸 Tblastn 蛋白质 TBlastx 核酸
蛋白质核酸核酸
在蛋白质数据库中比对待检的核酸序列（用所有6种可读框翻译）
在核酸数据库（用所有6种可读框翻译）中比对待检的蛋白质序列
在核酸数据库（用所有6种可读框翻译）中比对待检的核酸序列（也用所有6种可读框翻译）
6
1.登陆blast主页 /BLAST/
57
58
59
信号肽分析
60
SignalP软件2.0版（http://www.cbs.dtu.dk/services/SignalP-2.0/）对信号肽分析。
61
信号肽的作用一般是帮助蛋白质穿膜用的,跟蛋白质的细胞定位有关系。
62
蛋白质三维结构预测
同源建模
63
• 3D预测是可能的，因为： – 序列信息决定三级结构 – 序列相似性 (>30%)倾向于结构相似性
我们在获得一个Blast结果时需要看这两个指标。
如果Blast获得的目标序列的Score值越高并且E-value越低表明结果越可信，反之越不可信.
5
主要的BLAST程序（功能）
程序名查询序列数据库
搜索方法
Blastn 核酸
核酸在核酸数据库中比对核酸序列
Blastp 蛋白质蛋白质在蛋白质数据库中比对蛋白质序列
14
14
以下列蛋白序列为例，进行BLAST搜索： >P1 MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNT ASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDG KMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTR NPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPG SSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKK SAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDY KHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKD NVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAAD MDDFSRQLQNSMSGASADSTQA
4
Blast程序评价序列相似性的两个数据
Score：使用打分矩阵对匹配的片段进行打分，这是对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高,则Score值越大。
E value:在相同长度的情况下，两个氨基酸残基（或碱基）随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
46
/www-jpred/
47
JPred预测结果
α螺旋
β折叠
48
二级结构预测网站
• PHD – /predictprotein/
• JPRED – /~www-jpred/
10
11
1.序列信息部分
序列范围（默认全部）
选择搜索数据库
填入查询（query）的序列
如果接受其他参数默认设置，点击开始搜索
12
12
去冗余GenBank编码序列PDB + SwissProt + PIR + PRF
13
13
Pdb Nr GenBank EST STS Htgs GSS Yeast E.coli Mito Alu Swissprot
常用的检索数据库
拥有三维空间结构的原子坐标的氨基酸序列库蛋白数据库 Expressed sequence tags，表达序列标签数据库 sequence tagged sites，序列标签位点数据库 high throughput genomic sequences，高通量基因组序列 genome survey sequences，基因组测定序列酵母基因组中基因编码的全套蛋白基因组序列搜集了灵长类动物的Alu重复序列蛋白质数据库
23
多序列比对实例
输入文件的格式(fasta)：
不留空格
>KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……
49
预测蛋白质的理化性质
50
部分预测工具
• Compute pI/Mw(ExPASy) – 计算蛋白序列的等电点和分子量
• TGREASE – 计算蛋白质序列疏水性工具
• TMHMM – 蛋白质跨膜区预测
• More… – /tools/
51
/compute_pi/
69
70
邮箱模型命名氨基酸序列
71
72
KEGG数据库
73
http://www.genome.jp/kegg/
74
特点
• KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是 KEGG数据库的特色之一。