生物信息学作业二(二)

合集下载

生物信息学-课堂练习作业生物信息学蛋白质序列分析-课堂练习

生物信息学-课堂练习作业生物信息学蛋白质序列分析-课堂练习

生物信息学蛋白质序列分析-课堂练习ZNF395, 全称为Zinc Finger Protein395, 又被称为PBF ,PRF1,DBP2,PRF-1,Si-1-8-14或DKFZp434K1210。

其氨基酸序列为(一)分析蛋白质的一级结构ZNF395蛋白的理论等电点为7.17,分子式C 2417H 3775N 679O 741S 23,原子总数为7635,总平均亲水性(GRA VY )为-0.451,脂肪指数64.54,不稳定指数69.57,序列N 末端是M (Met ),估计半衰期是:30小时(哺乳动物网状细胞,离体);>20小时(酵母,体内);>10小时(大肠杆菌,体内)。

在编码的513个氨基酸中,包括48个带负电的氨基酸(天冬氨酸+谷氨酸),33个带正电荷的氨基酸(精氨酸+赖氨酸)。

依据氨基酸分值越低亲水性越强,分值越高疏水性越强的规律,用Expasy 网络服务器的ProtScale Server 在线工具对该氨基酸序列的亲水性/疏水性进行预测,预测结果如图1,分值在-2.800—1.967之间,且绝大部分氨基酸分值为负,故推测该蛋白应为亲水性蛋白。

图1 ZNF395氨基酸序列的亲水性/疏水性分析(二)分析蛋白质的二级结构利用SOPMA在线工具对二级结构进行预测,如图2,α螺旋99个占19.30%,延伸链66个占12.87%,β-转角18个占3.51%,无规卷曲330个占64.33%,其二级结构主要由无规卷曲组成。

图2 ZNF395蛋白二级结构预测注:蓝色表示α螺旋;红色表示延伸链;紫色表示无规则卷曲(三)分析膜蛋白质利用在线分析工具TMHMM Server 2.0,对ZNF395氨基酸跨膜结构域进行在线预测和分析,结果表明,该序列编码的蛋白非跨膜蛋白(见图3)。

利用Signal P 3.0 Server在线预测工具对ZNF395蛋白质进行信号肽预测,无信号肽存在(图4)。

生物信息学课后习题

生物信息学课后习题

绪论1、生物信息学的概念及其组成部分生物信息学(Bioinformatics):是一门交叉学科,包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学的三个组成部分:①建立可以存放和管理大量生物信息学数据的数据库②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具③使用这些工具去分析和解释不同类型的生物学数据2、生物信息学的主要研究领域①生物数据的建立与搜索②序列比较与相似性搜索③基因组结构注释④蛋白质结构与功能的预测⑤基因组数据分析⑥比较基因组合系统发生遗传学分析⑦功能基因组和蛋白质组学数据分析⑧信号传导、代谢和基因调节途径的构建与描述3、初级数据库二级数据库的概念说出几个数据并说明包含什么数据一级数据库(primary database):数据直接来源于实验获得原始数据,只经过简单的归类、整理和注释。

例如GenBank、EMBL、DDBJ、SWISSPORT、PDB二级数据库(secondary database):在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来,是对生物学知识和信息的进一步整理。

例如human genome databases GDB转录因子数据库等4、简述核酸序列的测序①DNA测序一般原理DNA测序一般采用全自动的荧光标记链终止反应完成,该法利用了DNA聚合酶能从脱氧核糖核苷酸(dNTP)延伸但不能从双脱氧核糖核苷酸(ddNTP)延伸的特性,通过加入限量的荧光标记过的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段,然后通过聚丙烯酰胺凝胶电泳(PAGE)分离并通过扫描仪读取序列(300-800bp)②基因组测序策略—分而治之---shortgun因为测序反应每次只能测300-800bp故先将基因组分割成一定大小的片段,然后对这些片段分别测序,测完后再将这些片段拼接起来—鸟枪法(shortgun)③一次性测序例如:表达序列标签(EST)是其中的代表,它对随机挑选的cDNA克隆进行两端一次测序得到300-500bp的片段,代表cDNA的一部分。

生物信息学作业(一)

生物信息学作业(一)

生物信息学实验作业一1、了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。

答:(1)、NCBI: (National Center of Biotechnology Information,简称NCBI)美国国立生物技术信息中心。

其主页为:。

NCBI 是在NIH的国立医学图书馆(NLM)的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。

他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。

这些问题包括基因的组织,序列的分析,和结构的预测。

在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。

NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。

同美国专利和商标局的安排使得专利的序列信息也被整合。

BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。

所有的NCBI数据库和软件工具可以从WWW 或FTP来获得。

NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。

主要任务:(1)建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统(2)实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究(3)加速生物技术研究者和医药治疗人员对数据库和软件的使用。

生物信息学课程作业

生物信息学课程作业

生物信息学作业1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results.ANSWER:(1)Use Needle to Align the two sequence:Aligned_sequences: 2# 1: CAA38024.1# 2: NP_001157488.1# Matrix: EBLOSUM62# Gap_penalty: 10.0# Extend_penalty: 0.5# Length: 203# Identity: 43/203 (21.2%)# Similarity: 58/203 (28.6%)# Gaps: 90/203 (44.3%)# Score: 30.0(2)Use Water to Align the two sequence:Aligned_sequences: 2# 1: CAA38024.1# 2: NP_001157488.1# Matrix: EBLOSUM62# Gap_penalty: 14# Extend_penalty: 4# Length: 32# Identity: 11/32 (34.4%)# Similarity: 15/32 (46.9%)# Gaps: 0/32 ( 0.0%)# Score: 35两种软件虽然使用同一罚分标准但得分不同。

因为Needle程序实现标准pairwise全局比对,而Water则是局部比对。

全局比对因为是比对全长序列,所以空位罚分多,得分较局部比对低。

2. Evaluate the significance of the local protein alignment score of question 1 with PRSS and interpret the result.参数如下:Statistics: (shuffled [200]) MLE statistics: Lambda= 0.1886; K=0.0575statistics sampled from 1 (1) to 200 sequencesParameters: VT160 matrix (16:-7), open/ext: -12/-2在两个不同网站选不同矩阵均未得到E值,原因可能是两条序列的同源性很低。

生物信息学作业

生物信息学作业

结论一:这是什么基因1.该基因为人的CD226 抗原分子(CD226),染色体定位18号染色体67624232 -67530192基因标识符:NM_006566.22.功能:细胞粘附功能,整合素结合,蛋白结合,蛋白激酶结合;参与细胞粘合,细胞识别,细胞因子产生,正向调控Fc受体介导的刺激性信号通路,正向调控免疫球蛋白介导的免疫反应,正向调控肥大细胞的活化正向调控NK细胞介导的细胞毒性,正向调控NK细胞介导的针对肿瘤细胞靶标的细胞毒活性,调节免疫反应,信号转导等途径。

结论二:编码的蛋白质序列是怎样的蛋白标识符:"NP_006557.2" 336 aa蛋白序列为:MDYPTLLLAL LHVYRALCEE VLWHTSVPFA ENMSLECVYP SMGILTQVEWFKIGTQQDSI AIFSPTHGMV IRKPYAERVY FLNSTMASNN MTLFFRNASE DDVGYYSCSL YTYPQGTWQK VIQVVQSDSF EAAVPSNSHI VSEPGKNVTL TCQPQMTWPV QAVRWEKIQP RQIDLLTYCN LVHGRNFTSK FPRQIVSNCS HGRWSVIVIP DVTVSDSGLY RCYLQASAGE NETFVMRLTV AEGKTDNQYT LFVAGGTVLL LLFVISITTI IVIFLNRRRR RERRDLFTES WDTQKAPNNY RSPISTSQPT NQSMDDTRED IYVNYPTFSR RPKTRV结论三:有没有功能保守的结构序列?该蛋白有Ig的保守结构序列结论四;:它的功能是?功能:细胞黏附相关受体,淋巴细胞信号转导,CTL和NK介导的细胞毒性和淋巴因子分泌亚单元结构:与PVR和PVRL2相互作用亚细胞定位:细胞膜,Ⅰ类信号传播膜蛋白组织特异性:外周血T细胞表达序列:包含2个Ig-like C2型(免疫球蛋白样)结构域结论五:在真核生物中保守吗?在酵母中不存在其同源物,在一些灵长类动物存在一些同源性较高的序列,在其他的哺乳动物如:褐家鼠,野猪等中也存在一些同源性较高的序列。

生物信息学_复习题及答案(打印)(1)

生物信息学_复习题及答案(打印)(1)

生物信息学_复习题及答案(打印)(1)一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

生物信息学测试题

生物信息学测试题

生物信息学测试题1. 1以下哪一个是mRNA条目序列号() [单选题]2. 如果你需要查询文献信息,下列哪个数据库是你最佳选择() [单选题]3. EMBL的含义是() [单选题]4. accession number的含义是() [单选题]5. 5以下关于PubMed的描述错误的是() [单选题]6. NCBI的含义是() [单选题]7. 7GenBank中分类码PLN表示是() [单选题]8. PIR是() [单选题]9. 1以下数据库不能用于检索核酸序列的是() [单选题]10. 蛋白质结构数据库常保存为下面哪一种格式为后缀的文件() [单选题]11. 进行多序列对比常使用哪种软件() [单选题]12. 对于蛋白质同源结构模建,通常要求待模建序列与模板序列一致性超过()[单选题]13. 5人类基因组大小大约是多少Mb() [单选题]14. 如果有一段DNA序列,它可能编码多少种蛋白质序列() [单选题]15. UTR的含义是() [单选题]16. 如果你需要查询文献信息,下列哪个数据库是你最佳选择() [单选题]17. 给定一段核酸序列,可通过什么方法查找上面蛋白质编码区() [单选题]18. 构建进化树最直接的错误来源是() [单选题]19. 1初级序列数据库 [填空题]_________________________________(答案:undefined) 20. 2,OMIM是 [填空题]_________________________________(答案:undefined) 21. 1常用的序列搜索方法 [填空题]_________________________________(答案:undefined) 22. 2人类基因组计划完成的四张图是 [填空题]_________________________________(答案:undefined) 23. 3系统发育树的构建方法 [填空题]_________________________________(答案:undefined) 24. 4系统发育树的两个特征是 [填空题]_________________________________(答案:undefined) 25. 5初级序列数据库是 [填空题]_________________________________(答案:undefined) 26. 6蛋白质二级结构的三种状态 [填空题]_________________________________(答案:undefined)。

生物信息学作业

生物信息学作业

B7家族成员生物信息学分析作业
T细胞最适活化除了需要TCR传导的第一信号外,还需共刺激分子传导的第二信号。

其中研究最多、最清楚、认为最有意义的共刺激分子是B7-1和B7-2分子,它们与受体CD28分子或CTLA-4分子相互作用,在T细胞生长、分化和死亡中起重要作用。

在寻找B7-1和B7-2的同源分子过程中,最近发现了B7家族的新成员B7H1(B7 homolog 1)、B7H2(B7 homolog 2)、B7H3(B7 homolog 3)和B7H4(B7 homolog 4)分子。

作业要求对B7家族的这几个成员进行了生物信息学分析(主要包括:人源、鼠源B7家族成员基因cDNA序列之间、氨基酸序列之间的同源性比较及发生树分析、蛋白质结构分析、三级结构预测等),并对扩增和检测B7H4基因进行了引物和探针设计。

B7家族人源、鼠源等自己从相关数据库获得的、相关生物信息学分析越多加分。

作业提供了B7家族人源、鼠源的相关序列文件。

数据获得、利用软件分析、思路等需要文字说明和截图说明,不详细的扣分。

作业在开学第一周交,即2月28日之前。

发到jiabinxj@。

生物信息学习题

生物信息学习题

GTATCACACG ACTCAGCGCA GCATTTGCCC
GTATCACATA GCTCAGCGCA GCATTTGCCC
6、对于下列距离矩阵,用 UPGMA 构建系统发生树。
ABCDE
A0
B3 0
C6 5 0
D 9 9 10 0
E 12 11 13 9 0 7、对下面距离矩阵,用 UPGMA 法构建系统发生树
1、蛋白质得分矩阵类型有 、
、、

等。
2、对位排列主要有局部比对和 三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上,将第二条序列放在 y
坐标轴上。 TGAACTCCCTCAGATATTA CGAACCCTCACATATTAGCG
2、对两个核酸序列 ACACACTA 和 AGCACACA 进行全局比对
第八章 后基因组时代的生物信息学(问题与练习)
1、 比较生物还原论与生物综合论的异同 2、 简述“后基因组生物信息学”的基本研究思路 3、 后基因组生物信息学的主要挑战是什么? 4、 功能基因组系统学的基本特征是什么? 5、 说明后基因组生物信息学对信息流动的最新理解 6、 列举几种预测蛋白质-蛋白质相互作用的理论方法 7、 解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、 解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、 解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
正确的树的可能性比前一种情况大还是小?
5、对于下列 5 条序列的比对构造一个距离矩阵,其中序列之间的距离值为比对中失配的碱
基数目,但是颠换的权值为转换的两倍。
GTGCTGCACG GCTCAGTATA GCATTTACCC

生物信息学作业2

生物信息学作业2

生物信息学实验三1.了解什么是BLAST,它有哪些应用。

BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。

BLAST还能发现具有缺口的能比对上的序列。

2.请在NCBI中查找你感兴趣的某一基因或蛋白,通过BLAST工具检索与其高度相似的序列,并将你查到的这一基因或蛋白与你检索到的与其相似的序列(其中一条)的比对结果列出来,简单说明序列比对评分和检索过程。

Homo sapiens coagulation factor VIII, procoagulant component(F8), transcript variant 1, mRNA Length=9048Score = 398 bits (212), Expect = 1e-108Identities = 214/215 (99%), Gaps = 0/215 (0%)Strand=Plus/PlusQuery 15 GGAGCTGAATATGATGATCAGACCAGTCAAAGGGAGAAAGAAGATGATAAAGTCTTCCCT 74||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 559 GGAGCTGAATATGATGATCAGACCAGTCAAAGGGAGAAAGAAGATGATAAAGTCTTCCCT 618Query 75 GGTGGAAGCCATACATATGTCAGGCAGGTCCTGAAAGAGAATGGTCCAATGGCCTCTGAC 134||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||Sbjct 619 GGTGGAAGCCATACATATGTCTGGCAGGTCCTGAAAGAGAATGGTCCAATGGCCTCTGAC 678Query 135 CCACTGTGCCTTACCTACTCATATCTTTCTCATGTGGACCTGGTAAAAGACTTGAATTCA 194||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 679 CCACTGTGCCTTACCTACTCATATCTTTCTCATGTGGACCTGGTAAAAGACTTGAATTCA 738Query 195 GGCCTCATTGGAGCCCTACTAGTATGTAGAGAAGG 229|||||||||||||||||||||||||||||||||||Sbjct 739 GGCCTCATTGGAGCCCTACTAGTATGTAGAGAAGG 773Homo sapiens chromosome X genomic contig, GRCh37.p5 Primary AssemblyLength=6178498Score = 451 bits (240), Expect = 2e-124Identities = 242/243 (99%), Gaps = 0/243 (0%)Strand=Plus/MinusQuery 1 TTCTTCCTGCTATAGGAGCTGAATATGATGATCAGACCAGTCAAAGGGAGAAAGAAGATG 60||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 5139376 TTCTTCCTGCTATAGGAGCTGAATATGATGATCAGACCAGTCAAAGGGAGAAAGAAGATG 5139317Query 61 ATAAAGTCTTCCCTGGTGGAAGCCATACATATGTCAGGCAGGTCCTGAAAGAGAATGGTC 120||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||Sbjct 5139316 ATAAAGTCTTCCCTGGTGGAAGCCATACATATGTCTGGCAGGTCCTGAAAGAGAATGGTC 5139257Query 121 CAATGGCCTCTGACCCACTGTGCCTTACCTACTCATATCTTTCTCATGTGGACCTGGTAA 180||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 5139256 CAATGGCCTCTGACCCACTGTGCCTTACCTACTCATATCTTTCTCATGTGGACCTGGTAA 5139197Query 181 AAGACTTGAATTCAGGCCTCATTGGAGCCCTACTAGTATGTAGAGAAGGTAAGTGTATGA 240||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 5139196 AAGACTTGAATTCAGGCCTCATTGGAGCCCTACTAGTATGTAGAGAAGGTAAGTGTATGA 5139137Query 241 AAG 243|||Sbjct 5139136 AAG 5139134Homo sapiens chromosome X genomic contig, alternate assemblyHuRef SCAF_1103279188170, whole genome shotgun sequence Length=869535Score = 451 bits (240), Expect = 2e-124Identities = 242/243 (99%), Gaps = 0/243 (0%)Strand=Plus/MinusQuery 1 TTCTTCCTGCTATAGGAGCTGAATATGATGATCAGACCAGTCAAAGGGAGAAAGAAGATG 60||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 406733 TTCTTCCTGCTATAGGAGCTGAATATGATGATCAGACCAGTCAAAGGGAGAAAGAAGATG 406674Query 61 ATAAAGTCTTCCCTGGTGGAAGCCATACATATGTCAGGCAGGTCCTGAAAGAGAATGGTC 120||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||Sbjct 406673 ATAAAGTCTTCCCTGGTGGAAGCCATACATATGTCTGGCAGGTCCTGAAAGAGAATGGTC 406614Query 121 CAATGGCCTCTGACCCACTGTGCCTTACCTACTCATATCTTTCTCATGTGGACCTGGTAA 180||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 406613 CAATGGCCTCTGACCCACTGTGCCTTACCTACTCATATCTTTCTCATGTGGACCTGGTAA 406554Query 181 AAGACTTGAATTCAGGCCTCATTGGAGCCCTACTAGTATGTAGAGAAGGTAAGTGTATGA 240||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct 406553 AAGACTTGAATTCAGGCCTCATTGGAGCCCTACTAGTATGTAGAGAAGGTAAGTGTATGA 406494Query 241 AAG 243|||Sbjct 406493 AAG 4064911)于NCBI下载一条序列(FASTA格式)2)在BLAST中载入该序列文件3)调节各参数4)点击BLAST进行比对3.理解BLAST不同参数的含义,以及如何调整和适用情况。

《生物信息学》练习题剖析

《生物信息学》练习题剖析

《⽣物信息学》练习题剖析1、在Genbank中查找以下6个植物蛋⽩序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。

(1)⽤EBI上的ClustalW2⼯具对其进⾏多序列⽐对,分析各蛋⽩序列之间的同源性。

序列⽐对结果⽐对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。

(2)利⽤Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。

1.将蛋⽩序列保存为FASTA格式,存于txt⽂档;2.⽤Clustalx打开txt⽂本,保存为*.phy⽂件;3.⽤seqboot程序打开phy⽂件,输出结果⽂件*_seqboot4.⽤protdist程序打开*_seqboot⽂件,输出为*_protdist⽂件5. ⽤neighbor程序打开*_protdist⽂件,输出为*_neighbor⽂件6. ⽤consense程序打开*_neighbor⽂件,输出为*_consense⽂件7.⽤dratree程序打开*_consense⽂件得到进化树。

(注:由于seqboot软见⽆法正常运⾏,因此进化树⽆法显⽰)(3)任意选取其中的⼀个蛋⽩进⾏蛋⽩质⼀级序列分析、⼆级结构预测及三维结构的模拟。

选择protein3: NP_190855.1⼀级结构⽹址:/doc/37d58381b04e852458fb770bf78a6529647d350c.html /tools/protparam.html Number of amino acids: 456 氨基酸数⽬Molecular weight: 51154.5 相对分⼦质量Theoretical pI: 8.69 理论 pI 值Amino acid composition 氨基酸组成Ala (A) 30 6.6%Arg (R) 28 6.1%Asn (N) 15 3.3%Asp (D) 27 5.9%Cys (C) 5 1.1%Gln (Q) 18 3.9%Glu (E) 28 6.1%Gly (G) 37 8.1%His (H) 16 3.5%Ile (I) 16 3.5%Leu (L) 42 9.2%Lys (K) 32 7.0%Met (M) 5 1.1%Phe (F) 17 3.7%Pro (P) 16 3.5%Ser (S) 46 10.1%Thr (T) 21 4.6%Trp (W) 8 1.8%Tyr (Y) 19 4.2%Val (V) 30 6.6%Pyl (O) 0 0.0%Sec (U) 0 0.0%(B) 0 0.0%(Z) 0 0.0%(X) 0 0.0%正/负电荷残基数Total number of negatively charged residues (Asp + Glu): 55Total number of positively charged residues (Arg + Lys): 60Atomic composition: 原⼦组成Carbon C 2270Hydrogen H 3531Nitrogen N 645Oxygen O 686Sulfur S 10Formula: C2270H3531N645O686S10 分⼦式Total number of atoms: 7142 总原⼦数Extinction coefficients: 消光系数Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.Ext. coefficient 72560Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reducedEstimated half-life: 半衰期The N-terminal of the sequence considered is M (Met).The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).>20 hours (yeast, in vivo).>10 hours (Escherichia coli, in vivo).Instability index: 不稳定系数The instability index (II) is computed to be 48.99This classifies the protein as unstable.Aliphatic index: 75.26 脂肪系数Grand average of hydropathicity (GRAVY): -0.554 总平均亲⽔性/doc/37d58381b04e852458fb770bf78a6529647d350c.html /tools/protscale.html蛋⽩质亲疏⽔性分析所⽤氨基酸标度信息Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490分析所⽤参数信息Weights for window positions 1,..,9, using linear weight variation model:1 2 3 4 5 6 7 8 91.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:⼆级结构预测三级结构预测⽹站/doc/37d58381b04e852458fb770bf78a6529647d350c.html /~phyre2、在拟南芥基因组数据库中(/doc/37d58381b04e852458fb770bf78a6529647d350c.html /)查找编号分别为At4G33050, At3G13600,At3G52870或At2G26190基因,针对所查找的基因进⾏初步的⽣物信息学分析(每⼈任选其中⼀个基因)。

生物信息学课后题及答案

生物信息学课后题及答案

生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。

Celera公司加入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。

2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。

2004,人类基因组完成图公布。

生物信息学作业题

生物信息学作业题

生物信息学作业题生物信息学作业题绪论1.什么是生物信息学?2.生物信息学有哪些主要研究领域?第一章生物信息学的分子生物学基础1.DNA的双螺旋结构要点是什么?2.什么是基因组和蛋白质组?对它们的研究有何意义?第二章生物信息学的计算机基础1.简述网络操作系统的类型。

第三章核酸序列分析1.什么是全局比对?2.什么是局部比对?有哪些优点?第四章分子进化分析1.分子进化分析具有哪些优点?2. 简述分子进化的中性学说。

第五章基因组分析1. 什么是基因组学?其主要研究内容是什么?2.简述基因预测分析的一般步骤。

第六章蛋白质组分析1. 蛋白质组学的概念和主要研究的大致方向是什么?2. 蛋白质组功能预测的程序是怎样的?第七章生物芯片数据分析1. 什么是生物芯片?2. 生物芯片有哪些方面的应用?第八章核酸与蛋白质结构预测1. RNA二级结构典型的预测方法有哪些?2. 基于统计学的预测蛋白质二级结构的方法有哪些?第九章生物信息学平台与工具软件1. 请利用Clustal X软件对下列6条蛋白质序列进行多重比对(比对结果用BioEdit软件打开,用“截图”方式显示比对结果)。

>1mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk>2mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl>3mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk>4mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl>5mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk>6mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl2. 现有一ZmPti1b蛋白质序列,请用DNAMAN软件分析其二级结构,给出分析结果。

《生物信息学》大作业参考模板-2016

《生物信息学》大作业参考模板-2016

《生物信息学》大作业 参考答案
芍药 ACS 基因的生物信息学分析
姓名: 班级: 学号: 2016 年 4 月 11 日
一、芍药 ACS 基因序列及其编码的蛋白的功能 乙烯是存在于植物体内的唯一的一种气态植物激素,调控植物花、果和叶片的衰老进程。乙烯的合成 主要在转录水平上受到 ACS(ACC synthase,ACC 合酶)和 ACC 氧化酶的调控,ACS 将 SAM(S-adenosyl
a r t i c l e i n f o
Article history: Received 17 November 2015 Accepted 23 November 2015 Available online 26 November 2015 Keywords: ACC synthase Ethylene biosynthesis Flower senescence Oncidium Gower Ramsey Gene cloning Expression analysis
Biochemical and Biophysical Research Communications 469 (2016) 20vailable at ScienceDirect
Biochemical and Biophysical Research Communications
图 1 芍药 ACS 基因的核苷酸序列及其编码的氨基酸序列 下载的论文“Molecular cloning and expression analysis of an 1-aminocyclopropane-1-carboxylate synthase gene from Oncidium Gower Ramsey” 为 2016 年发表于 Biochemical and Biophysical Research Communications 的最新英文文章(见下页) 。 (2 分)

生物信息试题及答案

生物信息试题及答案

生物信息试题及答案一、选择题(每题2分,共20分)1. 生物信息学的主要研究对象是()。

A. 蛋白质结构B. 基因组序列C. 细胞信号传导D. 生物分子相互作用答案:B2. 以下哪项不是生物信息学的主要任务?()A. 基因预测B. 蛋白质功能预测C. 疾病诊断D. 植物分类学研究答案:D3. 人类基因组计划的主要目标是()。

A. 确定人类基因组中的所有基因B. 确定人类基因组中的所有蛋白质C. 确定人类基因组中的所有核苷酸序列D. 确定人类基因组中的所有代谢途径答案:C4. 以下哪种生物信息数据库不是公共数据库?()A. GenBankB. Swiss-ProtC. PDBD. Myriad Genetics答案:D5. 在生物信息学中,BLAST是一种()。

A. 基因克隆技术B. 基因表达分析软件C. 序列比对工具D. 蛋白质结构预测方法答案:C6. 以下哪种序列分析方法不适用于大规模基因组数据?()A. 多重序列比对B. 单序列比对C. 基因预测D. 基因家族分析答案:B7. 以下哪种技术不是用于蛋白质结构预测的?()A. 同源建模B. 从头预测C. 基因克隆D. 蛋白质折叠模拟答案:C8. 以下哪种生物信息学工具主要用于蛋白质功能预测?()A. PfamB. BLASTC. ClustalWD. Swiss-Prot答案:A9. 以下哪种生物信息学数据库专门存储蛋白质结构数据?()A. GenBankB. Swiss-ProtC. PDBD. KEGG答案:C10. 在生物信息学中,以下哪种数据类型不是高通量数据?()A. 基因表达数据B. 蛋白质组数据C. 代谢组数据D. 单个基因序列答案:D二、填空题(每题2分,共20分)1. 生物信息学是应用__________和__________技术,研究生物大分子结构、功能和相互作用的科学。

答案:计算机;信息技术2. 人类基因组计划完成于__________年。

生物信息技术第二次作业

生物信息技术第二次作业

人、小鼠、大鼠血红蛋白及其编码基因序列分析1.认真阅读NCBI书架(Bookshelf)、PDB分子月报(Molecule of the Month)、UniProt蛋白质精选(Protein Spotlight)以及维基百科(Wikipedia)等网站中有关血红蛋白的介绍,了解血红蛋白的生理功能、空间结构、亚基组成等基本知识。

血红蛋白是高等生物体内负责运载氧的一种蛋白质,具有四聚体蛋白质四级空间结构。

人体内的血红蛋白由四个亚基构成,分别为两个α亚基和两个β亚基,每个亚基由一条肽链和一个血红素分子构成。

血红蛋白的每个亚基由一条肽链和一个血红素分子构成,肽链在生理条件下会盘绕折叠成球形,把血红素分子抱在里面,这条肽链盘绕成的球形结构又被称为珠蛋白。

血红素分子是一个具有卟啉结构的小分子,在卟啉分子中心,由卟啉中四个吡咯环上的氮原子与一个亚铁离子配位结合,珠蛋白肽链中第8位的一个组氨酸残基中的吲哚侧链上的氮原子从卟啉分子平面的上方与亚铁离子配位结合,当血红蛋白不与氧结合的时候,有一个水分子从卟啉环下方与亚铁离子配位结合,而当血红蛋白载氧的时候,就由氧分子顶替水的位置。

2.查阅ENSEMBL基因组数据库中已经或正在进行基因组测序的物种树,了解人、小鼠、大鼠三个物种之间演化关系;检索物种分歧时间数据库TimeTree,了解人和小鼠、小鼠和大鼠之间的分歧时间。

3.从UniProt数据库中检索并提取人、小鼠、大鼠血红蛋白alpha亚基蛋白质序列,利用WebLab或JEMBOSS软件包中的序列比对程序Needle,选择默认计分矩阵BLOSUM62和默认空位罚分进行序列比对,将比对结果填入表1。

分析比对结果,说明得到上述结果的原因和进一步分析思路。

表1 人、小鼠、大鼠血红蛋白alpha亚基蛋白质序列比对结果物种Species登录号Accession得分Score相同氨基酸Identity相同和相似氨基酸Similarity空位Gaps人/小鼠NP_000549/NP_032244653 123/142(86.6%) 131/142(92.3%) 0人/大鼠NP_000549/NP_037228587 111/142(78.2%) 120/142(84.5%) 0小鼠/大鼠NP_032244/NP_037228632 120/142(84.5%) 127/142(89.4%) 04.检索RefSeq数据库中人、小鼠、大鼠血红蛋白alpha亚基编码基因的mRNA序列,下载其编码区序列和所编码的氨基酸序列,进行序列比对,将结果填入下面表2中。

生物信息学(上海海洋大学)智慧树知到课后章节答案2023年下上海海洋大学

生物信息学(上海海洋大学)智慧树知到课后章节答案2023年下上海海洋大学

生物信息学(上海海洋大学)智慧树知到课后章节答案2023年下上海海洋大学上海海洋大学第一章测试1.生物信息学涉及到以下哪些学科?答案:生物统计学; 生物学;计算机科学2.生物大分子序列里包含了哪些信息?答案:序列信息;功能信息;进化信息;结构信息3.中心法则论述的是遗传信息的流动法则,是指生物大分子的序列决定结构,结构决定功能。

答案:错4.数据是经过加工的信息,对我们做判断和决策有用。

答案:错5.以下哪些观点不是达尔文的《物种起源》提出来的?答案:上帝创造万物6.人类基因组工作草图是什么时候发表的?答案:20017.学好生物信息学最重要的途径是多练习多实践。

答案:对8.世界上最主要的测序公司之一华大基因,是在哪个国家成立的?答案:中国9.以下哪位科学家提出了分子钟假说?答案:泡林 Pauling10.以下哪些组学研究属于生物信息学研究内容?答案:转录组学;基因组学;表观组学;蛋白质组学第二章测试1.以下哪个数据库不是NCBI的子数据库?答案:genecard2.以下哪些数据库属于一级结构数据库?Genbank ;PDB3.在线生物大分子数据库,不可以通过以下哪种方式进行数据查询?答案:电话查询4.在对基因进行查询的时候,如果我们查询的是“cell division[GO]”,我们是通过一下哪种信息对基因进行查询?答案:基因的功能5.蛋白质的profile描述的是具有多个motif的蛋白质家族中,它们具有哪些Motif,以及这些motif的空间分布答案:错6.蛋白质三级结构的实验测定方法包括( )电子显微镜;核磁共振;X光衍射7.ENSEMBL中的gene tree,收集的是同源基因序列答案:对8.KEGG包括以下几类子数据库()答案:chemical information;system information;genomic information; health infromation9.PDB是一个基于功能域进行分类的蛋白质序列数据库。

生物信息学作业

生物信息学作业

生物信息学作业1.选择一段蛋白质序列,设计一对兼并引物用来克隆其编码基因,并对引物作出分析。

人胰岛素序列:FVNQHLCGSHLVEALYLVCGERGFFYTPKT(B链)结论:3’- NGGNGTRTARAARAANCC -5’ 5’- TNTAYYTNGTNTGYGGNGA -3’两者评分都是100分,表明引物品质完美;长度18,19稍短,但克隆的DNA链也仅90bp,故长度适合;Tm值76.1℃,符合要求△G相差不足4Kcal/mol所以可以使用。

Step1:打开primer premier 5.0 输入蛋白质链,转化为DNA链。

获得DNA链。

2.选择一段基因,预测期编码RNA的二级结构,并分析功能。

取一段基因:ACGCG GGCGG GCATG TGGGC AGCTT TACCC AGTGC TACTG TGCTG GCCAGCACTG AAACA GGGGC ACTGG TTTGG GGTGG ATGAA GGGTA GAAGT GCAAGTTCCA TTGCC TGTGC AATCC CTGCC TTGCT CAGAC CCTGC TCACT CCTCAGGCCC CATCA GCCCC TCAAC TCTGC TAACC ATGGT GGTAG AAATC AGCTACAATA AACCC TGGAG CCAGT AAAAA AAAAA AAAAA AAAAA AAAAA AAAGT点击Fold as RNA点击START点击Draw Stuclture得到RNA二级结构RNA功能预测打开网址http://sidirect2.rnai.jp/输入DNA序列得出结论:。

生物信息学试题及答案

生物信息学试题及答案

生物信息学试题及答案一、单项选择题(每题2分,共20分)1. 生物信息学的主要研究对象是()。

A. 生物数据B. 生物实验C. 生物模型D. 生物技术答案:A2. 下列哪项不是生物信息学中的常用数据库()。

A. GenBankB. Swiss-ProtC. PubMedD. Google Scholar答案:D3. 蛋白质序列比对的主要目的是()。

A. 确定蛋白质的三维结构B. 预测蛋白质的功能C. 比较蛋白质的氨基酸序列D. 计算蛋白质的分子量答案:B4. 在生物信息学中,以下哪种算法不是用于序列比对的()。

A. BLASTB. FASTAC. Smith-WatermanD. Hidden Markov Model答案:D5. 下列哪种生物信息学工具主要用于基因表达分析()。

A. ClustalWB. Primer3C. R语言D. PDB答案:C6. 以下哪种技术不是用于蛋白质结构预测的()。

A. 同源建模B. 从头预测C. 序列比对D. 折叠识别答案:C7. 以下哪种生物信息学工具主要用于基因组注释()。

A. BLASTC. GATKD. Primer3答案:B8. 在生物信息学中,以下哪种方法不用于基因表达数据的聚类分析()。

A. K-meansB. Hierarchical clusteringC. Principal component analysisD. Multiple sequence alignment答案:D9. 下列哪种生物信息学工具主要用于蛋白质-蛋白质相互作用网络分析()。

A. STRINGB. BLASTD. Primer3答案:A10. 在生物信息学中,以下哪种数据库不包含蛋白质结构信息()。

A. PDBB. UniProtC. RCSBD. GenBank答案:D二、多项选择题(每题3分,共15分)11. 生物信息学中常用的序列比对工具包括()。

A. BLASTB. FASTAC. ClustalWD. Pfam答案:ABC12. 以下哪些是生物信息学中常用的基因表达分析软件()。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学实验作业二
1.了解什么是BLAST,它有哪些应用。

答:Blast,全称 Basic Local Alignment Search Tool,即“基于局部比对算法的搜索工具”,由Altschul等人于1990年发布。

Blast能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。

Blast具有较快的比对速度和较高的比对精度,适用于多种序列比对的情况,在常规双序列比对分析中应用最为广泛。

可以毫不夸张的说,blast是做比较基因组学乃至整个生物信息学研究所必须掌握的一种比对工具。

Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。

Blast的应用:Blast是一个集成的程序包,通过调用不同的比对程序,blast 实现了五种可能的序列比对方式:
Blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

Blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),再与蛋白库做比对。

Blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。

Tblastn:蛋白序列对核酸库的比对,将库中的核酸序列翻译成蛋白序列,比对蛋白序列的同源性。

Tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序。

Blastclust:通过blast聚类。

Blast提供了核酸和蛋白序列之间所有可能的比对方式,同时具有较快的比对速度和较高的比对精度,因此在常规双序列比对分析中应用最为广泛。

可以毫不夸张的说,blast是做比较基因组学乃至整个生物信息学研究所必须掌握的一种比对工具。

2.请在NCBI中查找你感兴趣的某一基因或蛋白,通过BLAST工具检
索与其高度相似的序列,并将你查到的这一基因或蛋白与你检索到的与其相似的序列(其中一条)的比对结果列出来,简单说明序列比对评分和检索过程。

答:
过程:
(1)在NCBI 下载一条序列(用FASTA 格式)
(2)在BLAST 中载入该序列文件
(3)调节各种参数
(4)点击BLAST 进行比对。

相关文档
最新文档