《生物信息学》练习题剖析
大学生生物信息学考试模拟题及解析
![大学生生物信息学考试模拟题及解析](https://img.taocdn.com/s3/m/32d6e1acf80f76c66137ee06eff9aef8941e4833.png)
大学生生物信息学考试模拟题及解析一、单选题(每题 3 分,共 30 分)1、生物信息学中,用于分析 DNA 序列的常见软件是()A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息()A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中,开放阅读框(ORF)是指()A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对()A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中,用于分析基因表达数据的常用方法是()A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式()A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中,用于预测蛋白质二级结构的方法是()A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时,常用的数据库是()A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序()A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析:1、答案:A解析:BLAST(Basic Local Alignment Search Tool)是用于比较生物序列相似性的工具,常用于分析 DNA 序列。
ClustalW 主要用于多序列比对;Primer Premier 常用于设计引物;MEGA 用于构建进化树。
2、答案:B解析:PDB(Protein Data Bank)是主要存储蛋白质结构信息的数据库。
GenBank 主要存储核酸序列;UniProt 和 SWISSPROT 主要存储蛋白质序列信息。
共享——农业大学生物信息学课后练习题及答案汇总
![共享——农业大学生物信息学课后练习题及答案汇总](https://img.taocdn.com/s3/m/86d947905901020207409cc9.png)
1.美国核酸数据库GenBank从1979年开始建设,1982年正式运行(NCBI);
EMBL数据库也于1982年开始服务(EBI);
1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务(NIG)。
是一种经校阅过的蛋白质序列数据库,首先于1978年在瑞
EMBL)合作,目
1.同步法就是所有序列同时进行比对,而不是两两比对或分组进行比对。基
因此这类方法对于计算
由于利用多维动态规划矩阵对于实际数据进行序列比对不太现实,因此
、 blast程序用途,clustal程序用途。
系统发育分析
、什么是系统发育分析
系统发育分析是研究物种进化和系统分类的一种方法,研究对象为携带遗传
、什么是系统发育分析
、生物进化理论包括达尔文进化论、孟德尔遗传、中性进化论
、分子时钟假说及其重大意义
、DNA突变模式:替代,插入,缺失,倒位,核苷酸替代:转换,颠换
、系统发育树分为三种类型:分枝图、进化树、时间度量树
、系统发育树构建分为哪四步,结合所学软件,分别介绍每一步所用的程序或
EMBL和新成立的瑞士生物信息学研究所(SIB)共同维护。
是由NBRF蛋白质序列数据库、Munich蛋白质序列信息中心(MIPS)
(JIPID)共同维护的国际上最大的公共蛋白质序列
蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分,结构数
(Protein Data Bank)是国际上唯一的生物大分子结构数据档案库,
(人和鼠的α血红素),这样的基因应被称做直系同源基
orthologous。
在物种I和物种II中,基因a通过基因复制产生基因a1和基因a2。物
生物信息学复习题及答案(陶士珩)剖析
![生物信息学复习题及答案(陶士珩)剖析](https://img.taocdn.com/s3/m/2273c7ad453610661ed9f4d0.png)
生物信息学复习题名词解释1. (同源):来源于共同祖先的序列相似的序列及同源序列。
序列相似序列并不一定是同源序列。
2(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。
3(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。
基因复制事件是促进新基因进化的重要推动力。
4(异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。
5 : ( ) a . 总是不计入总数中。
6.点矩阵():构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。
7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。
衡量序列之间相似性是否显著的期望值。
E值大小说明了可以找到与查询序列()相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。
8值:得分为所要求的分值比对或更好的比对随机发生的概率。
它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的(高分片段对)得分的期望分布联系起来计算的。
通常使用低于0.05来定义统计的显著性。
19.打分矩阵():在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。
10.空位():在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
11:美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有, 等工具,还具有文献数据库。
《生物信息学》试卷(A)
![《生物信息学》试卷(A)](https://img.taocdn.com/s3/m/0b561ed34b73f242326c5f23.png)
武汉大学2007—2008学年度高校教师研修班《生物信息学》试卷(A)及答案一、翻译下列名词并解释。
(每题5分,共25分)1. EST2. ORF3. BLAST4. ANN5. HGP二、填空(每空2分,共20分)1、蛋白质空间结构测定常用的方法有和二维核磁共振技术。
2、BLAST对序列格式的要求是常见的格式。
3、系统发育树由一系列和组成,其中每个代表一个分类单元,而代表物种之间的进化关系。
、、等。
6. 目前已经是最广泛使用的系统发育程序。
三、解释说明: 请按要求对下列GenBank文件作解释说明。
(每小题4分,共20分)1、LOCUS行中的第3项mRNA linear表示,这里是。
2、DEFINITION行在GenBank记录中用以3 ACCESSION 是,是从数据库中检索一个记录的主要。
4. FEATURES后面部分是,直接表达了记录的生物背景知识,5 CDS 30…533 表示。
四、问答。
(共35分)1简述国际上有哪几个著名的核酸序列数据库?(10分)2何谓序列比对的相似性和同源性,它们之间有何联系和区别(10分)3试述发现基因的一般过程(15分)《生物信息学》试卷(A)答案一、翻译下列名词并解释。
(每题5分,共25分)1. EST expressed sequence tag 表达序列标签2. ORF Open Reading Frame, 开放阅读框3. BLAST Basic Local Alignment Search T ool 局部相似性基本查询工具4. ANN Artificial Neural Network, 人工神经网络5. HGP Human genome project 人类基因组计划二、填空(每空2分,共20分)1、蛋白质空间结构测定常用的方法有X射线晶体衍射法和二维核磁共振技术。
2、BLAST对序列格式的要求是常见的FASTA格式。
3、系统发育树由一系列节点和分支组成,其中每个节点代表一个分类单元,而节点之间的连线代表物种之间的进化关系。
共享——农业大学生物信息学课后练习题及答案汇总
![共享——农业大学生物信息学课后练习题及答案汇总](https://img.taocdn.com/s3/m/60b20555f46527d3240ce07b.png)
2014级山东农业大学大二下学期期末生物信息学课后练习题及答案第一章绪论1、什么是生物信息学?答:广义的生物信息学:生命科学与数学、计算机科学和信息科学交汇融合形成的一门交叉学科应用先进的数据管理技术、数学分析模型和计算软件对各种生物信息进行提取、储存处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。
狭义的生物信息学:应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也被称为分子生物信息学。
2、列举5个在生物信息学发展史上有重要意义的事件(技术发明或软件创新)答:1953年,由沃森和克里克提出DNA双螺旋结构模型,并发表于NATURE杂志。
(Nature, 1953)。
1955年,桑格采用二硝基氟苯(FDNB)法,首次成功地完成了第一个蛋白质-牛胰岛素的序列分析。
1965年,祖卡坎德尔和鲍林提出的“分子钟”理论。
(Evolving genes and proteins, 1965)1977年,桑格等发表双脱氧链末端终止法,测定ϕX174序列。
(PNAS, 1977)1988年,人类基因组计划提出。
(Science, 1986)1995年,H. influenza genome第一个测序成功的基因组。
(Science, 1995)2001年,人类基因组草图公布。
(Nature, 2001; Science, 2001)2005年,新一代测序技术出现。
(Nature, 2005)3、生物信息学的研究内容都有哪些?答:1.获取人和各种生物的完整基因组2.发现新基因和新的单核苷酸多态性3.基因组中非编码区信息结构分析4.完整基因组的比较研究5.功能基因组研究6.生物大分子结构模拟与药物设计7.生物信息学的发展与应用研究第二章生物信息学资源1、什么是一级数据库,什么是二级数据库答:1.数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。
一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。
生物信息学试题及答案
![生物信息学试题及答案](https://img.taocdn.com/s3/m/4e33b11281c758f5f71f67da.png)
广东海洋大学 2013—— 2014 学年第 一 学期《生物信息学 》课程试题答案课程号: 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、 简答题(一) 生物信息学及主要内容?(3)生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。
(二) 生物信息学主要由哪三个组成部分?(6)1、 建立可以存放和管理大量生物信息学数据集的数据库;2、 开发确定大数据集中各成员关系的算法和统计方法;3、 使用这些工具来分析和解释不同类型的生物数据,包括DNA ,RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。
(三) 存储在GenBank 中DNA 序列的类型?(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略?(6)1、霰弹测序法(shot gun sequencing):随机打碎大DNA 分子,通过很多测序反应来覆盖整个分子,完整的序列通过使用计算机搜索重叠区来重新拼接。
2、克隆重叠群(clone contig)的方法中,DNA 片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成。
(五) 按制备方式分DNA 芯片的主要类型?(6)1、 原位合成芯片:采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。
探针较短;2、 DNA 微集阵列:将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级:姓名:学号:试题共页加白纸 2张密封线GDOU-B-11-302片。
探针的来源较灵活。
(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异?(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA,分别用用Cy3标定一种RNA,而用Cy5标定另一种RNA。
Cy3发红色荧光,Cy5发绿色荧光。
3、用不同的激发光照射,测定两种样品中DNA的表达量。
生物信息学期末考试答案分析解析
![生物信息学期末考试答案分析解析](https://img.taocdn.com/s3/m/376f2907a5e9856a56126075.png)
一、名词Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
Consensus sequence:共有序列——决定启动序列的转录活性大小。
各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。
Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。
数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。
EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。
Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
Homology:同源性——是两个对象间的肯定或者否定的关系。
如两个基因在进化上是否曾具有共同祖先。
从足够的相似性能够判定二者之间的同源性。
Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。
以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。
在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。
生物信息学练习题
![生物信息学练习题](https://img.taocdn.com/s3/m/76b50ba8d5d8d15abe23482fb4daa58da0111cb1.png)
生物信息学练习题例题绪论1.以下哪个是今天“生物信息学”的正确英语拼写?(B )A.biocompB.bioinformaticsC.bioinformatiqueD.bio-informatics2.被称为“遗传学的奠基人,现代遗传学之父”的是哪位科学家? (B )A .沃森(James Waston)B .孟德尔(Gregor J . Mendel)C .查加夫(Erwin Chargaff)D .米歇尔(Friedrich Miescher)3.总的来说,位于染色体内超过(C )个碱基的DNA ,构成了人类基因组。
A .30000000B .30000000000C .3000000000D .3000000004.人类基因组计划于(A )年启动,于2003年完成。
A.1990B.1995C.1998D.19915.Proteomics的含义是(C )A.生物信息学B.基因组学C.蛋白质组学D.表观遗传学6.HGP是(C )A.在线人类孟德尔遗传数据B.国家核酸数据库C.人类基因组计划D.水稻基因组计划7.被誉为“生物信息学之父”的科学家是(D )A.DulbeccoB.SangerC.吴瑞D.林华安8.没有直接参与人类基因组计划的国家是(C)A.英国B.中国C.俄罗斯D.德国9.生物信息学属于多学科交叉,其联系下列(ABCD )等多个学科A.生物统计学B.病理学C.信息学D.动物学10.生物信息学是由(ACD )等学科相互交叉而形成的一门新兴学科A.计算机科学B.高等数学C.生物学D.应用数学11.生物信息学通过对生物学实验数据的获取、(ABCD ),进而达到揭示实验数据所蕴含的生物学意义的目的A.分析B.检索C.加工D.存储1.单核苷酸标记是( B )。
A.RFLPB.SNPC.SSRD.RAPD2.OMIM是( A )。
A.在线人类孟德尔遗传数据库B.国家核酸数据库C.人类基因组计划D.水稻基因组计划3.NCBI的含义是( A )。
《生物信息学》题集
![《生物信息学》题集](https://img.taocdn.com/s3/m/2e11f3ddd5d8d15abe23482fb4daa58da0111c21.png)
《生物信息学》题集一、选择题(每题3分,共30分)1.生物信息学的主要研究对象是什么?A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术?A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中,进行多序列比对时常用的软件是什么?A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析?A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中,下列哪项不是常用的序列分析技术?A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用?A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测?A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中,下列哪项不是基因注释的内容?A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术?A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用?A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题(每题2分,共20分)1.生物信息学是一门交叉学科,它主要涉及______、计算机科学和数学等领域。
2.在生物信息学中,______技术常用于基因序列的相似性搜索。
3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。
4.在基因表达数据分析中,______是一种常用的数据标准化方法。
5.生物信息学中,______技术常用于蛋白质结构的预测和分析。
6.在生物信息学数据库中,GenBank主要存储的是______数据。
生物信息学考试试题
![生物信息学考试试题](https://img.taocdn.com/s3/m/7ab307e2d5d8d15abe23482fb4daa58da1111c45.png)
生物信息学考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种不是常见的生物信息学数据库?()A GenBankB SWISSPROTC PubMedD Baidu2、在 DNA 序列分析中,以下哪个不是用于序列比对的算法?()A NeedlemanWunsch 算法B SmithWaterman 算法C BLAST 算法D Fourier 变换算法3、蛋白质结构预测的方法不包括()A 同源建模B 从头预测C 折叠识别D 随机模拟4、以下哪种不是基因表达数据分析的常用方法?()A 聚类分析B 主成分分析C 判别分析D 回归分析5、生物信息学中,用于预测蛋白质功能的方法有()A 基于序列相似性B 基于结构相似性C 基于基因共表达D 以上都是6、在基因组学中,以下哪个不是测序技术?()A Sanger 测序B 二代测序C 三代测序D 四代测序7、系统发生树构建的方法不包括()A 距离法B 最大简约法C 最大似然法D 最小二乘法8、以下哪种不是生物信息学中常用的编程语言?()A PythonB JavaC C++D Visual Basic9、以下哪个不是生物信息学在医学领域的应用?()A 疾病诊断B 药物研发C 医疗美容D 个性化医疗10、生物信息学中,处理大规模数据常用的工具是()A ExcelB R 语言C SPSSD Word二、填空题(每题 2 分,共 20 分)1、生物信息学是一门融合了生物学、计算机科学和()的交叉学科。
2、常见的核酸序列格式有 FASTA 和()。
3、蛋白质的二级结构包括α螺旋、β折叠和()等。
4、基因芯片技术是一种()分析技术。
5、序列比对的目的是寻找两个或多个序列之间的()。
6、人类基因组计划的主要目标是测定人类基因组的()序列。
7、生物信息学中的隐马尔可夫模型主要用于()。
8、系统发生分析中,外群的作用是()。
9、蛋白质相互作用网络分析有助于理解()。
10、生物信息学数据库可以分为一级数据库和()数据库。
《生物信息学》练习题剖析
![《生物信息学》练习题剖析](https://img.taocdn.com/s3/m/dc0f7242ac02de80d4d8d15abe23482fb4da0209.png)
《⽣物信息学》练习题剖析1、在Genbank中查找以下6个植物蛋⽩序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。
(1)⽤EBI上的ClustalW2⼯具对其进⾏多序列⽐对,分析各蛋⽩序列之间的同源性。
序列⽐对结果⽐对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。
(2)利⽤Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋⽩序列保存为FASTA格式,存于txt⽂档;2.⽤Clustalx打开txt⽂本,保存为*.phy⽂件;3.⽤seqboot程序打开phy⽂件,输出结果⽂件*_seqboot4.⽤protdist程序打开*_seqboot⽂件,输出为*_protdist⽂件5. ⽤neighbor程序打开*_protdist⽂件,输出为*_neighbor⽂件6. ⽤consense程序打开*_neighbor⽂件,输出为*_consense⽂件7.⽤dratree程序打开*_consense⽂件得到进化树。
(注:由于seqboot软见⽆法正常运⾏,因此进化树⽆法显⽰)(3)任意选取其中的⼀个蛋⽩进⾏蛋⽩质⼀级序列分析、⼆级结构预测及三维结构的模拟。
选择protein3: NP_190855.1⼀级结构⽹址:/doc/37d58381b04e852458fb770bf78a6529647d350c.html /tools/protparam.html Number of amino acids: 456 氨基酸数⽬Molecular weight: 51154.5 相对分⼦质量Theoretical pI: 8.69 理论 pI 值Amino acid composition 氨基酸组成Ala (A) 30 6.6%Arg (R) 28 6.1%Asn (N) 15 3.3%Asp (D) 27 5.9%Cys (C) 5 1.1%Gln (Q) 18 3.9%Glu (E) 28 6.1%Gly (G) 37 8.1%His (H) 16 3.5%Ile (I) 16 3.5%Leu (L) 42 9.2%Lys (K) 32 7.0%Met (M) 5 1.1%Phe (F) 17 3.7%Pro (P) 16 3.5%Ser (S) 46 10.1%Thr (T) 21 4.6%Trp (W) 8 1.8%Tyr (Y) 19 4.2%Val (V) 30 6.6%Pyl (O) 0 0.0%Sec (U) 0 0.0%(B) 0 0.0%(Z) 0 0.0%(X) 0 0.0%正/负电荷残基数Total number of negatively charged residues (Asp + Glu): 55Total number of positively charged residues (Arg + Lys): 60Atomic composition: 原⼦组成Carbon C 2270Hydrogen H 3531Nitrogen N 645Oxygen O 686Sulfur S 10Formula: C2270H3531N645O686S10 分⼦式Total number of atoms: 7142 总原⼦数Extinction coefficients: 消光系数Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.Ext. coefficient 72560Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reducedEstimated half-life: 半衰期The N-terminal of the sequence considered is M (Met).The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).>20 hours (yeast, in vivo).>10 hours (Escherichia coli, in vivo).Instability index: 不稳定系数The instability index (II) is computed to be 48.99This classifies the protein as unstable.Aliphatic index: 75.26 脂肪系数Grand average of hydropathicity (GRAVY): -0.554 总平均亲⽔性/doc/37d58381b04e852458fb770bf78a6529647d350c.html /tools/protscale.html蛋⽩质亲疏⽔性分析所⽤氨基酸标度信息Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490分析所⽤参数信息Weights for window positions 1,..,9, using linear weight variation model:1 2 3 4 5 6 7 8 91.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:⼆级结构预测三级结构预测⽹站/doc/37d58381b04e852458fb770bf78a6529647d350c.html /~phyre2、在拟南芥基因组数据库中(/doc/37d58381b04e852458fb770bf78a6529647d350c.html /)查找编号分别为At4G33050, At3G13600,At3G52870或At2G26190基因,针对所查找的基因进⾏初步的⽣物信息学分析(每⼈任选其中⼀个基因)。
生物信息学陈铭第四版课后题答
![生物信息学陈铭第四版课后题答](https://img.taocdn.com/s3/m/dbdac76676232f60ddccda38376baf1ffc4fe3ba.png)
生物信息学陈铭第四版课后题答生物信息学陈铭第四版课后题答生物信息学是一门快速发展的领域,许多课程和教材都不断更新和完善。
陈铭教授编写的《生物信息学》第四版是当前比较流行的教材之一。
这本书涵盖了生物信息学的基础知识和应用,对于初学者来说是一个很好的学习资源。
以下是陈铭教授第四版《生物信息学》课后题的参考答案。
1. 什么是生物信息学?生物信息学是研究利用计算机和信息技术在生物领域中解决问题和创造价值的学科。
它涉及生物数据的收集、处理、分析和可视化,包括基因序列、转录组、蛋白质组、代谢物组等数据。
生物信息学的应用范围广泛,包括基因组学、转录组学、蛋白质组学、代谢组学、系统生物学、药物设计等多个领域。
2. 简述生物信息学的发展历程。
生物信息学的发展历程可以追溯到 20 世纪 70 年代。
当时,计算机存储和处理能力还很有限,人们开始思考如何高效地处理和分析大规模生物数据。
随着计算机技术的发展,生物信息学逐渐发展壮大。
20 世纪 90 年代,随着高通量测序技术的出现,生物信息学进入了一个快速发展的阶段。
现在,生物信息学已经成为生命科学研究中不可或缺的一部分。
3. 生物信息学的主要应用领域有哪些?生物信息学的主要应用领域包括基因组学、转录组学、蛋白质组学、代谢组学、系统生物学、药物设计等。
基因组学是生物信息学最重要的应用领域之一,主要研究基因组的结构、功能和表达。
转录组学则研究细胞在不同生理和病理状态下的转录组变化。
蛋白质组学主要研究蛋白质的表达、结构和功能。
代谢组学则研究生物体内代谢产物的变化。
系统生物学则研究生物系统的结构和功能,通过建立数学模型来预测和解释生物现象。
药物设计则是生物信息学的另一个重要应用领域,通过分析药物分子的结构与生物活性之间的关系,来设计新的药物分子。
4. 什么是序列比对?序列比对是生物信息学中一种重要的技术,用于比较两个或多个DNA 或蛋白质序列之间的相似性和差异。
序列比对可以帮助我们了解基因或蛋白质的结构、功能和进化关系。
生物信息考试题及答案
![生物信息考试题及答案](https://img.taocdn.com/s3/m/4d43984fbc64783e0912a21614791711cd797916.png)
生物信息考试题及答案一、选择题(每题2分,共20分)1. 基因组学研究的核心是()。
A. 基因克隆B. 基因表达C. 基因组序列D. 基因功能答案:C2. 下列哪项不是生物信息学的主要研究内容?()A. 基因组序列分析B. 蛋白质结构预测C. 植物分类学D. 基因表达分析答案:C3. 转录组学研究的是()。
A. 基因组中的所有基因B. 特定细胞或组织中的所有RNA分子C. 特定细胞或组织中的所有蛋白质分子D. 特定细胞或组织中的所有DNA分子答案:B4. 下列哪个数据库主要用于存储蛋白质序列信息?()A. GenBankB. PDBC. Swiss-ProtD. EMBL答案:C5. 以下哪个不是生物信息学中常用的序列比对工具?()A. BLASTB. FASTAC. ClustalWD. PCR答案:D6. 以下哪个是用于蛋白质三维结构预测的软件?()A. Swiss-ProtB. PDBC. MODELLERD. GenBank答案:C7. 以下哪个是用于基因表达分析的高通量技术?()A. Sanger测序B. 微阵列C. PCRD. 质谱分析答案:B8. 下列哪个是用于基因组关联研究的统计方法?()A. 聚类分析B. 系统发育分析C. 连锁不平衡分析D. 多态性分析答案:C9. 以下哪个是用于蛋白质-蛋白质相互作用网络分析的工具?()A. STRINGB. BLASTC. ClustalWD. GenBank答案:A10. 下列哪个是用于生物信息学数据可视化的工具?()A. R语言B. PythonC. CytoscapeD. Perl答案:C二、填空题(每题2分,共20分)1. 生物信息学是一门结合了__________、__________和__________的交叉学科。
答案:生物学、计算机科学、信息技术2. 基因组学中的“组”指的是__________的集合。
答案:基因3. 转录组学研究的RNA分子包括__________、__________和__________。
生物信息学课后题及答案
![生物信息学课后题及答案](https://img.taocdn.com/s3/m/fc74d3ef5ff7ba0d4a7302768e9951e79b8969b6.png)
生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。
2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。
(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。
3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。
而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。
4简述人类基因组研究计划的历程。
通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。
1990,人类基因组计划正式启动。
1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。
1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。
Celera公司加入,与公共领域竞争启动水稻基因组计划。
1999,第五届国际公共领域人类基因组测序会议,加快测序速度。
2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。
2001,人类基因组“中国卷”的绘制工作宣告完成。
2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。
2004,人类基因组完成图公布。
生物信息学A卷答案
![生物信息学A卷答案](https://img.taocdn.com/s3/m/6fad036725c52cc58bd6beda.png)
一、名词辨析(每题5分,共20分)1、基因与基因组:Gene 基因:遗传功能的单位。
它是一种DNA序列,在有些病毒中则是一种RNA 序列,它编码功能性蛋白质或RNA分子。
Genome 基因组:染色体组,一个生物体、细胞器或病毒的整套基因;例如,细胞核基因组,叶绿体基因组,噬菌体基因组。
2、相似性与同源性:所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。
同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
相似性本身的含义,并不要求与进化起源是否同一、与亲缘关系的远近、甚至于结构与功能有什么联系。
3、CDS与cDNA:cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA 的过程。
CDS序列:编码序列,从起始密码子到终止密码子的所有序列。
4、数据库搜索和数据库查询:数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找(又称数据库检索)。
数据库搜索:通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
搜索对象不是数据库的注释信息,而是序列信息。
二、判断题(20分)1、生物信息学可以理解为生命科学中的信息科学。
(√)2、DNA分子和蛋白质分子都含有进化信息。
(√)3、目前生命科学研究的重点和突破点的已完全转移到生物信息学上,已不需要实验做支撑。
(×)4、生物信息学的发展大致经历了三个阶段:前基因组时代、基因组时代和后基因组时代。
(√)5、基因组与蛋白质组一样,都处于动态变化之中。
(×)6、蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。
(×)7、生物信息学中研究的生物大分子主要是脂类和多糖。
生物信息试题及答案
![生物信息试题及答案](https://img.taocdn.com/s3/m/8530217d326c1eb91a37f111f18583d049640fd2.png)
生物信息试题及答案考题一:1. 什么是生物信息学?生物信息学是一门综合学科,它融合了生物学、计算机科学和统计学等领域的知识和技术,旨在通过对生物序列、结构、功能和进化等信息的收集、管理、分析和应用,揭示生命现象和生物体的特性。
2. 生物信息学在生物研究中的应用有哪些?生物信息学在生物研究中有多种应用,包括:- 基因组学研究:通过对基因组序列的分析,探索基因组结构和功能,识别基因、编码蛋白质和非编码RNA等基因组元件。
- 转录组学研究:通过对转录组数据的分析,研究基因表达谱、异构剪切和转录调控等过程。
- 蛋白质组学研究:通过对蛋白质组数据的分析,研究蛋白质互作网络、翻译后修饰和蛋白质结构与功能等问题。
- 代谢组学研究:通过对代谢产物谱数据的分析,研究代谢途径、代谢物互作和生物样本间的代谢差异。
- 生物信息学工具开发:开发生物信息学软件和数据库,提供数据分析、可视化和挖掘的工具,并推动生物信息学的技术创新。
考题二:1. 生物序列中常见的两类序列是什么?生物序列中常见的两类序列是DNA序列和蛋白质序列。
2. 请简要解释DNA序列和蛋白质序列的意义。
DNA序列是生物遗传信息的载体,它决定了生物体的遗传特征和功能。
通过分析DNA序列,我们可以识别基因、预测基因功能,研究基因组结构和进化过程。
蛋白质序列是DNA翻译后产生的,蛋白质是生物体内多种生物学功能的主要执行者。
分析蛋白质序列可以预测蛋白质的结构和功能,从而理解生物体内蛋白质相互作用、代谢途径和信号传导等重要生物过程。
考题三:1. 什么是基因组学?基因组学是研究生物体基因组的学科,它包括了对基因组序列、结构、功能和进化等多个方面的研究。
基因组是一个生物体所有基因的集合,通过对基因组的研究,可以揭示生物体的遗传信息和特征。
2. 基因组学研究的主要内容有哪些?基因组学研究的主要内容包括以下几个方面:- 基因组测序:通过高通量测序技术,获取生物体基因组的序列信息。
共享——农业大学生物信息学课后练习题及答案
![共享——农业大学生物信息学课后练习题及答案](https://img.taocdn.com/s3/m/303530c0998fcc22bcd10d44.png)
2014级山东农业大学大二下学期期末生物信息学课后练习题及答案 第一章
1、什么是生物信息学? 2、列举5个在生物信息学发展史上有重意义的事件(技术发明或软件创 新)
3、生物信息学的研究内容都有哪些? 1. What is the bioinformatics? 2. Enumerate five significance events in the bioinformatics development. 3. What are the questions for bioinformatics to answer? 第二章 1、什么是一级数据库,什么是二级数据库 2、世界上三大核酸数据库分别叫什么,由什么机构进行维护,两个重 要的蛋白质数据库分别是什么,蛋白质三维结构数据库是什么,他们分 别由什么机构进行维护。
物种I和物种II中的a1或a2被称作直系同源,因为它们来自同一祖先,
而物种I或物种II中的a1和a2被称作旁系同源,因为它们是由基因复制
得到的。
3、 什么是相似性(similarity)、同一性(identity)?他们的 关系?
答: 4、什么是点阵图(dot matrix)?作用与优点。 答:1.点阵图分析(Dot matrix analysis):是双序列比对的基本方
2005年, 新一代测序技术出现。(Nature, 2005)
3、生物信息学的研究内容都有哪些? 答:1.获取人和各种生物的完整基因组
2.发现新基因和新的单核苷酸多态性 3.基因组中非编码区信息结构分析 4.完整基因组的比较研究 5.功能基因组研究 6.生物大分子结构模拟与药物设计 7.生物信息学的发展与应用研究 第二章 生物信息学资源
列往往具有相似的结构与功能; 2、用于进化分析,是用系统发育方法构建进化树的初使步骤; 3、通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)
生物信息学试题及个人答案(非参考答案)
![生物信息学试题及个人答案(非参考答案)](https://img.taocdn.com/s3/m/c98ac78502d276a200292eb8.png)
生物信息学答题卷考题一:到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列,写出序列名称、登录号及来源物种的分类情况,然后用Blast(注意:写出所用程序及所搜索的数据库名称)搜索到数据库中和它相似程度较高的10条序列(写出这些序列的名称和登陆号及来源物种的分类情况。
要求至少包括3-4个属,每个属中选择1-2个种),对这10条序列进行多序列比对后(写出比对所用程序及比对结果),使用phylip软件,用距离法对它们进行分子进化分析(包括对进化树进行统计评估),说明这种蛋白质的进化历程(60分)。
答:(1)到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列如下:完整序列(ORIGIN):1 mastdsldtr tfdyasdssf eviiitnaph dydgyielga aarllapfqk nisalwtnaa61 pshkltrnnk nylhvfglfk ylqnynlntk khppeyytik svicdlmmga qgktfdplce121 iktqlcaiqe slneaivtln ghaaadpapr tearelvesl hseyskkltf atdtildhvk181 sikdlvclnk序列名称: capsid protein [Choristoneura fumiferana MNPV]即:云杉卷叶蛾(虎尾松卷叶蛾)颗粒体病毒具体信息:LOCUS NP_848433 190 aa linear VRL06-MAY-2009登录号(ACCESSION): NP_848433来源物种的分类情况SOURCE Choristoneura fumiferana MNPVORGANISM Choristoneura fumiferana MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..190/organism="Choristoneura fumiferana MNPV"/db_xref="taxon:208973"/country="Ireland"(2)然后用Blast搜索和它相似程度较高的10条序列如下:说明:所用程序:blosum62所搜索的数据库名称:swissprot数据库中和它相似程度较高的10条序列1、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVOP 192 aa linear VRL 11-JAN-2011登录号:P24078来源物种的分类情况:SOURCE Orgyia pseudotsugata MNPVORGANISM Orgyia pseudotsugata MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..192/organism="Orgyia pseudotsugata MNPV"/host="Orgyia pseudotsugata (Douglas fir tussock moth)"/db_xref="taxon:262177"2、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVAC 198 aa linear VRL 11-JAN-2011登录号:P41678来源物种的分类情况:SOURCE Autographa californica nucleopolyhedrovirusORGANISM Autographa californica nucleopolyhedrovirusViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..198/organism="Autographa californica nucleopolyhedrovirus"/host="Lepidoptera (butterflies and moths)"/db_xref="taxon:46015"3、RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliY名称:RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliYLOCUS FLIY_BACSU 378 aa linear BCT 08-FEB-2011登录号:P24073来源物种的分类情况:SOURCE Bacillus subtilisORGANISM Bacillus subtilisBacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.FEATURES Location/Qualifierssource 1..378/organism="Bacillus subtilis"/db_xref="taxon:1423"4、RecName: Full=Uncharacterized protein YjeA名称:RecName: Full=Uncharacterized protein YjeALOCUS YJEA_HAEGA 322 aa linear BCT 30-NOV-2010登录号:Q9ZIY0来源物种的分类情况:SOURCE Avibacterium paragallinarumORGANISM Avibacterium paragallinarumBacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;Pasteurellaceae; Avibacterium.FEATURES Location/Qualifierssource 1..322/organism="Avibacterium paragallinarum"/db_xref="taxon:728"5、RecName: Full=Protein YOP1名称:RecName: Full=Protein YOP1LOCUS YOP1_USTMA 172 aa linear PLN 08-MAR-2011 登录号:Q4P0H0来源物种的分类情况:SOURCE Ustilago maydisORGANISM Ustilago maydisEukaryota; Fungi; Dikarya; Basidiomycota; Ustilaginomycotina;Ustilaginomycetes; Ustilaginales; Ustilaginaceae; Ustilago. FEATURES Location/Qualifierssource 1..172/organism="Ustilago maydis"/db_xref="taxon:5270"6、RecName: Full=Protein anon-37Cs名称:RecName: Full=Protein anon-37CsLOCUS A37C_DROLE 544 aa linear INV 10-AUG-2010 登录号:O96570来源物种的分类情况:SOURCE Scaptodrosophila lebanonensisORGANISM Scaptodrosophila lebanonensisEukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;Ephydroidea; Drosophilidae; Scaptodrosophila.FEATURES Location/Qualifierssource 1..544/organism="Scaptodrosophila lebanonensis"/db_xref="taxon:7225"7、RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA名称:RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA LOCUS PSAA_SYNPW 767 aa linear BCT 08-FEB-2011登录号:Q9R6U0来源物种的分类情况:SOURCE Synechococcus sp. WH 7803ORGANISM Synechococcus sp. WH 7803Bacteria; Cyanobacteria; Chroococcales; Synechococcus.FEATURES Location/Qualifierssource 1..767/organism="Synechococcus sp. WH 7803"/db_xref="taxon:32051"8、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJE 258 aa linear BCT 08-FEB-2011登录号:Q9PM01来源物种的分类情况:SOURCE Campylobacter jejuniORGANISM Campylobacter jejuniBacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni"/db_xref="taxon:197"9、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJR 258 aa linear BCT 08-FEB-2011登录号:Q5HSB7来源物种的分类情况:SOURCE Campylobacter jejuni RM1221ORGANISM Campylobacter jejuni RM1221Bacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni RM1221"10、RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A 名称:RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A LOCUS MOBA_METAC 225 aa linear BCT 03-MAY-2011登陆号:Q8TPD6来源物种的分类情况:SOURCE Methanosarcina acetivorans C2AORGANISM Methanosarcina acetivorans C2AArchaea; Euryarchaeota; Methanomicrobia; Methanosarcinales;Methanosarcinaceae; Methanosarcina.FEATURES Location/Qualifierssource 1..225/organism="Methanosarcina acetivorans C2A"/db_xref="taxon:188937"搜索过程附图:(3)对这10条序列进行多序列比对:写出比对所用程序:clustalx比对结果分析:比对所得的以phy为后缀的文件用写字板格式打开后得如下结果: 10 771P24078.1 ---------- ---------- ------MANA DSLDAR-AFS YAPDASFEVIP41678.1 ---------- ---------- ---------- ----TR-NFM YSPDSSLEVVQ9R6U0 ---------- TAKTQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ3AMS5.1 MTISPPERGS DAKSQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ9PM01.1 ------MIID FKKYSSVRIG NEFEVLVLDQ ICDFDG-FLI GGANN----LQ4P0H0 ---------- ---------- -KVEYFVAQI DKELSRYPAL KKFEQTVPVPQ9ZIY0.1 ------SIQT LLSRAKIIAE IRQFFSERGL LEVETPILSE FGVTDVHLSTP24073.2 --IDALLNGT GSTLDEPEIP EVDDLSEMER DAIGEIGNIS FGSSATALSTO96570 ---------E SLSFSGYKLT RRNLYNAPAL KVMGRSVNNS SSNNNDQQQYQ8TPD6.1 ---------- ---------- MSGKTELKPG RTKSRSAIVL AGGRGRRMGMIITNAPNDHD GY---LELNA AARL-LAPFQ KN-ISALWTS ----------IITNSDGDHD GY---LELTA AAKV-MSPFL SNGSSAVWTN ----------NLHANAHDFD SHTSDLEEVS RKIF-SAHFG HLAVIFIWLS GAFFHGARFSNLHANAHDFD AHTSDLQEVS RRIF-SAHFG HLAVIFIWLS GAFFHGARFSLVSPKPKNIG ILGDGFNFIQ ILDR-NKDFI HLRIGCKTKS S---------KAYAALGAFG IFTLFVFFNI AAGF-LTNLL GFFVPAYFS- ----------FSTKLISPFQ KKEKTLWLST SPEYPMKRLL SAGSGAIFQL CKVFRN---ELLNQKVDITT PSVTVIPRSK ISDAFPEPYV AIEVNYTEGF SG--------NLESAKQNTQ IVVIGAGLAG LSAAQHLLRH GFRSTIVLEA TDRYGG---RVEKALLEFEG KTILERLLEN LFRVVDEVIL SVRDIPQKEK ----------……(此处省略约9KB的数据分析结果)以上是多序列比对的纯数据结果,部分数据省略,因为可以从下面的进化树得到具体的分析。
2012生物信息学考试试题剖析
![2012生物信息学考试试题剖析](https://img.taocdn.com/s3/m/0e0c701ceefdc8d376ee3257.png)
1. 生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。
2. BLAST(Basic Local Alignment Search Tool)直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。
(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7. 非信息位点:对于最大简约法来说没有意义的点。
8. 标度树:分支长度与相邻节点对的差异程度成正比的树。
9. 非标度树:只表示亲缘关系无差异程度信息。
10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12. 注释:指从原始序列数据中获得有用的生物学信息。
这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。
生物信息学试题及答案
![生物信息学试题及答案](https://img.taocdn.com/s3/m/9171cb47ae45b307e87101f69e3143323968f5d1.png)
生物信息学试题及答案一、单项选择题(每题2分,共20分)1. 生物信息学的主要研究对象是()。
A. 生物数据B. 生物实验C. 生物模型D. 生物技术答案:A2. 下列哪项不是生物信息学中的常用数据库()。
A. GenBankB. Swiss-ProtC. PubMedD. Google Scholar答案:D3. 蛋白质序列比对的主要目的是()。
A. 确定蛋白质的三维结构B. 预测蛋白质的功能C. 比较蛋白质的氨基酸序列D. 计算蛋白质的分子量答案:B4. 在生物信息学中,以下哪种算法不是用于序列比对的()。
A. BLASTB. FASTAC. Smith-WatermanD. Hidden Markov Model答案:D5. 下列哪种生物信息学工具主要用于基因表达分析()。
A. ClustalWB. Primer3C. R语言D. PDB答案:C6. 以下哪种技术不是用于蛋白质结构预测的()。
A. 同源建模B. 从头预测C. 序列比对D. 折叠识别答案:C7. 以下哪种生物信息学工具主要用于基因组注释()。
A. BLASTC. GATKD. Primer3答案:B8. 在生物信息学中,以下哪种方法不用于基因表达数据的聚类分析()。
A. K-meansB. Hierarchical clusteringC. Principal component analysisD. Multiple sequence alignment答案:D9. 下列哪种生物信息学工具主要用于蛋白质-蛋白质相互作用网络分析()。
A. STRINGB. BLASTD. Primer3答案:A10. 在生物信息学中,以下哪种数据库不包含蛋白质结构信息()。
A. PDBB. UniProtC. RCSBD. GenBank答案:D二、多项选择题(每题3分,共15分)11. 生物信息学中常用的序列比对工具包括()。
A. BLASTB. FASTAC. ClustalWD. Pfam答案:ABC12. 以下哪些是生物信息学中常用的基因表达分析软件()。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。
(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。
序列比对结果
比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。
(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋白序列保存为FASTA格式,存于txt文档;
2.用Clustalx打开txt文本,保存为*.phy文件;
3.用seqboot程序打开phy文件,输出结果文件*_seqboot
4.用protdist程序打开*_seqboot文件,输出为*_protdist文件
5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件
6. 用consense程序打开*_neighbor文件,输出为*_consense文件
7.用dratree程序打开*_consense文件得到进化树。
(注:由于seqboot软见无法正常运行,因此进化树无法显示)
(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。
选择protein3: NP_190855.1
一级结构
网址:/tools/protparam.html
Number of amino acids: 456 氨基酸数目
Molecular weight: 51154.5 相对分子质量
Theoretical pI: 8.69 理论 pI 值
Amino acid composition 氨基酸组成
Ala (A) 30 6.6%
Arg (R) 28 6.1%
Asn (N) 15 3.3%
Asp (D) 27 5.9%
Cys (C) 5 1.1%
Gln (Q) 18 3.9%
Glu (E) 28 6.1%
Gly (G) 37 8.1%
His (H) 16 3.5%
Ile (I) 16 3.5%
Leu (L) 42 9.2%
Lys (K) 32 7.0%
Met (M) 5 1.1%
Phe (F) 17 3.7%
Pro (P) 16 3.5%
Ser (S) 46 10.1%
Thr (T) 21 4.6%
Trp (W) 8 1.8%
Tyr (Y) 19 4.2%
Val (V) 30 6.6%
Pyl (O) 0 0.0%
Sec (U) 0 0.0%
(B) 0 0.0%
(Z) 0 0.0%
(X) 0 0.0%
正/负电荷残基数
Total number of negatively charged residues (Asp + Glu): 55
Total number of positively charged residues (Arg + Lys): 60
Atomic composition: 原子组成
Carbon C 2270
Hydrogen H 3531
Nitrogen N 645
Oxygen O 686
Sulfur S 10
Formula: C2270H3531N645O686S10 分子式
Total number of atoms: 7142 总原子数
Extinction coefficients: 消光系数
Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.
Ext. coefficient 72560
Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310
Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reduced
Estimated half-life: 半衰期
The N-terminal of the sequence considered is M (Met).
The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).
>20 hours (yeast, in vivo).
>10 hours (Escherichia coli, in vivo).
Instability index: 不稳定系数
The instability index (II) is computed to be 48.99
This classifies the protein as unstable.
Aliphatic index: 75.26 脂肪系数
Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性
/tools/protscale.html
蛋白质亲疏水性分析
所用氨基酸标度信息
Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490
分析所用参数信息
Weights for window positions 1,..,9, using linear weight variation model:
1 2 3 4 5 6 7 8 9
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
edge center edge
跨膜结构预测结果(没有跨膜结构)
信号肽分析:
二级结构预测
三级结构预测
网站/~phyre
2、在拟南芥基因组数据库中(/)查找编号分别为At4G33050, At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。
(1)在基因全长序列中标识出5′UTR,exon,intron以及3′UTR等基因特征(具体到碱基数)。
登录网站/ ,输入登录号At3G52870,然后点击Search,结果:
(2)分别利用PLACE和PlantCARE工具对该基因的启动子(假设启动
子是ATG上游2000bp)进行分析,试比较分析的结果。
PLACE分析
Place结果有以下3种呈现方式:
①grouped by signal
该结果没有显示启动子区的碱基序列,结果则是按照名字的首字母排序。
②mapped to sequence scan
③by sequence order
同grouped by signal 显示的结果相似,不过Factor or Site Name的序号由大到小排列。
等
Plantcare分析
网址http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
点击“Search for CARE”,进入,输入fasta格式的基因序列
PlantCARE不仅列出了“+”链和“-”链,且有颜色标示启动子区的各个顺式作用元件和反式作用因子。
如下:
PlantCARE较PLACE更简洁方便,容易查找。
且有function一项,说明这些元件在其结构中的作用。
如下:
(3)预测该基因的功能,并在PubMed中查找一篇相关文献。
Gene Finding
(/berry.phtml)的Gene Finding工具在Softberry主页选择“Gene Finding in Eukaryota”类中的“FGENESH”。