2012生物信息学考试试题
生物信息考试题及答案
生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。
以下是一份生物信息学考试题及答案的示例。
生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。
7. 解释什么是基因组学,并说明其在医学研究中的应用。
8. 描述序列比对的基本原理及其在生物信息学中的作用。
三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。
请计算其互补序列。
10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。
请使用Needleman-Wunsch算法计算它们的全局比对得分。
四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。
答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。
7. 基因组学是研究生物基因组的结构、功能和演化的科学。
在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。
2012生物信息学复习题
2012生物信息学复习题一、选择题1. 根据PAM打分矩阵,下列哪个氨基酸最不容易突变?A) 丙氨酸 B) 谷氨酰胺 C) 甲硫氨酸 D) 半胱氨酸2. 下列哪个句子最好描述了两序列全局比对和局部比对的不同?A) 全局比对通常用于DNA序列,而局部比对通常用于蛋白质序列;B) 全局比对允许间隙,而局部比对不允许间隙;C) 全局比对寻求全局最大化,而局部比对寻求局部最大化;D) 全局比对比对整条序列,而局部比对寻找最佳匹配子序列3. 与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别在哪里?A) 它最好用于比对相关性很近的序列; B) 它是基于近相关蛋白的全局多序列比对;C) 它是基于远相关蛋白的局部多序列比对; D) 它结合了局部和全局比对信息4. 全局比对算法(如Needleman-Wunsch算法)是这样一种算法:A) 把两条比较的蛋白质放到一个矩阵中,然后通过穷尽搜索每一个可能的比对组合来寻找最佳分值的比对;B) 把两条比较的蛋白质放到一个矩阵中,然后通过迭代递归的方法找到最佳的分值;C) 把两条比较的蛋白质放到一个矩阵中,然后通过寻找最佳子序列的方法来找到最佳的比对;D) 能用于蛋白质,但不能用于DNA序列5. 数据库搜索中或双序列比对中,敏感性定义为:A) 搜索算法寻找真阳性(即同源序列)和避免假阳性(即不相干序列,但具有高相似分值)的能力;B) 搜索算法寻找真阳性(即同源序列)和避免假阳性(即没有被搜索算法报告的同源序列)的能力;C) 搜索算法寻找真阳性(即同源序列)和避免假阴性(即不相干序列,但具有高相似分值)的能力;D ) 搜索算法寻找真阳性(即同源序列)和避免假阴性(即没有被搜索算法报告的同源序列)的能力;6. 如有一小段DNA序列,基本上它能编码多少种蛋白?A)1 B)2 C)3 D)67. 有一段DNA序列,如想知道在主要的蛋白质数据库中哪一个与该DNA编码的蛋白最接近,你会选择用哪一个程序?A)blastn B)blastp C)blastx D)tblastx E)tblastn8. blast检索的哪一种输出估计了假阳性的数目?A)E值 B)Bit score C)Percent identity D)Percent positives9. 将下面哪个blast参数改变后会得到更少的检索结果?A)关闭low-complexity filter B)将期望值从1变为0C)提高极限值 D)将打分矩阵从PAM30改为PAM7010.极值分布A)描述了对数据库的query的scores的分布 B)比正态分布的总面积大C)对称 D)形状可用两个参数来描述,即 µ(平均值)和 λ(衰减系数)11.当blast检索的E值减小时A)K值也减小 B)score变大 C)概率p值变大 D)极值分布偏斜率减小12.标准化的blast score(也称为bit scores)A)是没有单位 B)可在不同的blast检索之间比较,即使使用了不同的打分矩阵C)与使用的打分矩阵无关 D)可在不同的blast检索之间比较,但前提是使用相同的打分矩阵13.在EMBL和NCBI数据库中未加工的DNA序列(与注释序列相比)是A)完全重叠了 B)很大程度上重叠了,不过序列不同 C)相对只有一点重叠14.下面的哪种工作,PSI-BLAST搜索最为有效A)在老鼠中找一个人类蛋白质的同源蛋白 B)在数据库查询中找到更多的匹配蛋白 C)在数据库查询中找到更多的匹配DNA序列 D)用模式序列或者信号序列加强数据库搜索15.下面的哪种blast程序是用氨基酸的信号序列在一个蛋白质家族中寻找匹配的?A)PSI-BLAST B)PHI-BLAST C)MS BLAST D)WormBLAST16.下面的哪种blast 程序用来分析免疫球蛋白最好?A)RPS-BLAST B)PHI-BLAST C)IgBLAST D)ProDom17.在一个位点特异性打分矩阵中,列中可以有20种氨基酸。
生物信息技术考试试题
生物信息技术考试试题一、选择题(每题 3 分,共 30 分)1、以下哪个不是生物信息学的主要研究内容?()A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是()A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中,常用的标准化方法是()A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息?()A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的?()A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中,预测蛋白质二级结构的方法不包括()A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中,BLAST 程序主要用于()A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛?()A JavaB PythonC C++D Fortran10、用于分析基因芯片数据的软件包是()A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题(每题 3 分,共 30 分)1、生物信息学中的三大核心数据库是_____、_____、_____。
2、基因序列的相似性搜索常用的工具是_____。
3、蛋白质的一级结构是指_____。
4、常见的基因注释数据库有_____、_____等。
5、系统发育树的构建基于_____的原理。
6、生物信息学中常用的数据格式有_____、_____等。
7、预测蛋白质三级结构的方法主要有_____、_____。
8、基因表达数据的差异分析常用的方法有_____、_____。
9、用于分析高通量测序数据的软件有_____、_____。
生物信息学复习题及答案(打印)
生物信息学复习题及答案(打印)一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
2012生物信息学考试试题
1. 生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。
2. BLAST(Basic Local Alignment Search Tool)直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。
(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7. 非信息位点:对于最大简约法来说没有意义的点。
8. 标度树:分支长度与相邻节点对的差异程度成正比的树。
9. 非标度树:只表示亲缘关系无差异程度信息。
10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12. 注释:指从原始序列数据中获得有用的生物学信息。
这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。
生物信息学试题
生物信息学考题(2012版)一、填空题(共10分,每空一分)1、美国政府于1990年10月启动耗资30亿美元的15年研究计划,预期到2005年完成人类基因组大约30亿个碱基的全序列测定,这就是被称为生命科学“登月计划”的人类基因组计划。
2、生物信息学的研究目标:以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩瀚如海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。
3、随着生物信息学的诞生及应用,今后生物学研究项目的起点将是理论的,一位科学家将从理论推测开始,然后转向试验去追踪或检验该假设。
4、生物信息学作为一门交叉学科,已经成为当今生命科学乃至整个自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一。
5、人类基因组计划、“曼哈顿原子计划”和“阿波罗登月计划”并称为20世纪的三大著名计划,中国在1999年承担了1%的研究任务,即对第3号染色体上3000万碱基对的测定。
6、人类基因组的主要任务是:人类基因组以及一些模式生物(细菌、酵母、线虫、果蝇等)基因组作图、测序和基因识别。
二、是非题(共10分,每小题1分)1、生物学就是实验科学,所有的研究结论从实验中来,于实验中得到验证。
(错)2、比较是科学研究中最常见的方法,在生物信息学研究中,比对是最常用和最经典的研究手段。
(对)3、两个蛋白质序列相似性超过30%就是同源蛋白。
(错)4、蛋白质序列相似性指一级序列中氨基酸残基相同。
(错)5、蛋白质序列相似性指氨基酸残基具有相似特性:侧链基团大小电荷性、疏水性等相同。
(对)6、核酸序列相似性指序列中相同碱基所占的比例。
(对)7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。
(错)8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。
(对)9、相似性是指一种很直接的数量关系,无需实验验证。
生物信息学基础考试试题
生物信息学基础考试试题生物信息学基础考试试题回答一、选择题(每题5分,共20题)1. 生物信息学的定义是什么?A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案:B2. 以下哪个是常用的生物信息学数据库?A. NCBIB. C++C. DNAD. Photosynthesis答案:A3. 在DNA序列中,碱基A配对的是?A. TB. CC. GD. U答案:A4. 以下哪个是生物信息学中常用的序列比对算法?A. BLASTB. MATLABC. PCRD. ELISA答案:A5. 基因组学是研究什么的科学?A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案:C6. 哪种技术可用于测定DNA序列?A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案:C7. 生物信息学中的序列模拟是指什么?A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案:A8. 以下哪个是生物信息学的一个重要应用领域?A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案:C9. 哪个工具常用于分析生物信息中的调控网络?A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案:B10. 蛋白质结构预测是生物信息学的一个重要研究方向,以下哪种是蛋白质的一级结构?A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案:C11. 生物信息学与生物医学工程有什么相似之处?A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案:C12. 在基因组测序中,什么是基因组装?A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案:A13. 以下哪个不属于生物信息学的软件工具?A. BLASTB. PhotoshopC. RD. Python答案:B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究?A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案:A15. 生物信息学中的反向遗传学用于研究什么?A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案:B16. 哪种方法可用于鉴定基因表达谱中的关键基因?A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案:B17. 生物信息学研究中常用的基因表达定量方法是什么?A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案:C18. 生物信息学中的系统生物学研究的是什么?A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案:C19. 下面哪个数据库不是用于蛋白质结构预测的?A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案:D20. 生物信息学中常用的序列对比方法是什么?A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案:B二、简答题(每题10分,共5题)1. 编程语言在生物信息学中的作用是什么?编程语言在生物信息学中扮演着重要角色。
《生物信息学》题集
《生物信息学》题集一、选择题(每题3分,共30分)1.生物信息学的主要研究对象是什么?A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术?A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中,进行多序列比对时常用的软件是什么?A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析?A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中,下列哪项不是常用的序列分析技术?A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用?A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测?A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中,下列哪项不是基因注释的内容?A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术?A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用?A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题(每题2分,共20分)1.生物信息学是一门交叉学科,它主要涉及______、计算机科学和数学等领域。
2.在生物信息学中,______技术常用于基因序列的相似性搜索。
3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。
4.在基因表达数据分析中,______是一种常用的数据标准化方法。
5.生物信息学中,______技术常用于蛋白质结构的预测和分析。
6.在生物信息学数据库中,GenBank主要存储的是______数据。
2012生物信息学题库
一、选择题:1.以下哪一个是mRNA条目序列号:A. J01536B. NM_15392C. NP_52280D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:A. UnigeneB. EntrezC. LocusLinkD. PCR3.一个基因可能对应两个Unigene簇吗?A. 可能B. 不可能4.下面哪种数据库源于mRNA信息:A. dbESTB. PDBC. OMIMD. HTGS5.下面哪个数据库面向人类疾病构建:A. EST B. PDBC. OMIMD. HTGS6.Refseq和GenBank有什么区别:A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列C. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A. OMIMB. EntrezC. PubMedD. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样C. 搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:A. N/W/YB. Q/W/YC. F/W/YD. Q/N/W10.直系同源定义为:A. 不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A. 丙氨酸B. 谷氨酰胺C. 甲硫氨酸D.半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A. 1%B. 20%C. 80%D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化D. 全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
生物信息学考试试题
生物信息学考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种不是常见的生物信息学数据库?()A GenBankB SWISSPROTC PubMedD Baidu2、在 DNA 序列分析中,以下哪个不是用于序列比对的算法?()A NeedlemanWunsch 算法B SmithWaterman 算法C BLAST 算法D Fourier 变换算法3、蛋白质结构预测的方法不包括()A 同源建模B 从头预测C 折叠识别D 随机模拟4、以下哪种不是基因表达数据分析的常用方法?()A 聚类分析B 主成分分析C 判别分析D 回归分析5、生物信息学中,用于预测蛋白质功能的方法有()A 基于序列相似性B 基于结构相似性C 基于基因共表达D 以上都是6、在基因组学中,以下哪个不是测序技术?()A Sanger 测序B 二代测序C 三代测序D 四代测序7、系统发生树构建的方法不包括()A 距离法B 最大简约法C 最大似然法D 最小二乘法8、以下哪种不是生物信息学中常用的编程语言?()A PythonB JavaC C++D Visual Basic9、以下哪个不是生物信息学在医学领域的应用?()A 疾病诊断B 药物研发C 医疗美容D 个性化医疗10、生物信息学中,处理大规模数据常用的工具是()A ExcelB R 语言C SPSSD Word二、填空题(每题 2 分,共 20 分)1、生物信息学是一门融合了生物学、计算机科学和()的交叉学科。
2、常见的核酸序列格式有 FASTA 和()。
3、蛋白质的二级结构包括α螺旋、β折叠和()等。
4、基因芯片技术是一种()分析技术。
5、序列比对的目的是寻找两个或多个序列之间的()。
6、人类基因组计划的主要目标是测定人类基因组的()序列。
7、生物信息学中的隐马尔可夫模型主要用于()。
8、系统发生分析中,外群的作用是()。
9、蛋白质相互作用网络分析有助于理解()。
10、生物信息学数据库可以分为一级数据库和()数据库。
2012生物信息学题库
■一、选择题:1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变: A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80%D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
生物信息考试题及答案
生物信息考试题及答案一、选择题(每题2分,共20分)1. 基因组学研究的核心是()。
A. 基因克隆B. 基因表达C. 基因组序列D. 基因功能答案:C2. 下列哪项不是生物信息学的主要研究内容?()A. 基因组序列分析B. 蛋白质结构预测C. 植物分类学D. 基因表达分析答案:C3. 转录组学研究的是()。
A. 基因组中的所有基因B. 特定细胞或组织中的所有RNA分子C. 特定细胞或组织中的所有蛋白质分子D. 特定细胞或组织中的所有DNA分子答案:B4. 下列哪个数据库主要用于存储蛋白质序列信息?()A. GenBankB. PDBC. Swiss-ProtD. EMBL答案:C5. 以下哪个不是生物信息学中常用的序列比对工具?()A. BLASTB. FASTAC. ClustalWD. PCR答案:D6. 以下哪个是用于蛋白质三维结构预测的软件?()A. Swiss-ProtB. PDBC. MODELLERD. GenBank答案:C7. 以下哪个是用于基因表达分析的高通量技术?()A. Sanger测序B. 微阵列C. PCRD. 质谱分析答案:B8. 下列哪个是用于基因组关联研究的统计方法?()A. 聚类分析B. 系统发育分析C. 连锁不平衡分析D. 多态性分析答案:C9. 以下哪个是用于蛋白质-蛋白质相互作用网络分析的工具?()A. STRINGB. BLASTC. ClustalWD. GenBank答案:A10. 下列哪个是用于生物信息学数据可视化的工具?()A. R语言B. PythonC. CytoscapeD. Perl答案:C二、填空题(每题2分,共20分)1. 生物信息学是一门结合了__________、__________和__________的交叉学科。
答案:生物学、计算机科学、信息技术2. 基因组学中的“组”指的是__________的集合。
答案:基因3. 转录组学研究的RNA分子包括__________、__________和__________。
生物信息学试题
生物信息学考题(2012版)一、填空题(共10分,每空一分)1、美国政府于1990年10月启动耗资30亿美元的15年研究计划,预期到2005年完成人类基因组大约30亿个碱基的全序列测定,这就是被称为生命科学“登月计划”的人类基因组计划。
2、生物信息学的研究目标:以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩瀚如海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。
3、随着生物信息学的诞生及应用,今后生物学研究项目的起点将是理论的,一位科学家将从理论推测开始,然后转向试验去追踪或检验该假设。
4、生物信息学作为一门交叉学科,已经成为当今生命科学乃至整个自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一。
5、人类基因组计划、“曼哈顿原子计划”和“阿波罗登月计划”并称为20世纪的三大著名计划,中国在1999年承担了1%的研究任务,即对第3号染色体上3000万碱基对的测定。
6、人类基因组的主要任务是:人类基因组以及一些模式生物(细菌、酵母、线虫、果蝇等)基因组作图、测序和基因识别。
二、是非题(共10分,每小题1分)1、生物学就是实验科学,所有的研究结论从实验中来,于实验中得到验证。
(错)2、比较是科学研究中最常见的方法,在生物信息学研究中,比对是最常用和最经典的研究手段。
(对)3、两个蛋白质序列相似性超过30%就是同源蛋白。
(错)4、蛋白质序列相似性指一级序列中氨基酸残基相同。
(错)5、蛋白质序列相似性指氨基酸残基具有相似特性:侧链基团大小电荷性、疏水性等相同。
(对)6、核酸序列相似性指序列中相同碱基所占的比例。
(对)7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。
(错)8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。
(对)9、相似性是指一种很直接的数量关系,无需实验验证。
生物信息试题及答案
生物信息试题及答案一、选择题(每题2分,共20分)1. 生物信息学的主要研究对象是()。
A. 蛋白质结构B. 基因组序列C. 细胞信号传导D. 生物分子相互作用答案:B2. 以下哪项不是生物信息学的主要任务?()A. 基因预测B. 蛋白质功能预测C. 疾病诊断D. 植物分类学研究答案:D3. 人类基因组计划的主要目标是()。
A. 确定人类基因组中的所有基因B. 确定人类基因组中的所有蛋白质C. 确定人类基因组中的所有核苷酸序列D. 确定人类基因组中的所有代谢途径答案:C4. 以下哪种生物信息数据库不是公共数据库?()A. GenBankB. Swiss-ProtC. PDBD. Myriad Genetics答案:D5. 在生物信息学中,BLAST是一种()。
A. 基因克隆技术B. 基因表达分析软件C. 序列比对工具D. 蛋白质结构预测方法答案:C6. 以下哪种序列分析方法不适用于大规模基因组数据?()A. 多重序列比对B. 单序列比对C. 基因预测D. 基因家族分析答案:B7. 以下哪种技术不是用于蛋白质结构预测的?()A. 同源建模B. 从头预测C. 基因克隆D. 蛋白质折叠模拟答案:C8. 以下哪种生物信息学工具主要用于蛋白质功能预测?()A. PfamB. BLASTC. ClustalWD. Swiss-Prot答案:A9. 以下哪种生物信息学数据库专门存储蛋白质结构数据?()A. GenBankB. Swiss-ProtC. PDBD. KEGG答案:C10. 在生物信息学中,以下哪种数据类型不是高通量数据?()A. 基因表达数据B. 蛋白质组数据C. 代谢组数据D. 单个基因序列答案:D二、填空题(每题2分,共20分)1. 生物信息学是应用__________和__________技术,研究生物大分子结构、功能和相互作用的科学。
答案:计算机;信息技术2. 人类基因组计划完成于__________年。
生物信息学试题
生物信息学考题(2012版)一、填空题(共10分,每空一分)1、美国政府于1990年10月启动耗资30亿美元的15年研究计划,预期到2005年完成人类基因组大约30亿个碱基的全序列测定,这就是被称为生命科学“登月计划”的人类基因组计划。
2、生物信息学的研究目标:以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩瀚如海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。
3、随着生物信息学的诞生及应用,今后生物学研究项目的起点将是理论的,一位科学家将从理论推测开始,然后转向试验去追踪或检验该假设。
4、生物信息学作为一门交叉学科,已经成为当今生命科学乃至整个自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一。
5、人类基因组计划、“曼哈顿原子计划”和“阿波罗登月计划”并称为20世纪的三大著名计划,中国在1999年承担了1%的研究任务,即对第3号染色体上3000万碱基对的测定。
6、人类基因组的主要任务是:人类基因组以及一些模式生物(细菌、酵母、线虫、果蝇等)基因组作图、测序和基因识别。
二、是非题(共10分,每小题1分)1、生物学就是实验科学,所有的研究结论从实验中来,于实验中得到验证。
(错)2、比较是科学研究中最常见的方法,在生物信息学研究中,比对是最常用和最经典的研究手段。
(对)3、两个蛋白质序列相似性超过30%就是同源蛋白。
(错)4、蛋白质序列相似性指一级序列中氨基酸残基相同。
(错)5、蛋白质序列相似性指氨基酸残基具有相似特性:侧链基团大小电荷性、疏水性等相同。
(对)6、核酸序列相似性指序列中相同碱基所占的比例。
(对)7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。
(错)8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。
(对)9、相似性是指一种很直接的数量关系,无需实验验证。
生物信息学考试试题
生物信息学考试试题1. 选择题1. DNA序列中哪种碱基与腺嘌呤形成碱基对?A. 腺嘌呤B. 胸腺嘧啶C. 钝甲嘧啶D. 尿嘧啶2. 下列哪种不属于生物信息学中常用的序列比对软件?A. BLASTB. ClustalWC. PhotoshopD. MEGA3. 在生物信息学中,什么是基因组装?A. 把基因组序列和蛋白质序列对应起来B. 把已知的DNA序列分析并组装成完整的基因组C. 把DNA序列和RNA序列对比分析D. 把基因组序列转录为RNA序列4. 下列哪个软件主要用于预测DNA序列中的基因结构?A. BLASTB. ClustalWC. FGENESD. MEGA5. 在生物信息学中,什么是密码子?A. DNA序列中的重复单元B. 氨基酸序列C. tRNA分子上的核苷酸组合D. mRNA上的三联体核苷酸序列2. 简答题1. 请简要解释生物信息学在基因组学中的应用。
2. 什么是序列比对?序列比对的意义是什么?3. 解释基因组装和基因注释在生物信息学中的作用。
4. 生物信息学中常用的两种序列分析方法分别是什么?简要描述它们的原理。
5. 请简要介绍生物信息学在进化比较基因组学中的应用。
3. 计算题1. 给定以下两条序列,求它们的相似度:序列1: ATCGTCCGATT序列2: ATCGACCGTTA2. 已知一个DNA序列长度为1000bp,其中AT含量为60%,求该序列中GC含量百分比。
4. 应用题1. 请利用BLAST软件对一组已知DNA序列进行序列比对,并解释结果。
2. 请使用ClustalW对两个已知蛋白质序列进行多序列比对,并分析比对结果。
3. 选取一个基因组装软件,对一个已知基因组序列进行装配,并解释装配结果。
以上是生物信息学考试试题,希望您认真作答,祝您考试顺利!。
江苏省2012年高考信息卷(一)生物试题
2012年高考信息卷(一)生物试题本试卷满分120分,考试时间100分钟。
一、单项选择题:本部分包括20题,每题2分,共计40分.每题只有一个选项最符合题意.l.下列有关生物体内有机化合物及其功能的叙述,正确的是____.A.氨基酸、多肽是蛋白质的基本组成单位B.胰高血糖素能强烈促进肝糖原分解和非糖物质转化C.在细胞内和细胞间传递信息的物质都是蛋白质D.在人体细胞内能贮存能量的二糖是麦芽糖和乳糖2“退伍军人杆菌”是一类在侵入人体后大部分时间停留在人体细胞内(特别是吞噬细胞),并繁殖的病原菌。
下列有关叙述中,不正确的是A.退伍军人杆菌细胞中可有8种核苷酸、5种碱基B.退伍军人杆菌蛋白质的合成场所是人细胞核糖体C.感染者的特异性免疫和非特异性免疫都可能下降D.感染病愈者血清中可以检测到相应的特异性抗体3.下列关于细胞结构与功能的叙述,不正确的是____.A.核膜上的核孔是细胞核和细胞质之间大分子物质交流的通道B.成熟的植物细胞通过渗透作用吸水与液泡、细胞膜等结构有关C.心肌细胞中的线粒体数量较多与细胞消耗能量较多有关D.细胞内各种生物膜在结构上有联系,在功能上没有联系4.2,6一二氯酚靛酚是一种蓝色染料.能被还原剂还原成无色.从叶绿体中分离出类囊体,置于2,6一二氯酚靛酚溶液中,对其进行光照,发现溶液变成无色,并有氧气释放。
此实验证明.A.光反应也可以在叶绿体基质中进行B.光合作用产生的O2中的氧元素来自H2OC.光合作用的光反应能产生还原剂和O2D.2,6 一二氯酚靛酚可以作为暗反应的还原剂5.在造血干细胞分化为吞噬细胞的过程中,细胞内____.A.细胞核和各种细胞器逐渐消失B.mRNA种类发生了改变C.染色体种类发生了改变D.转运RNA种类发生了改变6.某种哺乳动物的基因型为AABb,右图是它体内正在进行分裂的一个细胞的模式图,此细胞____A.是次级卵母细胞,产生的卵细胞的基因型为AB或aB B.含同源染色体2对、DNA分子4个、染色单体4个C.细胞中正发生的同源染色体分离和非同源染色体自由组合D.产生的子细胞含一个染色体组、两条染色体7.下图为某哺乳动物某个DNA分子中a、b、c三个基因的分布状况,其中I、II为非基因序列。
生物信息学试题及个人答案(非参考答案)
生物信息学答题卷考题一:到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列,写出序列名称、登录号及来源物种的分类情况,然后用Blast(注意:写出所用程序及所搜索的数据库名称)搜索到数据库中和它相似程度较高的10条序列(写出这些序列的名称和登陆号及来源物种的分类情况。
要求至少包括3-4个属,每个属中选择1-2个种),对这10条序列进行多序列比对后(写出比对所用程序及比对结果),使用phylip软件,用距离法对它们进行分子进化分析(包括对进化树进行统计评估),说明这种蛋白质的进化历程(60分)。
答:(1)到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列如下:完整序列(ORIGIN):1 mastdsldtr tfdyasdssf eviiitnaph dydgyielga aarllapfqk nisalwtnaa61 pshkltrnnk nylhvfglfk ylqnynlntk khppeyytik svicdlmmga qgktfdplce121 iktqlcaiqe slneaivtln ghaaadpapr tearelvesl hseyskkltf atdtildhvk181 sikdlvclnk序列名称: capsid protein [Choristoneura fumiferana MNPV]即:云杉卷叶蛾(虎尾松卷叶蛾)颗粒体病毒具体信息:LOCUS NP_848433 190 aa linear VRL06-MAY-2009登录号(ACCESSION): NP_848433来源物种的分类情况SOURCE Choristoneura fumiferana MNPVORGANISM Choristoneura fumiferana MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..190/organism="Choristoneura fumiferana MNPV"/db_xref="taxon:208973"/country="Ireland"(2)然后用Blast搜索和它相似程度较高的10条序列如下:说明:所用程序:blosum62所搜索的数据库名称:swissprot数据库中和它相似程度较高的10条序列1、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVOP 192 aa linear VRL 11-JAN-2011登录号:P24078来源物种的分类情况:SOURCE Orgyia pseudotsugata MNPVORGANISM Orgyia pseudotsugata MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..192/organism="Orgyia pseudotsugata MNPV"/host="Orgyia pseudotsugata (Douglas fir tussock moth)"/db_xref="taxon:262177"2、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVAC 198 aa linear VRL 11-JAN-2011登录号:P41678来源物种的分类情况:SOURCE Autographa californica nucleopolyhedrovirusORGANISM Autographa californica nucleopolyhedrovirusViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..198/organism="Autographa californica nucleopolyhedrovirus"/host="Lepidoptera (butterflies and moths)"/db_xref="taxon:46015"3、RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliY名称:RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliYLOCUS FLIY_BACSU 378 aa linear BCT 08-FEB-2011登录号:P24073来源物种的分类情况:SOURCE Bacillus subtilisORGANISM Bacillus subtilisBacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.FEATURES Location/Qualifierssource 1..378/organism="Bacillus subtilis"/db_xref="taxon:1423"4、RecName: Full=Uncharacterized protein YjeA名称:RecName: Full=Uncharacterized protein YjeALOCUS YJEA_HAEGA 322 aa linear BCT 30-NOV-2010登录号:Q9ZIY0来源物种的分类情况:SOURCE Avibacterium paragallinarumORGANISM Avibacterium paragallinarumBacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;Pasteurellaceae; Avibacterium.FEATURES Location/Qualifierssource 1..322/organism="Avibacterium paragallinarum"/db_xref="taxon:728"5、RecName: Full=Protein YOP1名称:RecName: Full=Protein YOP1LOCUS YOP1_USTMA 172 aa linear PLN 08-MAR-2011 登录号:Q4P0H0来源物种的分类情况:SOURCE Ustilago maydisORGANISM Ustilago maydisEukaryota; Fungi; Dikarya; Basidiomycota; Ustilaginomycotina;Ustilaginomycetes; Ustilaginales; Ustilaginaceae; Ustilago. FEATURES Location/Qualifierssource 1..172/organism="Ustilago maydis"/db_xref="taxon:5270"6、RecName: Full=Protein anon-37Cs名称:RecName: Full=Protein anon-37CsLOCUS A37C_DROLE 544 aa linear INV 10-AUG-2010 登录号:O96570来源物种的分类情况:SOURCE Scaptodrosophila lebanonensisORGANISM Scaptodrosophila lebanonensisEukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;Ephydroidea; Drosophilidae; Scaptodrosophila.FEATURES Location/Qualifierssource 1..544/organism="Scaptodrosophila lebanonensis"/db_xref="taxon:7225"7、RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA名称:RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA LOCUS PSAA_SYNPW 767 aa linear BCT 08-FEB-2011登录号:Q9R6U0来源物种的分类情况:SOURCE Synechococcus sp. WH 7803ORGANISM Synechococcus sp. WH 7803Bacteria; Cyanobacteria; Chroococcales; Synechococcus.FEATURES Location/Qualifierssource 1..767/organism="Synechococcus sp. WH 7803"/db_xref="taxon:32051"8、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJE 258 aa linear BCT 08-FEB-2011登录号:Q9PM01来源物种的分类情况:SOURCE Campylobacter jejuniORGANISM Campylobacter jejuniBacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni"/db_xref="taxon:197"9、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJR 258 aa linear BCT 08-FEB-2011登录号:Q5HSB7来源物种的分类情况:SOURCE Campylobacter jejuni RM1221ORGANISM Campylobacter jejuni RM1221Bacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni RM1221"10、RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A 名称:RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A LOCUS MOBA_METAC 225 aa linear BCT 03-MAY-2011登陆号:Q8TPD6来源物种的分类情况:SOURCE Methanosarcina acetivorans C2AORGANISM Methanosarcina acetivorans C2AArchaea; Euryarchaeota; Methanomicrobia; Methanosarcinales;Methanosarcinaceae; Methanosarcina.FEATURES Location/Qualifierssource 1..225/organism="Methanosarcina acetivorans C2A"/db_xref="taxon:188937"搜索过程附图:(3)对这10条序列进行多序列比对:写出比对所用程序:clustalx比对结果分析:比对所得的以phy为后缀的文件用写字板格式打开后得如下结果: 10 771P24078.1 ---------- ---------- ------MANA DSLDAR-AFS YAPDASFEVIP41678.1 ---------- ---------- ---------- ----TR-NFM YSPDSSLEVVQ9R6U0 ---------- TAKTQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ3AMS5.1 MTISPPERGS DAKSQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ9PM01.1 ------MIID FKKYSSVRIG NEFEVLVLDQ ICDFDG-FLI GGANN----LQ4P0H0 ---------- ---------- -KVEYFVAQI DKELSRYPAL KKFEQTVPVPQ9ZIY0.1 ------SIQT LLSRAKIIAE IRQFFSERGL LEVETPILSE FGVTDVHLSTP24073.2 --IDALLNGT GSTLDEPEIP EVDDLSEMER DAIGEIGNIS FGSSATALSTO96570 ---------E SLSFSGYKLT RRNLYNAPAL KVMGRSVNNS SSNNNDQQQYQ8TPD6.1 ---------- ---------- MSGKTELKPG RTKSRSAIVL AGGRGRRMGMIITNAPNDHD GY---LELNA AARL-LAPFQ KN-ISALWTS ----------IITNSDGDHD GY---LELTA AAKV-MSPFL SNGSSAVWTN ----------NLHANAHDFD SHTSDLEEVS RKIF-SAHFG HLAVIFIWLS GAFFHGARFSNLHANAHDFD AHTSDLQEVS RRIF-SAHFG HLAVIFIWLS GAFFHGARFSLVSPKPKNIG ILGDGFNFIQ ILDR-NKDFI HLRIGCKTKS S---------KAYAALGAFG IFTLFVFFNI AAGF-LTNLL GFFVPAYFS- ----------FSTKLISPFQ KKEKTLWLST SPEYPMKRLL SAGSGAIFQL CKVFRN---ELLNQKVDITT PSVTVIPRSK ISDAFPEPYV AIEVNYTEGF SG--------NLESAKQNTQ IVVIGAGLAG LSAAQHLLRH GFRSTIVLEA TDRYGG---RVEKALLEFEG KTILERLLEN LFRVVDEVIL SVRDIPQKEK ----------……(此处省略约9KB的数据分析结果)以上是多序列比对的纯数据结果,部分数据省略,因为可以从下面的进化树得到具体的分析。
生物信息学试题及答案
生物信息学试题及答案一、单项选择题(每题2分,共20分)1. 生物信息学的主要研究对象是()。
A. 生物数据B. 生物实验C. 生物模型D. 生物技术答案:A2. 下列哪项不是生物信息学中的常用数据库()。
A. GenBankB. Swiss-ProtC. PubMedD. Google Scholar答案:D3. 蛋白质序列比对的主要目的是()。
A. 确定蛋白质的三维结构B. 预测蛋白质的功能C. 比较蛋白质的氨基酸序列D. 计算蛋白质的分子量答案:B4. 在生物信息学中,以下哪种算法不是用于序列比对的()。
A. BLASTB. FASTAC. Smith-WatermanD. Hidden Markov Model答案:D5. 下列哪种生物信息学工具主要用于基因表达分析()。
A. ClustalWB. Primer3C. R语言D. PDB答案:C6. 以下哪种技术不是用于蛋白质结构预测的()。
A. 同源建模B. 从头预测C. 序列比对D. 折叠识别答案:C7. 以下哪种生物信息学工具主要用于基因组注释()。
A. BLASTC. GATKD. Primer3答案:B8. 在生物信息学中,以下哪种方法不用于基因表达数据的聚类分析()。
A. K-meansB. Hierarchical clusteringC. Principal component analysisD. Multiple sequence alignment答案:D9. 下列哪种生物信息学工具主要用于蛋白质-蛋白质相互作用网络分析()。
A. STRINGB. BLASTD. Primer3答案:A10. 在生物信息学中,以下哪种数据库不包含蛋白质结构信息()。
A. PDBB. UniProtC. RCSBD. GenBank答案:D二、多项选择题(每题3分,共15分)11. 生物信息学中常用的序列比对工具包括()。
A. BLASTB. FASTAC. ClustalWD. Pfam答案:ABC12. 以下哪些是生物信息学中常用的基因表达分析软件()。
生物信息学考试试卷
一、名词解释(每小题4分,共20分)1、生物信息学广义:生命科学中的信息科学。
生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。
狭义:生物分子信息的获取、存贮、分析和利用。
2、人类基因组计划人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。
其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。
作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。
3、蛋白质的一级结构蛋白质的一级结构是指多肽链中氨基酸的序列4、基因基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。
5、中心法则是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。
也可以从DNA传递给DNA,即完成DNA的复制过程。
这是所有有细胞结构的生物所遵循的法则。
6 、DNA序列比较序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系7、一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释8、基因识别基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。
基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。
9、系统发生学系统发生学(phylogenetics)——研究物种之间的进化关系。
10、基因芯片基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质
核苷酸
(已翻译)
适合寻找数据库中尚未标注的编码区
将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比
TBlastx
核苷酸
(已翻译)
核苷酸
(已翻译)
适合分析EST序列
无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列
质谱分析的两个工具
19.分子途径是指一组连续起作用以达到共同目标的蛋白质。
20.虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。21.先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
2. BLAST的五个子程序
程序
查询序列
数据库种类
简述
方法
Blastp
蛋白质
蛋白质
可以找到具有远源进化关系的匹配序列
待搜索蛋白序列与蛋白数据库比较
Blastn
核苷酸
核苷酸
适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较
Blastx
核苷酸
(已翻译)
蛋白质
适合新DNA序列和EST序列的分析
25.蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
二.填空题
1.常用的三种序列格式:NBRF/PIR,FASTA和GDE
2.初级序列数据库:GenBank,EMBL和DDBJ
具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。(以下为研究生课件部分)
PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。
4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)
12.简述DNA计算机的基本原理:
1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;
2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。
5. HMM隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
11.先导化合物的来源有四种来源:
1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)
2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)
3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)
14.检测系统发育树可靠性的技术:bootstrapping和Jack-knifing
15.原核生物和真核生物基因组中的注释所涉及的问题是不同的
16.检测原核生物ORF的程序:NCBI ORF finder
17.测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18.二级结构的三种状态:α螺旋,β折叠和β转角
意译:基于局部序列排比的常用数据库搜索工具
含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到;2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列;
3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;
8.简述人工神经网络预测蛋白质二级结构的基本步骤。
1)输入数据(来自PDB)
2)产生一个神经网络(一个计算程序)
3)用已知的蛋白质二级结构来训练这个模型
4)由训练好的模型来给出未知蛋白的一个可能的结构
5)最后从生物角度来检验预测的一系列氨基酸是否合理
9.预测蛋白质三级结构的三种方法
1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型;2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;
利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。
5.多序列联配的意义:
1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。6.系统发育学的研究方法:
22.权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。
23.系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
24.系统生物学(systemsbiology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
8.高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)
9.多序列联配的常用软件:Clustal
10.蛋白质结构域家族的数据库有:Pfam,SMART
11.系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法
12.系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法
13.常用系统发育分析软件:PHYLIP
24.质谱的两个数据库搜索工具:SEQEST和Lutkefish
三.问答题
1. FASTA序列格式
第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。(NBIR/PIR序列格式
第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。
GDE序列格式
与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)
13.聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14.无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。
15.有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
16.微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层
20.通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)
21.蛋白质质谱数据搜索工具:SEQUEST
22.分子途径最广泛数据库:KEGG
23.聚类分析方法,分为有监督学习方法,无监督学习方法
17.虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。
是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。
18.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。
7.系统发育树的构建方法:
1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;
2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类;
3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。