生物信息学试题复习参考(张弓)
生物信息学复习题
生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科,它利用计算机技术来处理和分析生物数据。
以下是一些生物信息学复习题,供同学们参考:1. 生物信息学的定义和应用领域- 生物信息学是如何定义的?- 生物信息学在哪些领域有应用?2. 基因组学基础- 什么是基因组学?- 基因组测序的基本原理是什么?3. 序列比对- 序列比对的目的是什么?- 简述局部比对和全局比对的区别。
4. BLAST算法- BLAST算法的原理是什么?- 如何使用BLAST进行序列相似性搜索?5. 基因表达数据分析- 基因表达数据有哪些类型?- 描述基因表达数据的预处理步骤。
6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么?- 简述几种常见的蛋白质结构预测方法。
7. 系统生物学和网络分析- 系统生物学研究的是什么?- 网络分析在系统生物学中的应用。
8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。
- 解释数据库在生物信息学研究中的作用。
9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用?- 简述Python在生物信息学中的应用。
10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题?- 如何保护生物信息数据的隐私?11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。
- 分析该案例中使用的方法和技术。
12. 未来趋势- 预测生物信息学未来的发展趋势。
- 讨论生物信息学如何影响未来的科学研究和医疗保健。
通过这些问题的复习,同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。
希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。
生物信息考试题及答案
生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。
以下是一份生物信息学考试题及答案的示例。
生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。
7. 解释什么是基因组学,并说明其在医学研究中的应用。
8. 描述序列比对的基本原理及其在生物信息学中的作用。
三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。
请计算其互补序列。
10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。
请使用Needleman-Wunsch算法计算它们的全局比对得分。
四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。
答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。
7. 基因组学是研究生物基因组的结构、功能和演化的科学。
在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。
生物信息学试题复习参考(张弓)
2014-2015学年生物信息学期末考试题写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。
因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。
祝大家考试顺利。
一、实验设计和基础分析以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。
目的:比较肺癌细胞迁移前后的X基因转录水平表达量方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。
(2)用poly-dT引物进行反转录(3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。
GAPDH作为内参。
(4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量(5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因)2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。
上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。
;方案:用Oligodt进行逆转录。
二、双序列比对的生物学意义解释两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):(1)请从BLAST的算法原理出发,解释为什么会出现这种情况。
生物信息学试题
生物信息学试题一、选择题1. 生物信息学主要研究的是:A. 生物实验技术B. 生物统计学C. 生物大数据分析与计算D. 生物体内生化反应2. 在生物信息学中,常用的序列比对工具是:A. BLASTB. PCRC. ELISAD. SDS-PAGE3. 下列哪个数据库主要用于存储核酸序列信息?A. PDBB. GenBankC. UniProtD. KEGG4. 以下哪种方法不是用于蛋白质结构预测的?A. 同源建模B. 折叠识别C. 从头预测D. 实验测定5. 生物信息学中的“基因家族”是指:A. 一组具有相似序列和功能的基因B. 一组来自同一物种的基因C. 一组通过基因复制产生的基因D. 一组控制同一生物过程的基因二、简答题1. 简述生物信息学在现代医学研究中的应用。
2. 描述PCR技术的原理及其在分子生物学中的重要性。
3. 解释什么是基因编辑技术,以及CRISPR-Cas9系统是如何工作的。
三、论述题1. 论述生物信息学在新药发现和开发中的作用。
2. 分析比较RNA测序技术与DNA测序技术的优势和局限性。
四、计算题1. 给定一个DNA序列:“ATGCGATACCTGAGCTG”,计算其碱基组成的比例。
2. 假设某种生物的基因组大小为200 Mb,每个碱基对的平均质量为650 Da,计算该基因组的大致质量。
五、案例分析题1. 根据给定的某种疾病的基因组数据,分析可能的致病基因,并讨论其可能的生物机制。
2. 通过分析某物种的转录组数据,探讨其在特定环境下的适应性变化。
请注意,以上试题仅供参考,具体题目应根据实际教学大纲和考试要求进行调整。
在实际考试中,题目可能会包含更多的细节和复杂性,要求考生具备扎实的生物信息学知识和分析能力。
生物信息学复习题
生物信息学复习题### 生物信息学复习题#### 一、选择题1. 生物信息学主要研究的是什么?A. 生物学数据的收集和存储B. 生物学数据的分析和解释C. 生物学实验的设计和执行D. 生物学仪器的操作和维护2. 下列哪一项不是生物信息学中常用的数据库?A. GenBankB. PDBC. PubMedD. Google Scholar3. 序列比对的目的是什么?A. 确定序列间的同源性B. 预测蛋白质的三维结构C. 鉴定基因的功能D. 计算基因的表达量#### 二、填空题1. 生物信息学中的BLAST工具主要用于__________。
2. 基因表达分析中常用的芯片技术包括__________和__________。
3. 在蛋白质结构预测中,同源建模依赖于__________数据库中的已知结构。
4. 转录组测序(RNA-Seq)可以用于研究__________和__________。
#### 三、简答题1. 描述基因组注释的一般流程。
2. 阐述生物信息学在药物设计中的应用。
3. 解释什么是系统发育树,并说明其在进化研究中的意义。
#### 四、计算题1. 给定一段DNA序列,计算其GC含量。
(示例序列:ATCGTACGTAGCTAGCTAG)2. 如果一个蛋白质序列的分子量为12345 Da,其氨基酸的平均分子量为110 Da,计算该蛋白质序列中氨基酸的数量。
#### 五、论述题1. 讨论生物信息学在个性化医疗中的作用和挑战。
2. 分析高通量测序技术对生物信息学领域的影响。
通过以上题目的复习,可以帮助学生掌握生物信息学的基础知识和技能,包括对生物数据的分析、解释和应用。
这些知识点不仅涵盖了生物信息学的基础理论,还涉及到实际应用,如药物设计、个性化医疗等,为学生提供了一个全面的复习框架。
生物信息学复习题及答案(打印)
生物信息学复习题及答案(打印)一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学基础考试试题
生物信息学基础考试试题生物信息学基础考试试题回答一、选择题(每题5分,共20题)1. 生物信息学的定义是什么?A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案:B2. 以下哪个是常用的生物信息学数据库?A. NCBIB. C++C. DNAD. Photosynthesis答案:A3. 在DNA序列中,碱基A配对的是?A. TB. CC. GD. U答案:A4. 以下哪个是生物信息学中常用的序列比对算法?A. BLASTB. MATLABC. PCRD. ELISA答案:A5. 基因组学是研究什么的科学?A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案:C6. 哪种技术可用于测定DNA序列?A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案:C7. 生物信息学中的序列模拟是指什么?A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案:A8. 以下哪个是生物信息学的一个重要应用领域?A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案:C9. 哪个工具常用于分析生物信息中的调控网络?A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案:B10. 蛋白质结构预测是生物信息学的一个重要研究方向,以下哪种是蛋白质的一级结构?A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案:C11. 生物信息学与生物医学工程有什么相似之处?A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案:C12. 在基因组测序中,什么是基因组装?A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案:A13. 以下哪个不属于生物信息学的软件工具?A. BLASTB. PhotoshopC. RD. Python答案:B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究?A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案:A15. 生物信息学中的反向遗传学用于研究什么?A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案:B16. 哪种方法可用于鉴定基因表达谱中的关键基因?A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案:B17. 生物信息学研究中常用的基因表达定量方法是什么?A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案:C18. 生物信息学中的系统生物学研究的是什么?A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案:C19. 下面哪个数据库不是用于蛋白质结构预测的?A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案:D20. 生物信息学中常用的序列对比方法是什么?A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案:B二、简答题(每题10分,共5题)1. 编程语言在生物信息学中的作用是什么?编程语言在生物信息学中扮演着重要角色。
《生物信息学》题集
《生物信息学》题集一、选择题(每题3分,共30分)1.生物信息学的主要研究对象是什么?A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术?A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中,进行多序列比对时常用的软件是什么?A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析?A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中,下列哪项不是常用的序列分析技术?A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用?A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测?A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中,下列哪项不是基因注释的内容?A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术?A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用?A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题(每题2分,共20分)1.生物信息学是一门交叉学科,它主要涉及______、计算机科学和数学等领域。
2.在生物信息学中,______技术常用于基因序列的相似性搜索。
3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。
4.在基因表达数据分析中,______是一种常用的数据标准化方法。
5.生物信息学中,______技术常用于蛋白质结构的预测和分析。
6.在生物信息学数据库中,GenBank主要存储的是______数据。
生物信息学期末期末复习
■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A.全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B.全局比对允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
生物信息学复习题已附答案
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、 识别基因主要有两个途径即2、 表达序列标签是从 mRNA 中生成的一些很短的序列( 300-500bp ),它们代表在特定组织或发育阶段表达的基因。
3、 序列比对的基本思想,是找出 检测基因 和 目标序列 的相似性,就是通过在序列中插入 空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分 为两类,分别— 和局部比对 。
4、 2-DE 的基本原理是根据蛋白质 和 分子量 不同,进行两次电泳将之分 离。
第一向是 等电聚焦分离 ,第 —S D S-P AGE 分离 o5、 蛋白质组研究的三大关键核心技术是 质谱鉴定技术 、 计算机图像数据处理与蛋白质数据库二、 判断题1、 生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,是真核生物基因组的特点之一。
(对)2、 CDS 一定就是 ORF 。
(对)3、 两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源 ,就具有共同的祖先。
(错)4、 STS,是一段 200-300bp 的特定 DNA 序列,它的序列已知,并且在基因组中属于 单拷贝。
(对)5、 非编码 DNA 是“垃圾 DNA',不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、 基因树和物种树同属于系统树,它们之间可以等同。
(错)7、 基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。
&对任意一个 DNA 序列,在不知道哪一个碱基代表 CDS 的起始时,可用 获得6个潜在的蛋白质序列。
(对)9、 一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、 外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的 外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以 不同。
生物信息学考试试题
生物信息学考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种不是常见的生物信息学数据库?()A GenBankB SWISSPROTC PubMedD Baidu2、在 DNA 序列分析中,以下哪个不是用于序列比对的算法?()A NeedlemanWunsch 算法B SmithWaterman 算法C BLAST 算法D Fourier 变换算法3、蛋白质结构预测的方法不包括()A 同源建模B 从头预测C 折叠识别D 随机模拟4、以下哪种不是基因表达数据分析的常用方法?()A 聚类分析B 主成分分析C 判别分析D 回归分析5、生物信息学中,用于预测蛋白质功能的方法有()A 基于序列相似性B 基于结构相似性C 基于基因共表达D 以上都是6、在基因组学中,以下哪个不是测序技术?()A Sanger 测序B 二代测序C 三代测序D 四代测序7、系统发生树构建的方法不包括()A 距离法B 最大简约法C 最大似然法D 最小二乘法8、以下哪种不是生物信息学中常用的编程语言?()A PythonB JavaC C++D Visual Basic9、以下哪个不是生物信息学在医学领域的应用?()A 疾病诊断B 药物研发C 医疗美容D 个性化医疗10、生物信息学中,处理大规模数据常用的工具是()A ExcelB R 语言C SPSSD Word二、填空题(每题 2 分,共 20 分)1、生物信息学是一门融合了生物学、计算机科学和()的交叉学科。
2、常见的核酸序列格式有 FASTA 和()。
3、蛋白质的二级结构包括α螺旋、β折叠和()等。
4、基因芯片技术是一种()分析技术。
5、序列比对的目的是寻找两个或多个序列之间的()。
6、人类基因组计划的主要目标是测定人类基因组的()序列。
7、生物信息学中的隐马尔可夫模型主要用于()。
8、系统发生分析中,外群的作用是()。
9、蛋白质相互作用网络分析有助于理解()。
10、生物信息学数据库可以分为一级数据库和()数据库。
生物信息学复习要点
一、名词解释(每小题3分,共30分)1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10.直系同源体簇二、填空题(每空1分,共10分)1.生物信息学主要研究的两种信息载体是和。
2.国际上的三大核苷酸序列数据库分别是、和。
3.数据挖掘的三大技术支柱是、和。
4.相同类型核苷酸的替换称为,不同类型核苷酸的替换称为。
三、单项选择题(每小题1分,共10分)1.在对模式生物进行全基因组的测定中,作为真菌模式生物的是。
A、大肠杆菌B、青霉菌C、酵母菌D、线虫2.NCBI成立于。
A、1988年B、1989年C、1990年D、1992年3.根据数据库管理系统所支持的基本数据模型的不同,可以将数据库分为五类,其中第二代数据库是。
A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4.在向GenBank投送序列的工具中,是标准的序列投送工具。
A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。
A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。
A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多,其中耗时最短的是。
A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。
A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中,较为常用的方法是。
A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。
A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题(每小题2分,共20分)1.生物大分子携带的三种信息是。
A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换,DBMS提供的两层映射是。
生物信息考试题及答案
生物信息考试题及答案一、选择题(每题2分,共20分)1. 基因组学研究的核心是()。
A. 基因克隆B. 基因表达C. 基因组序列D. 基因功能答案:C2. 下列哪项不是生物信息学的主要研究内容?()A. 基因组序列分析B. 蛋白质结构预测C. 植物分类学D. 基因表达分析答案:C3. 转录组学研究的是()。
A. 基因组中的所有基因B. 特定细胞或组织中的所有RNA分子C. 特定细胞或组织中的所有蛋白质分子D. 特定细胞或组织中的所有DNA分子答案:B4. 下列哪个数据库主要用于存储蛋白质序列信息?()A. GenBankB. PDBC. Swiss-ProtD. EMBL答案:C5. 以下哪个不是生物信息学中常用的序列比对工具?()A. BLASTB. FASTAC. ClustalWD. PCR答案:D6. 以下哪个是用于蛋白质三维结构预测的软件?()A. Swiss-ProtB. PDBC. MODELLERD. GenBank答案:C7. 以下哪个是用于基因表达分析的高通量技术?()A. Sanger测序B. 微阵列C. PCRD. 质谱分析答案:B8. 下列哪个是用于基因组关联研究的统计方法?()A. 聚类分析B. 系统发育分析C. 连锁不平衡分析D. 多态性分析答案:C9. 以下哪个是用于蛋白质-蛋白质相互作用网络分析的工具?()A. STRINGB. BLASTC. ClustalWD. GenBank答案:A10. 下列哪个是用于生物信息学数据可视化的工具?()A. R语言B. PythonC. CytoscapeD. Perl答案:C二、填空题(每题2分,共20分)1. 生物信息学是一门结合了__________、__________和__________的交叉学科。
答案:生物学、计算机科学、信息技术2. 基因组学中的“组”指的是__________的集合。
答案:基因3. 转录组学研究的RNA分子包括__________、__________和__________。
(完整word版)生物信息学复习资料(word文档良心出品)
一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种内由于基因复制而分离的同源基因。
(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。
生物信息学复习题
生物信息学复习题生物信息学复习题生物信息学是一门研究生物学数据的收集、存储、管理和分析的学科。
它利用计算机科学和统计学的方法来解决生物学中的问题。
在这篇文章中,我将提供一些生物信息学的复习题,帮助大家巩固对这门学科的理解。
1. 什么是基因组学?基因组学是研究生物体基因组的学科。
它涉及到对基因组的序列、结构和功能的研究。
基因组学的发展使得我们能够更好地理解基因组的组成和功能,从而有助于解决生物学中的一些重要问题。
2. 什么是DNA序列?DNA序列是指DNA分子中碱基的顺序。
DNA序列的研究可以帮助我们了解基因组的组成和功能。
通过对DNA序列的分析,我们可以识别基因、预测蛋白质编码区域,并研究基因组的演化等。
3. 什么是蛋白质序列?蛋白质序列是指蛋白质分子中氨基酸的顺序。
蛋白质序列的研究可以帮助我们了解蛋白质的结构和功能。
通过对蛋白质序列的分析,我们可以预测蛋白质的结构、功能和相互作用等。
4. 什么是序列比对?序列比对是指将两个或多个序列进行比较,找出它们之间的相似性和差异性。
序列比对可以通过比较序列中的碱基或氨基酸的顺序来进行。
序列比对的结果可以帮助我们了解序列的进化关系,预测序列的功能以及发现新的序列。
5. 什么是基因表达谱?基因表达谱是指在特定条件下,基因在细胞或组织中的表达水平。
基因表达谱的研究可以帮助我们了解基因的功能以及基因在生物体中的调控机制。
通过对基因表达谱的分析,我们可以发现与特定生理过程或疾病相关的基因。
6. 什么是蛋白质结构预测?蛋白质结构预测是指根据蛋白质的氨基酸序列,预测蛋白质的三维结构。
蛋白质结构预测的研究可以帮助我们了解蛋白质的功能和相互作用。
通过蛋白质结构预测,我们可以预测蛋白质的功能、鉴定药物靶点以及设计新的蛋白质。
7. 什么是基因组注释?基因组注释是指对基因组中的基因和非编码区域进行功能和结构的描述。
基因组注释的研究可以帮助我们了解基因组的组成和功能。
通过基因组注释,我们可以识别基因、预测蛋白质编码区域,并研究基因组的演化等。
生物信息学 考试答案
Bioinformatics (包括陈老师6道题和师兄的四道题)1.什么是生物信息学?你怎么理解它的含义?(或者问什么是生物信息学,为什么生物信息学研究是重要的)答:生物信息学含义主要答3点:(1)它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。
(2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
(3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。
它是本世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。
第二问:2.发现新基因的两种方法是什么?算法的本质是?(或者问通过DB如何发现新基因,通过何种途径)3.研究生物进化的步骤有哪些,当前面临的困难是什么?如何解决?答:步骤:(1)序列相似性比较。
就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。
完成这一工作只需要使用两两序列比较算法。
常用的程序包有BLAST、FASTA等;(2)序列同源性分析。
是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。
这是理论分析方法中最关键的一步。
完成这一工作必须使用多序列比较算法。
常用的程序包有CLUSTAL等;(3)构建系统进化树。
根据序列同源性分析的结果,重建反映物种间进化关系的进化树。
为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;(4)稳定性检验。
为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。
通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。
生物信息学试题及个人答案(非参考答案)
生物信息学答题卷考题一:到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列,写出序列名称、登录号及来源物种的分类情况,然后用Blast(注意:写出所用程序及所搜索的数据库名称)搜索到数据库中和它相似程度较高的10条序列(写出这些序列的名称和登陆号及来源物种的分类情况。
要求至少包括3-4个属,每个属中选择1-2个种),对这10条序列进行多序列比对后(写出比对所用程序及比对结果),使用phylip软件,用距离法对它们进行分子进化分析(包括对进化树进行统计评估),说明这种蛋白质的进化历程(60分)。
答:(1)到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列如下:完整序列(ORIGIN):1 mastdsldtr tfdyasdssf eviiitnaph dydgyielga aarllapfqk nisalwtnaa61 pshkltrnnk nylhvfglfk ylqnynlntk khppeyytik svicdlmmga qgktfdplce121 iktqlcaiqe slneaivtln ghaaadpapr tearelvesl hseyskkltf atdtildhvk181 sikdlvclnk序列名称: capsid protein [Choristoneura fumiferana MNPV]即:云杉卷叶蛾(虎尾松卷叶蛾)颗粒体病毒具体信息:LOCUS NP_848433 190 aa linear VRL06-MAY-2009登录号(ACCESSION): NP_848433来源物种的分类情况SOURCE Choristoneura fumiferana MNPVORGANISM Choristoneura fumiferana MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..190/organism="Choristoneura fumiferana MNPV"/db_xref="taxon:208973"/country="Ireland"(2)然后用Blast搜索和它相似程度较高的10条序列如下:说明:所用程序:blosum62所搜索的数据库名称:swissprot数据库中和它相似程度较高的10条序列1、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVOP 192 aa linear VRL 11-JAN-2011登录号:P24078来源物种的分类情况:SOURCE Orgyia pseudotsugata MNPVORGANISM Orgyia pseudotsugata MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..192/organism="Orgyia pseudotsugata MNPV"/host="Orgyia pseudotsugata (Douglas fir tussock moth)"/db_xref="taxon:262177"2、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVAC 198 aa linear VRL 11-JAN-2011登录号:P41678来源物种的分类情况:SOURCE Autographa californica nucleopolyhedrovirusORGANISM Autographa californica nucleopolyhedrovirusViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..198/organism="Autographa californica nucleopolyhedrovirus"/host="Lepidoptera (butterflies and moths)"/db_xref="taxon:46015"3、RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliY名称:RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliYLOCUS FLIY_BACSU 378 aa linear BCT 08-FEB-2011登录号:P24073来源物种的分类情况:SOURCE Bacillus subtilisORGANISM Bacillus subtilisBacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.FEATURES Location/Qualifierssource 1..378/organism="Bacillus subtilis"/db_xref="taxon:1423"4、RecName: Full=Uncharacterized protein YjeA名称:RecName: Full=Uncharacterized protein YjeALOCUS YJEA_HAEGA 322 aa linear BCT 30-NOV-2010登录号:Q9ZIY0来源物种的分类情况:SOURCE Avibacterium paragallinarumORGANISM Avibacterium paragallinarumBacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;Pasteurellaceae; Avibacterium.FEATURES Location/Qualifierssource 1..322/organism="Avibacterium paragallinarum"/db_xref="taxon:728"5、RecName: Full=Protein YOP1名称:RecName: Full=Protein YOP1LOCUS YOP1_USTMA 172 aa linear PLN 08-MAR-2011 登录号:Q4P0H0来源物种的分类情况:SOURCE Ustilago maydisORGANISM Ustilago maydisEukaryota; Fungi; Dikarya; Basidiomycota; Ustilaginomycotina;Ustilaginomycetes; Ustilaginales; Ustilaginaceae; Ustilago. FEATURES Location/Qualifierssource 1..172/organism="Ustilago maydis"/db_xref="taxon:5270"6、RecName: Full=Protein anon-37Cs名称:RecName: Full=Protein anon-37CsLOCUS A37C_DROLE 544 aa linear INV 10-AUG-2010 登录号:O96570来源物种的分类情况:SOURCE Scaptodrosophila lebanonensisORGANISM Scaptodrosophila lebanonensisEukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;Ephydroidea; Drosophilidae; Scaptodrosophila.FEATURES Location/Qualifierssource 1..544/organism="Scaptodrosophila lebanonensis"/db_xref="taxon:7225"7、RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA名称:RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA LOCUS PSAA_SYNPW 767 aa linear BCT 08-FEB-2011登录号:Q9R6U0来源物种的分类情况:SOURCE Synechococcus sp. WH 7803ORGANISM Synechococcus sp. WH 7803Bacteria; Cyanobacteria; Chroococcales; Synechococcus.FEATURES Location/Qualifierssource 1..767/organism="Synechococcus sp. WH 7803"/db_xref="taxon:32051"8、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJE 258 aa linear BCT 08-FEB-2011登录号:Q9PM01来源物种的分类情况:SOURCE Campylobacter jejuniORGANISM Campylobacter jejuniBacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni"/db_xref="taxon:197"9、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJR 258 aa linear BCT 08-FEB-2011登录号:Q5HSB7来源物种的分类情况:SOURCE Campylobacter jejuni RM1221ORGANISM Campylobacter jejuni RM1221Bacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni RM1221"10、RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A 名称:RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A LOCUS MOBA_METAC 225 aa linear BCT 03-MAY-2011登陆号:Q8TPD6来源物种的分类情况:SOURCE Methanosarcina acetivorans C2AORGANISM Methanosarcina acetivorans C2AArchaea; Euryarchaeota; Methanomicrobia; Methanosarcinales;Methanosarcinaceae; Methanosarcina.FEATURES Location/Qualifierssource 1..225/organism="Methanosarcina acetivorans C2A"/db_xref="taxon:188937"搜索过程附图:(3)对这10条序列进行多序列比对:写出比对所用程序:clustalx比对结果分析:比对所得的以phy为后缀的文件用写字板格式打开后得如下结果: 10 771P24078.1 ---------- ---------- ------MANA DSLDAR-AFS YAPDASFEVIP41678.1 ---------- ---------- ---------- ----TR-NFM YSPDSSLEVVQ9R6U0 ---------- TAKTQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ3AMS5.1 MTISPPERGS DAKSQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ9PM01.1 ------MIID FKKYSSVRIG NEFEVLVLDQ ICDFDG-FLI GGANN----LQ4P0H0 ---------- ---------- -KVEYFVAQI DKELSRYPAL KKFEQTVPVPQ9ZIY0.1 ------SIQT LLSRAKIIAE IRQFFSERGL LEVETPILSE FGVTDVHLSTP24073.2 --IDALLNGT GSTLDEPEIP EVDDLSEMER DAIGEIGNIS FGSSATALSTO96570 ---------E SLSFSGYKLT RRNLYNAPAL KVMGRSVNNS SSNNNDQQQYQ8TPD6.1 ---------- ---------- MSGKTELKPG RTKSRSAIVL AGGRGRRMGMIITNAPNDHD GY---LELNA AARL-LAPFQ KN-ISALWTS ----------IITNSDGDHD GY---LELTA AAKV-MSPFL SNGSSAVWTN ----------NLHANAHDFD SHTSDLEEVS RKIF-SAHFG HLAVIFIWLS GAFFHGARFSNLHANAHDFD AHTSDLQEVS RRIF-SAHFG HLAVIFIWLS GAFFHGARFSLVSPKPKNIG ILGDGFNFIQ ILDR-NKDFI HLRIGCKTKS S---------KAYAALGAFG IFTLFVFFNI AAGF-LTNLL GFFVPAYFS- ----------FSTKLISPFQ KKEKTLWLST SPEYPMKRLL SAGSGAIFQL CKVFRN---ELLNQKVDITT PSVTVIPRSK ISDAFPEPYV AIEVNYTEGF SG--------NLESAKQNTQ IVVIGAGLAG LSAAQHLLRH GFRSTIVLEA TDRYGG---RVEKALLEFEG KTILERLLEN LFRVVDEVIL SVRDIPQKEK ----------……(此处省略约9KB的数据分析结果)以上是多序列比对的纯数据结果,部分数据省略,因为可以从下面的进化树得到具体的分析。
生物信息学试题及答案
生物信息学试题及答案一、单项选择题(每题2分,共20分)1. 生物信息学的主要研究对象是()。
A. 生物数据B. 生物实验C. 生物模型D. 生物技术答案:A2. 下列哪项不是生物信息学中的常用数据库()。
A. GenBankB. Swiss-ProtC. PubMedD. Google Scholar答案:D3. 蛋白质序列比对的主要目的是()。
A. 确定蛋白质的三维结构B. 预测蛋白质的功能C. 比较蛋白质的氨基酸序列D. 计算蛋白质的分子量答案:B4. 在生物信息学中,以下哪种算法不是用于序列比对的()。
A. BLASTB. FASTAC. Smith-WatermanD. Hidden Markov Model答案:D5. 下列哪种生物信息学工具主要用于基因表达分析()。
A. ClustalWB. Primer3C. R语言D. PDB答案:C6. 以下哪种技术不是用于蛋白质结构预测的()。
A. 同源建模B. 从头预测C. 序列比对D. 折叠识别答案:C7. 以下哪种生物信息学工具主要用于基因组注释()。
A. BLASTC. GATKD. Primer3答案:B8. 在生物信息学中,以下哪种方法不用于基因表达数据的聚类分析()。
A. K-meansB. Hierarchical clusteringC. Principal component analysisD. Multiple sequence alignment答案:D9. 下列哪种生物信息学工具主要用于蛋白质-蛋白质相互作用网络分析()。
A. STRINGB. BLASTD. Primer3答案:A10. 在生物信息学中,以下哪种数据库不包含蛋白质结构信息()。
A. PDBB. UniProtC. RCSBD. GenBank答案:D二、多项选择题(每题3分,共15分)11. 生物信息学中常用的序列比对工具包括()。
A. BLASTB. FASTAC. ClustalWD. Pfam答案:ABC12. 以下哪些是生物信息学中常用的基因表达分析软件()。
《生物信息学》练习题及答案
《生物信息学》练习题及答案1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2;protein2:NP_187969.1;protein3: NP_190855.1;protein4:NP_565618.1;protein5: NP_200511.1;protein6:NP_191407.1(以FASTA格式)。
(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。
序列比对结果比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。
(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋白序列保存为FASTA格式,存于txt文档;2.用Clustalx打开txt文本,保存为*.phy文件;3.用seqboot程序打开phy文件,输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件,输出为*_protdist文件5.用neighbor程序打开*_protdist文件,输出为*_neighbor 文件6.用consense程序打开*_neighbor文件,输出为*_consense 文件7.用dratree程序打开*_consense文件得到进化树。
(注:由于seqboot软见无法正常运行,因此进化树无法显示)(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。
选择protein3:NP_190855.1一级结构网址:/doc/479b86d06edb6f1afe001f6e.html /tools/protparam.htmlNumber of amino acids:456氨基酸数目Molecular weight:51154.5相对分子质量Theoretical pI:8.69理论pI值Amino acid composition氨基酸组成Ala(A)306.6%Arg(R)286.1%Asn(N)153.3%Asp(D)275.9%Cys(C)51.1%Gln(Q)183.9%Glu(E)286.1%Gly(G)378.1%His(H)163.5%Ile(I)163.5%Leu(L)429.2%Lys(K)327.0%Met(M)51.1%Phe(F)173.7%Pro(P)163.5%Ser(S)4610.1%Thr(T)214.6%Trp(W)81.8%Tyr(Y)194.2%Val(V)306.6%Pyl(O)00.0%Sec(U)00.0%(B)00.0%(Z)00.0%(X)00.0%正/负电荷残基数Total number of negatively charged residues(Asp+Glu): 55Total number of positively charged residues(Arg+Lys): 60Atomic composition:原子组成Carbon C2270Hydrogen H3531Nitrogen N645Oxygen O686Sulfur S10Formula:C2270H3531N645O686S10分子式Total number of atoms:7142总原子数Extinction coefficients:消光系数Extinction coefficients are in units of M-1cm-1,at280 nm measured in water.Ext.coefficient72560Abs0.1%(=1g/l)1.418,assuming all pairs of Cys residues form cystines Ext.coefficient72310Abs0.1%(=1g/l) 1.414,assuming all Cys residues are reducedEstimated half-life:半衰期The N-terminal of the sequence considered is M(Met). The estimated half-life is:30hours(mammalian reticulocytes,in vitro).>20hours(yeast,in vivo).>10hours(Escherichia coli,in vivo).Instability index:不稳定系数The instability index(II)is computed to be48.99This classifies the protein as unstable.Aliphatic index:75.26脂肪系数Grand average of hydropathicity(GRAVY):-0.554总平均亲水性蛋白质亲疏水性分析所用氨基酸标度信息Ala:1.800Arg:-4.500Asn:-3.500Asp:-3.500Cys:2.500 Gln:-3.500Glu:-3.500Gly:-0.400His:-3.200Ile:4.500 Leu:3.800Lys:-3.900Met:1.900Phe:2.800Pro:-1.600 Ser:-0.800Thr:-0.700Trp:-0.900Tyr:-1.300Val: 4.200:-3.500:-3.500:-0.490分析所用参数信息Weights for window positions1,..,9,using linear weight variation model:1234567891.001.001.001.001.001.001.001.001.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:二级结构预测三级结构预测网站/doc/479b86d06edb6f1afe001f6e.html/~phyre2、在拟南芥基因组数据库中(/doc/479b86d06edb6f1afe001f6e.ht ml/)查找编号分别为At4G33050,At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014-2015学年生物信息学期末考试题写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。
因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。
祝大家考试顺利。
一、实验设计和基础分析以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。
目的:比较肺癌细胞迁移前后的X基因转录水平表达量方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。
(2)用poly-dT引物进行反转录(3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。
GAPDH作为内参。
(4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量(5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因)2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。
上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。
;方案:用Oligodt进行逆转录。
二、双序列比对的生物学意义解释两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):(1)请从BLAST的算法原理出发,解释为什么会出现这种情况。
(2)为了能研究这两个蛋白质其DNA基因序列之间的差异,以研究其进化过程,必须对DNA序列进行比对。
可以使用什么算法?为什么这种算法能过规避上述BLAST的问题?请从算法原理回答。
(3)若一定要使用BLAST算法进行DNA序列比对,为了能够得到比对结果,需要调节什么参数?你估计要设置在多少?有什么副作用?(4)【选做题+10分】为何这两个物种的这个同源基因,DNA序列差异很大,但编码出的蛋白质氨基酸序列却高度相似?这说明在进化中哪种保守选择力对同源基因的变异进行了选择?答(1)blast基于seed-base算法原理,要随机取得seed完美匹配才可以找到相似序列,如果发生错配则没有办法找到序列(2)可采用动态规划算法中的s-w算法。
因为这种算法比较精确,能找到局部相似的序列。
(3)调节word size,改为7,后果是会找到更多不相关的序列(4)因为保留的突变多数是同义突变;保守选择力是氨酰tRNA合成酶,同一物种中氨酰tRNA合成酶保守性比较高,当基因发生突变时候,只有同义突变被翻译成蛋白质的机会大一点,所以最终被保留下来。
三、大规模测序策略设计【微生物学、生物医药、遗传学专业】临床耐药菌已经成为人类健康的巨大威胁,随着新抗生素的研制越来越成熟,细菌耐药性的迅速产生已将医生逼到了无药可用的地步,超过90%的耐药菌案例中,分离出的临床耐药菌中并无质粒,或者存在质粒但质粒编码的基因并无耐药作用。
因此,推测细菌耐药性很可能存在于基因组的突变中。
现在分离了40株耐药的金黄色葡萄球菌,均确认无质粒或质粒无耐药作用因此拟对其全基因组进行分析,希望能找到耐药的可能原因。
某测序公司对此给出了如下的方案:对40株耐药菌的全基因组进行Illumina大规模测序,用Illumina HiSeq-2500测序仪对每个基因组测2G 数据量,测序设定为2*125nt,预期有效测序深度>500x,由于与其临床耐药菌与标准菌株的基因组差异较大,因此采用Velvet算法进行拼接,然后进行BLAST2GO自动功能注释。
通过将拼接出的contigs与标准菌株基因进行比对,可找出突变,进而统计出可能耐药相关的基因和突变。
这一测序和分析策略是否有问题?你能否提出更好的方案?为什么你的方案更好?【水生生物学、海洋生物与生物技术专业】水体富营养化极易造成赤潮爆发,传统研究只关注某种条件下的一种优势菌株,但近年来的研究发现在真实赤潮环境中优势菌株并不单一。
例如2002年在东海地区发生的赤潮。
赤潮开始时的优势菌种有两种:东海原甲藻和塔玛亚历山大藻(均属甲藻),然而后期则发生了种族演变东海原甲藻仍然维持很高的生物量,但塔玛亚历山大藻则被肋骨条藻和红色中缢虫所取代。
以上所述几种藻类,其基因组均未测序过,一般藻类的单倍体基因组约为100Mb左右,然而流式细胞染色结果指出,东海原甲藻的单倍体基因组估计为2.2Gb左右,要想测定这些藻类的全基因组所需的经费实在太高,并不现实。
然而甲藻属于间核生物,兼具原核生物和真核生物的特点。
现要用测序技术来研究藻种演替过程中究竟是什么生物的哪些基因发生了改变,为何东海原甲藻能一直维持很高的生物量,而塔玛亚历山大藻却在后期消亡。
请设计测序和分析策略,并简要说明每一步骤为什么这么做(例如为什么选这个测序仪而不选另一种)分析其可行性和效率比。
【生科院其他专业】抑郁症已成为现代人类日益严重的健康威胁,现已知神经元细胞突触上的一种膜蛋白5-HT1A(5-羟色胺1A受体)与抑郁症非常相关。
5-HT1A可被5-HT(5-羟色胺)结合,通过G蛋白偶联信号转导通路行使功能。
5-HT的减少使该信号通路受到抑制,最终导致抑郁症。
某新型抗抑郁症的药物被设计成可以与5-HT1A特异性结合,持续激活该信号通路,从而达到抗抑郁的效果,然而,该药物在欧美白种人中抗抑郁的效果很好,但在中国的临床试验中发现大部分病人治疗效果很差。
Western blot发现白种人和黄种人神经元中5-HT1A蛋白质含量无显著差异。
目前的dbSNP(单碱基多形性数据库)中,只有关于5-HT1A的两个SNP 纪录,一个位于3`-UTR,一个位于编码区中,是同义突变,请提出一个假说,解释这个药物为何对中国人效果很差,并设计一个实验策略来验证你的假说。
答:假说:由于位于编码区的同义突变导致蛋白质的三级结构改变,药物不能特异结合上去。
实验方案:区中国人抑郁症患者神经细胞,设置三组组一:不做处理,对照组组二:通过点突变进行回复突变,将细胞的DNA变成和欧美患者的DNA信息一样组三:取欧美患者的神经细胞,进行点突变,将位于编码区的的SNP位点突变成和中国患者一样分别对三组细胞进行相同条件培养,并给予药物处理,然后检测下游信号通路的相关信号的表达量。
还可以对不同人种患者的细胞的膜蛋白5-HT1A,用核磁共振的方法测定结构域。
四、大规模测序数据分析一些中药在肿瘤治疗上有着相当好的效果,但由于中药成分复杂,寻找其有效成分和作用机制一直是一大难题。
现用mRNA-seq方法研究某抗癌中药作用前后肝癌细胞Hep3B的转录组变化,寻找中药可能的作用靶点。
测序建库和测序送给公司完成,数据分析自己做。
FANSe2算法云平台做基础分析完成后,下载基因表达量的表格,含有每个基因的read count和rpkM数据。
(1)Reads过少的基因,定量是不准的,不宜加入差异表达分析。
你怎样筛选可定量的基因?其理由原理是什么?(2)由于经费所限,加药组和不加药组分别只能测一次序,如何分析哪些基因显著上调?在edgeR软件中用怎样的命令来表示?其前提条件是什么?(3)两个样品的log10rpkM值做散点图如下图,相关性高达R=0.98。
edgeR分析得出差异表达的基因仅有15个。
这是什么原因造成的?答(1)利用rpkM进行筛选可定量的基因。
因为rpkM的前提是假定两个样本之间的总RNA的表达量是一样的,而进行的基因真正的表达量的衡量。
(2)(3)因为中药作用前后,各个基因的表达量本来就是相关性很高的。
五、高级统计与数据挖掘为研究影响中国人口出生率的关键因素,从国家统计局网站上获得2004年中国31个省会城市、直辖市的相关数据,选择如下几项指标:Y:人口出生率,即一年内平均每千人所出生的人数X1:居民消费价格指数X2:高等教育比例,为每千人中,大专以上文化程度比例X3:年人均工资,以元/人为单位X4:少年儿童抚养比,即(0~14岁人口总数)/(15~64岁人口总数)X5:老年人口抚养比,即(>=65岁人口总数)/(15~64岁人口总数)分析方案一:应用最小二乘法进行多元线性回归,得到回归方程:Y=2993+0.32X1+0.94X2+0.093X3+0.36X4-0.24X5R2=0.87分析方案二:逐次回归,得到回归方程:Y=4.15-0.08X3+0.34X4-0.21X5R2=0.83回答下列问题:(1)你会选择哪个分析方案?方案2(2)你作出选择的依据是什么?(单选)A.能够容纳更全面的指标B.每个指标都对回归显著C.更高的R2D.更加简洁有代表性E.更符合日常生活感受(3)现在中国的总和生育率已跌至1.2,老龄化问题严重,养老系统濒于崩溃,迫切需要提高人口出生率。
但即便开放二胎,由于离婚率飙升和抚养成本升高,人们的生育意愿依然低下。
以你所选择的分析方案所得出的回归方程,国家采取以下哪些措施,人口出生率会提高?(可多选)A.重拳调控楼市,平抑房价B.大力发展和普及高等教育C.提高人民工资待遇,保障劳动者权益D.提高医疗水平,延长人口寿命E.以上都是馊主意,根据方程,我的高招是:稳定工资,稍稍降低工资;出生奖励;办更多公立幼儿园。