生物信息学习题

合集下载

生物信息学复习题及答案

生物信息学复习题及答案

生物信息学复习题名词解释1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。

(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

(异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。

Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。

6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。

值:得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。

通常使用低于来定义统计的显著性。

生物信息学习题

生物信息学习题

第六章 分子系统发生分析(问题与练习)
1、构建系统发生树,应使用
A、BLAST
B、FASTA
C、UPGMA
D、Entrez
2、构建系统树的主要方法有


等。
3、根据生物分子数据进行系统发生分析有哪些优点?
4、在 5 个分类单元所形成的所有可能的有根系统发生树中,随机抽取一棵树是反映真实关
系的树的可能性是多少?从这些分类单元所有可能的无根系统发生树中,随机选择一棵

8、TreeBASE 系统主要用于
A、发现新基因 B、系统生物学研究 C、类群间系统发育关系研究 D、序列比对
二、 问答题
1、 为什么说 SWISS-PROT 是最重要的蛋白质一级数据库?
2、 构建蛋白质二级数据库的基本原则是什么?
3、 构建蛋白质二级数据库的主要方法有哪些?
4、 叙述 SCOP 数据库对蛋白质分类的主要依据
第八章 后基因组时代的生物信息学(问题与练习)
1、 比较生物还原论与生物综合论的异同 2、 简述“后基因组生物信息学”的基本研究思路 3、 后基因组生物信息学的主要挑战是什么? 4、 功能基因组系统学的基本特征是什么? 5、 说明后基因组生物信息学对信息流动的最新理解 6、 列举几种预测蛋白质-蛋白质相互作用的理论方法 7、 解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、 解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、 解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
1、蛋白质得分矩阵类型有 、
、、

等。
2、对位排列主要有局部比对和 三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上,将第二条序列放在 y

生物信息学课后题及答案

生物信息学课后题及答案

生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。

Celera公司加入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。

2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。

2004,人类基因组完成图公布。

生物信息学复习题已附答案

生物信息学复习题已附答案

本卷的答案仅做参考,如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。

2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类,分别是整体比对和局部比对。

4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。

第一向是等电聚焦分离,第二向是SDS-PAGE分离。

5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。

二、判断题1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。

(对)2、CDS一定就是ORF。

(对)3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。

(错)4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。

(对)5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。

(错)6、基因树和物种树同属于系统树,它们之间可以等同。

(错)7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

( 对)8、对任意一个DNA序列,在不知道哪一个碱基代表CDS的起始时,可用6框翻译法,获得6个潜在的蛋白质序列。

(对)9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

(对)10、外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。

《生物信息学》练习题

《生物信息学》练习题

1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。

(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。

序列比对结果比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。

(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。

1.将蛋白序列保存为FASTA格式,存于txt文档;2.用Clustalx打开txt文本,保存为*.phy文件;3.用seqboot程序打开phy文件,输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件,输出为*_protdist文件5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件6. 用consense程序打开*_neighbor文件,输出为*_consense文件7.用dratree程序打开*_consense文件得到进化树。

(注:由于seqboot软见无法正常运行,因此进化树无法显示)(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。

选择protein3: NP_190855.1一级结构网址:/tools/protparam.htmlNumber of amino acids: 456 氨基酸数目Molecular weight: 51154.5 相对分子质量Theoretical pI: 8.69 理论 pI 值Amino acid composition 氨基酸组成Ala (A) 30 6.6%Arg (R) 28 6.1%Asn (N) 15 3.3%Asp (D) 27 5.9%Cys (C) 5 1.1%Gln (Q) 18 3.9%Glu (E) 28 6.1%Gly (G) 37 8.1%His (H) 16 3.5%Ile (I) 16 3.5%Leu (L) 42 9.2%Lys (K) 32 7.0%Met (M) 5 1.1%Phe (F) 17 3.7%Pro (P) 16 3.5%Ser (S) 46 10.1%Thr (T) 21 4.6%Trp (W) 8 1.8%Tyr (Y) 19 4.2%Val (V) 30 6.6%Pyl (O) 0 0.0%Sec (U) 0 0.0%(B) 0 0.0%(Z) 0 0.0%(X) 0 0.0%正/负电荷残基数Total number of negatively charged residues (Asp + Glu): 55Total number of positively charged residues (Arg + Lys): 60Atomic composition: 原子组成Carbon C 2270Hydrogen H 3531Nitrogen N 645Oxygen O 686Sulfur S 10Formula: C2270H3531N645O686S10 分子式Total number of atoms: 7142 总原子数Extinction coefficients: 消光系数Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.Ext. coefficient 72560Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reducedEstimated half-life: 半衰期The N-terminal of the sequence considered is M (Met).The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).>20 hours (yeast, in vivo).>10 hours (Escherichia coli, in vivo).Instability index: 不稳定系数The instability index (II) is computed to be 48.99This classifies the protein as unstable.Aliphatic index: 75.26 脂肪系数Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性/tools/protscale.html蛋白质亲疏水性分析所用氨基酸标度信息Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490分析所用参数信息Weights for window positions 1,..,9, using linear weight variation model:1 2 3 4 5 6 7 8 91.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:二级结构预测三级结构预测网站/~phyre2、在拟南芥基因组数据库中(/)查找编号分别为At4G33050, At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。

生物信息学习题

生物信息学习题

1单选(以下哪位科学家获得了两次诺贝尔奖?A.桑格(Frederick Sanger)B.沃森(James Waston)C.霍利(Robert W.Holley)D.克里克(Francis Crick)2单选(‍被称为“DNA之父”的是哪位科学家?A.摩尔根(Thomas H.Morgen)B.沃森(James Waston)C.查加夫(Erwin Chargaff)D.桑格(Frederick Sanger)3单选(被称为“计算机之父,人工智能之父”的是哪位科学家?A.莱布尼兹(Gottfried W Leibniz)B.图灵(Alan Mathison Turing)C.帕斯卡(Blaise Pascal)D.桑格(Frederick Sanger)4单选(‍被称为“现代实验生物学奠基人”的是哪位科学家?A.摩尔根(Thomas H.Morgen)B.达尔文(Charles Darwin)C.桑格(Frederick Sanger)D.孟德尔(Gregor J.Mendel)5单选(被称为“遗传学的奠基人,现代遗传学之父”的是哪位科学家A.孟德尔(Gregor J.Mendel)B.沃森(James Waston)C.查加夫(Erwin Chargaff)D.摩尔根(Thomas H.Morgen)1单选(‍从GenBank的哪一项注释中可以找到关于编码蛋白的信息?A.CDSB.SOURCEC.RBSD.ORIGIN2单选(以下关于GenBank的描述,哪个是正确的?A.GenBank里的一条数据库记录对应一个完整的基因。

B.真核生物的基因经常是分段存储在多条GenBank数据库记录里。

C.真核生物的基因都是整个存储在GenBank的一条数据库记录里。

D.原核生物的基因都是分片段存储在多条GenBank数据库记录里。

3多选(以下关系式正确的是?A.1T=1,000GB.1G=1,000MC.1G=1,000,000KD.1T=1,000,000M4(GenBank数据库中的检索号(Accession)和基因座名(Locus)指的都是一条序列在数据库中的编号,他们永远都是相同的。

分子生物学复习题1

分子生物学复习题1

生物信息的传递(上)——从DNA到RNA一、名词解释1、增强子:DNA上能强化转录起始的序列,能够在启动子任何方向以及任何位置(上游或下游)作用。

2、RNA编辑:某些RNA,特别是mRNA的一种加工方式,发生编辑后,导致DNA所编码的遗传信息的改变。

3、不对称转录:DNA片段转录时,双链DNA中只有一条链作为转录的模板,这种转录方式称为不对称转录。

4、转录泡:是由DNA双链,RNA聚合酶与新合成的转录本RNA局部形成的结构,它贯穿于延长过程的始终。

5、转录单位:DNA链上从启动子直到终止子为止的长度称为一个转录单位。

一个转录单位可以包括一个基因,也可以包括几个基因。

6、选择性剪接:在mRNA前体的剪接过程中,参加剪接的外显子可以不按其线性次序剪接,内含子也可以不被切除而保留,即一个外显子或内含子是否出现在成熟mRNA中是可以选择的,这种剪接方式称为选择性剪接。

二、选择题1、有关RNA转录合成的叙述,其中错误的是 A 。

A、转录过程RNA聚合酶需要引物B、转录时只有一股DNA作为合成RNA的模板C、RNA链的生长方向是5'3'D、所有真核生物RNA聚合酶都不能特异性地识别promoter2、以下有关大肠杆菌转录的叙述,哪一个是正确的? B 。

A、-35区和-10区序列间的间隔序列是保守的B、-35区和-10区序列距离对转录效率非常重要C、转录起始位点后的序列对于转录效率不重要D、-10区序列通常正好位于转录起始位点上游10bp处3、真核生物转录过程中RNA链延伸的方向是 A 。

A、5'3'方向B、3'5'方向C、N端C端D、C端N端4、真核生物mRNA转录后加工不包括 A 。

A、加CCA—OHB、5'端“帽子”结构C、3'端poly(A)尾巴D、内含子的剪接5、以下对DNA聚合酶和RNA聚合酶的叙述中,正确的是: B 。

A、RNA聚合酶的作用需要引物B、两种酶催化新链的延伸方向都是5'3'C、DNA聚合酶能以RNA作模板合成DNAD、RNA聚合酶用NDP作原料三、判断题1、在真核生物中,所有rRNA都是由RNA聚合酶Ⅱ转录的。

生物信息学基础考试试题

生物信息学基础考试试题

生物信息学基础考试试题生物信息学基础考试试题回答一、选择题(每题5分,共20题)1. 生物信息学的定义是什么?A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案:B2. 以下哪个是常用的生物信息学数据库?A. NCBIB. C++C. DNAD. Photosynthesis答案:A3. 在DNA序列中,碱基A配对的是?A. TB. CC. GD. U答案:A4. 以下哪个是生物信息学中常用的序列比对算法?A. BLASTB. MATLABC. PCRD. ELISA答案:A5. 基因组学是研究什么的科学?A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案:C6. 哪种技术可用于测定DNA序列?A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案:C7. 生物信息学中的序列模拟是指什么?A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案:A8. 以下哪个是生物信息学的一个重要应用领域?A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案:C9. 哪个工具常用于分析生物信息中的调控网络?A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案:B10. 蛋白质结构预测是生物信息学的一个重要研究方向,以下哪种是蛋白质的一级结构?A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案:C11. 生物信息学与生物医学工程有什么相似之处?A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案:C12. 在基因组测序中,什么是基因组装?A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案:A13. 以下哪个不属于生物信息学的软件工具?A. BLASTB. PhotoshopC. RD. Python答案:B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究?A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案:A15. 生物信息学中的反向遗传学用于研究什么?A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案:B16. 哪种方法可用于鉴定基因表达谱中的关键基因?A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案:B17. 生物信息学研究中常用的基因表达定量方法是什么?A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案:C18. 生物信息学中的系统生物学研究的是什么?A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案:C19. 下面哪个数据库不是用于蛋白质结构预测的?A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案:D20. 生物信息学中常用的序列对比方法是什么?A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案:B二、简答题(每题10分,共5题)1. 编程语言在生物信息学中的作用是什么?编程语言在生物信息学中扮演着重要角色。

生物信息学习题集

生物信息学习题集

生物信息学课堂操作练习一、生物信息学科的发展和研究内容通过下列internet上的自教课程,初步了解不同的数据库和分析工具/2can/Education二、生物数据库1. 熟悉各种数据库。

2. 重点了解GenBank和SWISS-PROT所包含的各种功能和适用范围。

三、关键词或词组为基础的数据库检索1. 熟练掌握Entrez检索体系。

2. 查找与水稻抗病基因Xa21有关的资料(1) 由多少碱基构成?编码多少个氨基酸?(2) exon和intron的位置?(3) 是否有3-D structure数据?1) 由多少碱基构成?编码多少个氨基酸?4623b.p., 1025A.a.;2) exon和intron的位置?Exon: 24~2700,3543~3943 intron: remaining;3) 是否有3-D structure数据?没有.3. 查找C. elegans基因组的资料。

(1) chromosome I的测序是否已完成?(2) 已知的chromosome I的序列有多少碱基?序列发表在哪份杂志上?期号和页码?1) chromosome I的测序是否已完成?完成.2) 已知的chromosome I的序列有多少碱基? 序列发表在哪份杂志上? 期号和页码? 15.0724Mb.p.(15072421b.p.), Science 1999 Jan 1;283(5398):35.4. 查看人类基因组第1染色体上基因的分布。

/mapview/maps.cgi?ORG=hum&MAPS=ideogr,est,loc&LINKS= ON&VERBOSE=ON&CHR=15. 查看Arabidopsis的系谱树,以及Arabidopsis第1染色体上的序列。

比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同(/Taxonomy/Browser/wwwtax.cgi?id=3701,/mapview/maps.cgi?taxid=3702&chr=1)貌似没什么区别……比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同。

生物信息学及应用复习题

生物信息学及应用复习题

生物信息学及应用复习题《生物信息学及应用》课程复习题1、生物信息学的基本定义,阐述它的主要研究目标、研究内容及研究方法。

生物信息学:Bioinformatics is the combination of biology and information technology. It is the branch of science that deals with the computer-based analysis of large biological data sets.生物信息学研究的最终目的--揭示蕴藏在DNA和蛋白质氨基酸序列中具有普遍性、真实性的生物遗传本质,掌握复杂的生命现象——生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡的规律和时空联系.生物信息学的主要研究内容1. 生物信息的收集、存储、管理与提供;2. 基因组序列信息的提取和分析;3. 功能基因组相关信息分析;4. 生物大分子结构模拟和药物设计;5. 生物信息分析的技术与方法研究;6. 应用与发展研究方面方法:(1)建立生物数据库:核苷酸顺序数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组数据库(YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)等;(2)数据库检索:如Blast等;(3)序列分析:序列对位排列、同源比较、进化分析等;(4)统计模型:如隐马尔可夫模型(hidden Markov model, HMM)――基因识别、药物设计;最大似然模型(maximun likelihood model, ML)、最大简约法(Maximun Parsimony, MP)――分子进化分析等;(5)算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network)等。

(完整版)生物信息学复习题及答案(陶士珩)

(完整版)生物信息学复习题及答案(陶士珩)

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。

二、问答题1)生物信息学与计算生物学有什么区别与联系?2)试述生物信息学研究的基本方法。

3)试述生物学与生物信息学的相互关系。

4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI维护的数据库。

5)序列的相似性与同源性有什么区别与联系?6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?7)简述BLAST搜索的算法。

8)什么是物种的标记序列?9)什么是多序列比对过程的三个步骤?10)简述构建进化树的步骤。

11)简述除权配对法(UPGMA)的算法思想。

12)简述邻接法(NJ)的算法思想。

13)简述最大简约法(MP)的算法思想。

14)简述最大似然法(ML)的算法思想。

15)UPGMA构树法不精确的原因是什么?16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。

生物信息学复习题百度文库合集

生物信息学复习题百度文库合集

生物信息学,一、名词解释:1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。

2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。

3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。

4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。

5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。

二、简答题:1、分子生物学的三大核心数据库是什么?它们各有何特点?GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;2、简述生物信息学的发生和发展。

20世纪50年代,生物信息学开始孕育;20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来;20世纪70年代,生物信息学的真正开端;20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方;20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库;20世纪90年代后,HGP促进生物信息学的迅速发展。

3、生物信息学的主要方法和技术是什么?数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术4、常见的DNA测序方法有哪些?各有何技术特点和优缺点?Maxam-Gilbert DNA化学降解法:优点:可测完全未知序列及CG富含区;缺点:操作繁琐;Sanger双脱氧链终止法:优点:简便,可测较长片段;缺点:需已知部分序列或加接头;焦磷酸测序:优点:廉价、高通量;缺点:一次测序片段短。

生物信息学复习题

生物信息学复习题

生物信息学蛋白质结构分析与预测1、说出至少一种蛋白质结构数据库和一种可视化工具。

蛋白质结构数据的获取--PDB库。

蛋白质三维结构显示比较出名的有:RASMOL,Swiss-PDBViewer和VMD等,Rasmol:是最著名的大分子结构可视化工具之一(Rasmol -3EBJ)。

2、蛋白质结构的分析包括哪些?①结构品质的分析;②蛋白质内部相互作用分析;③溶剂可接近表面的计算及分析;④功能位点的分析。

3、蛋白质结构联配的概念。

蛋白质结构联配(比对):将两个相似的三维结构尽可能重叠在一起,这样使得结构上对应残基的主链原子在空间尽可能的靠近。

利用重叠反过来定义序列的联配,通常认为序列上匹配的残基在空间距离上是相近的。

通过结构联配找到同源关系更远的蛋白质,因为结构要比序列更加保守。

4、说出一种结构相似性搜索工具。

NCBI—V AST search使用举例。

5、说出两个蛋白质结构分类数据,说出几种结构类。

结构分类主要依据:序列比对和结构比对。

分类方法:分层分类方法(树状结构)。

折叠子tim桶,超家族,同源体,相似体。

结构分类数据库CA TH和SCOP(半自动和专家经验结合和完全依赖专家经验)。

6、蛋白质结构预测的常见方法有哪些?蛋白质结构预测:结构预测是指仅依据蛋白序列信息来预测蛋白质中每个原子在三维空间中的相对位置,也有些方法仅预测结构中部分的信息。

常见的预测方法:比较建模法、折叠识别法、二级结构预测法和从头预测法。

7、蛋白质预测的策略?(大题)在得到一条未知结构蛋白质的序列时,我们可以采取如下的步骤进行结构预测:第一步:应该是判断目标序列中是否包含关键性的特征,如应该检查序列的潜在的跨膜片段;是否含有那些单氨基酸重复的区域,有则要作特殊处理。

通过用Interpro之类的工具分析序列可以查寻这个蛋白质中可能存在的已知结构域,揭示出蛋白质中所有的结构域组成。

另外,可以用PSI-BLAST寻找和它相关的其它序列或者部分序列(结构域)。

生物信息学期末复习题

生物信息学期末复习题
8)为什么要构建生物分子数据库。答案:(1)生物分子数据高速增长(2)分子生物学及相关领域研究人员迅速获得最新实验数据。
9)预测基因的一般步骤是什么?答案:⑴获取DNA目标序列⑵查找ORF并将目标序列翻译成蛋白质序列,利用相应工具查找ORF并将DNA序列翻译成蛋白质序列⑶在数据库中进行序列搜索,利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索⑷进行目标序列与搜索得到的相似序列的全局对比⑸查找基因家族进行多序列比对,获得比对区段的基因家族信息⑹查找目标序列中的特定模序,分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索⑺预测目标序列蛋白质结构,利用PredictProtein(EMBL)、NNPREDICT等预测目标序列的蛋白质二级结构。
15)在基因组序列分析方面,科学家关注哪些信息?答案:就人类基因组而言,编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(mobile element)及其遗留物、伪基因(pseudo gene)等。
3)简要介绍FASTA序列格式答案:FASTA格式,又叫Pearson格式,是最简单的,使用最多的格式。它的基本形式分为三个部分:⑴第一行:大于号(﹥)表示一个新的序列文件的开始,为标记符。后面可以加上文字说明,gi号,GenBank检索号,LOCUS名称等信息。⑵第二行:序列本身,为DNA的标准符号,通常大小写均可。⑶结束:无特殊标志,但建议多留一个空行,以便将序列和其他内容区分开。
16)为什么要进行序列片段组装?在进行序列片段组装时会遇到哪些问题?答案:大规模基因组测序得到待测序列的一系列序列片段,这些序列片段覆盖待测序列,序列片段之间也存在着相互覆盖或者重叠。遇到的问题:碱基标识错误;不知道片段的方向;存在重复区域;缺少覆盖。

中科院生物信息学复习题

中科院生物信息学复习题

1.什么是生物信息学,如何理解其含义?答:生物信息学有三个方面的含义:1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。

2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。

3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

怎样理解生物信息学:生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA 序列中的遗传语言规律:在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。

其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程中的生理生化信息结合,阐明其分子机制,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

2.如何利用数据库信息发现新基因,基本原理?答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因:利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。

可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。

②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network2)利用EST数据库发现新基因和新SNPs:数据来源于大量的序列小片段,EST较短,故关键在正确拼接。

方法有基因组序列比对、拼接、组装法等。

生物大数据期末考试练习题及答案

生物大数据期末考试练习题及答案

一、单选题1、Bioinformatics的含义是()A.表观遗传学B.基因组学C.蛋白质组学D.生物信息学正确答案:D2、利用PubMed文献数据查找论文“Transgenic plants of Petunia hybrida harboring the CYP2E1 gene efficiently remove benzene and toluene pollutants and improve resistance to formaldehyde”的第一作者是A.Xiang TB.Zhang DC.Bao LD.Li P正确答案:B3、被誉为“生物信息学之父”的科学家是()A.吴瑞B.SangerC.林华安D.Dulbecco正确答案:C4、Proteomics的含义是()A.基因组学B.生物信息学C.表观遗传学D.蛋白质组学正确答案:D5、生物信息学主要是利用哪种工具实现对生命科学研究中生物信息的存储、检索和分析的?()A.人造卫星B.iPhoneC.手机D.计算机正确答案:D6、HGP是()A.人类基因组计划B.国家核酸数据库C.在线人类孟德尔遗传数据D.水稻基因组计划正确答案:A7、下列哪些方法不能用于遗传育种()A.基因编辑B.化学诱导突变C.自然选择D.辐射诱导突变正确答案:C8、Genbank数据库中,mRNA的获取号可以以()字母开头A.NM_B.NP_C.XM_D.NC_正确答案:A9、下列那个数据库不属于NCBI()A.ArrayExpressB.NCBI GEOC.PubMedD.Genbank正确答案:A10、大数据处理遇到的瓶颈不包括()A.新算法B.熟悉数据处理的专业人士C.新的构架D.数据量正确答案:D11、可以用来做数据库搜索的比对算法是()A.Smith-WatermanB.Needelma-WunschC.Dynamic programmingD.BLAST正确答案:D12、下列哪个方法最可能在基因组组装过程中留下空缺()A.Mate pair建库B.C.Pair end测序C.长读段测序D.鸟枪法建库正确答案:D13、“一旦空位,永远空位”描述的是()A.渐进比对算法B.迭代比对算法C.分而治之比对算法D.动态规划比对算法正确答案:A14、下列不属于分子生物学数据库的特点的是()A.版本不更新B.数据间关系复杂C.数据库种类繁多D.数据存在冗余和偏差正确答案:A15、GenBank中具有唯一性的字段是()A.AccessionanismC.AuthorsD.Source正确答案:A16、哪个基因组序列还完全未被破解()A.菠萝B.恐龙C.猛犸象D.人类正确答案:B17、下面哪个工具可以用来检验原始读段的质量?()A.BWAB.blastnC.FastqcD.Samtools正确答案:C18、基于边合成边测序的测序方法是()A.Illumina/SolexaB.454/RocheC.NanoPoreD.SOLiD/ABI正确答案:A19、比较成熟的三代测序技术是()A.PacBioB.HelicosC.NanoPoreD.Illumina HiSeq正确答案:A20、不采用荧光标记核苷酸的测序技术是()A.Roche 454B.SangerC.ABI SOLiDD.NanoPore正确答案:D21、靶向测序使用的测序文库是()A.AmpliconB.PEC.Mate pairD.Shotgun正确答案:A22、RNA-seq从头组装的常用工具是()A.TrinityB.CufflinksC.ScriptureD.BWA正确答案:A23、RNA-Seq技术用途不包括()A.基因组测序B.基因定量C.基因融合研究D.基因可变剪切研究正确答案:A24、重测序数据分析的最后一步是()A.SNP分析B.比对C.功能注释D.质控正确答案:C25、影响基因组组装效果的因素不包括()A.读段长度B.测序深度C.测序时间D.测序准确度正确答案:C26、组装基因组时,由重复序列导致的错误类型不包括()A.基因融合B.基因剪切C.基因重排D.重复缺失正确答案:A27、重复序列是在基因组中出现次数大于1的DNA片段,不包括()A.旁系同源基因B.调控序列C.微卫星序列D.转坐子正确答案:B28、研究蛋白质与DNA相互作用的是()A.酵母三杂交B.免疫共沉淀C.酵母双杂交D.ChIP-seq正确答案:D29、在线的染色体可视化工具是()A.Genome browserB.DDBJC.EBID.NCBI正确答案:A30、下列属于最不易突变的氨基酸()A.半胱氨酸B.谷氨酸C.丝氨酸D.天冬氨酸正确答案:A二、多选题1、影响基因组组装效果的因素包括A.测序深度B.测序时间C.读段长度D.测序准确度正确答案:A、C、D2、常用的2个全基因组测序策略是A.鸟枪法B.逐步克隆法C.EST测序法D.重要区域优先测序法正确答案:A、B3、20世纪70年代,出现的2种DNA测序方法是A.化学降解测序法B.焦磷酸测序法C.单分子测序法D.链终止测序法正确答案:A、D4、关于C值悖论的描述正确的有哪些A.进化程度低的生物C值反而更高B.物种的C值和它进化的复杂性之间存在严格的对应关系C.亲缘关系相近的物种间C值差异很大D.C值远远超过了遗传信息量的需要正确答案:A、C、D5、基因组重测序技术可被用于哪些检测领域A.食品掺假检测B.中草药的产区检测C.皮草的真伪检测D.宠物疾病检测正确答案:A、B、C、D三、判断题1、配对测序方式可以用来解决重复序列长度超过read长度,无法拼接易形成断点的问题正确答案:√2、配对测序是一种特殊的双端测序方式正确答案:√3、读段文件除了文本格式之外,还可以用图象表示正确答案:×4、测序深度即测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一正确答案:√5、二代测序数据文件的后缀是.fa或.fastq正确答案:√6、fastaq文件中,Q值越小,测序质量越高()正确答案:×7、基因组从头组装的本质是寻找重叠区域()正确答案:√8、读段长于重复序列的长度才可能填补空缺()正确答案:√9、Contig越长基因组拼接效果越好()正确答案:√10、N50可以作为评估基因组组装效果的一个指标()正确答案:√11、RNA-seq基因对应的读段数量和基因长度及测序深度有关()正确答案:√12、进行有参考基因组的二代测序数据比对时,只需要基因组序列文件即可()正确答案:×13、FPKM是单端RNA-seq基因表达量的表示方法()正确答案:×14、对于复杂基因组,一般一种测序文库就足够了()正确答案:×15、测序文库构建很大程度决定了测序数据的好坏()正确答案:√16、二代测序的核心技术是循环芯片测序法()正确答案:√17、测序深度越高,测序数据量越大()正确答案:√18、二代测序数据文件的后缀是.fa或.fastq()正确答案:√19、基于焦磷酸合成测序的方法是SOLiD/ABI()正确答案:×20、Sanger测序发现时间早于K.Mullis的PCR()正确答案:√21、DNA测序和蛋白质测序相关技术都获得过诺贝尔奖()正确答案:√22、大规模基因组测序主要有逐步克隆和鸟枪法2种策略()正确答案:√23、传统的生物学研究方法是从表型出发()正确答案:√24、多数遗传性状是由单个基因决定的()正确答案:×25、人类基因组计划是中国人主持的第一个国际项目()正确答案:×26、相同长度序列,蛋白质组的复杂度低于基因的复杂度()正确答案:×27、大数据必然会造福人类正确答案:×28、大数据已经成为我国国家战略正确答案:√29、蛋白质发挥生物学功能依赖于其三维结构正确答案:√30、双端测序与单端测序的区别在于,前者需要在DNA片段的两端分别加上引物和连接子正确答案:√三、填空题1、常见的三大核酸数据库中,位于欧洲的是_________。

生物信息技术复习题

生物信息技术复习题

生物信息技术复习题一、简答题1、简述信息的9个性质。

2、简述医学信息系统的特点3、简述电子病历的组成元素。

4、什么是医生工作站,其主要功能是什么?5、简述图1所示手工方式医嘱处理流程。

图1 手工方式医嘱处理流程6、简述医院信息系统的软件系统体系结构的种类。

7、简述医学影像系统主要解决哪些问题。

8、DICOM标准文件包括哪几部分内容?9、简述实验室信息系统的主要任务。

10、简述中医信息学的基本特征。

11、简述系统的特性。

12、简述医院信息系统的网络结构分类。

13、简述电子病历系统的主要技术。

14、如何实现电子病历的安全性?15、简述图2所示医生录入医嘱处理流程。

图2 医生录入医嘱处理流程16、简述门急诊系统各业务流程细分及功能。

17、简述医学影像系统的组成18、简述DICOM 标准的网络层次结构。

19、简述静脉药物配置中心的作用。

20、中医信息学要解决的基本问题、主要任务和主要内容。

二、英文专业名词解释(共15分,每题3分)(1)HIS (2)EPR (3)CIS (4)PACS (5)PIV A (1)LIS (2)CPR (3)MIS (4)DICOM (5)MIMIS三、分析说明(共35分,第1题20分,第2题15分)1、如图3所示医院信息系统信息处理的层次,分析并说明其体系结构。

图3 医院信息系统信息处理的层次1. 综合的OLTP2. 面向管理的OLTP3. 面向临床的 OLTP4.综合的 OLAP5. 面向管理的OLAP6. 面向临床的 OLAP8. 临床决策支持(DSS)7. 管理决策支持(DSS) 第一层 联机事物处理OLTP第二层 联机事物分析OLAP第三层 决策支持DSS2、如图4所示工作流程,试分析并说明该住院管理工作流程。

图4 住院管理工作流程3、如图5所示静脉药物配置中心人员构成,试分析说明静脉配置中心的工作流程。

图5 静脉药物配置中心人员构成4、试分析并说明如图6所示门诊医生工作站数据流图中数据流。

生物与数学练习题

生物与数学练习题

生物与数学练习题题目一:细胞分裂1. 描述有丝分裂的过程。

2. 简述有丝分裂与无丝分裂的区别。

题目二:遗传与基因1. 什么是基因?2. 简述基因的遗传规律。

3. 通过一个实例说明基因突变对遗传的影响。

题目三:概率与遗传1. 描述孟德尔的豌豆杂交实验。

2. 如果某个性状的遗传按照经典的孟德尔遗传规律,父本所含基因型为AaBb,母本所含基因型为AaBb,求子代出现两个基因型的概率。

题目四:微生物的增长1. 描述细菌增长的两种方式。

2. 某种细菌初始菌落数为500个,每20分钟翻倍一次,问经过3小时后,该细菌的菌落数为多少?题目五:三角函数与生物1. 解释生物体内骨骼与肌肉的协同作用原理。

2. 蛋白质合成的过程中,需要依赖三角函数计算等角三角形的边长比例,解释其作用原理。

题目六:群落生态学1. 什么是种群密度?如何计算种群密度?2. 简述捕食者-食饵关系在群落生态中的作用。

题目七:微积分与生物1. 解释微积分在生物学中的应用。

2. 分析人体免疫系统对抗病原体的过程,用微积分的概念进行解释。

题目八:生物信息学与遗传1. 什么是DNA测序?简述其原理。

2. 生物信息学在基因组学研究中的应用场景有哪些?题目九:植物生理学1. 解释光合作用及其在植物生理中的作用。

2. 简述植物对温度的适应性机制。

题目十:统计学与生物学实验设计1. 解释生物学实验中的正负对照组设计原理。

2. 简述如何使用t检验来分析实验数据。

以上是生物与数学练习题的内容。

通过这些题目,可以深入探索生物学与数学的交叉领域,加深对生命科学和数学科学的理解。

请根据需要选择相应的题目进行回答或解答。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一:名词解释
1.生物信息学
2.NCBI
3.PubMed
4.生物芯片
5.BLAST
6.UniProt
7.电子克隆
8.EMBL
二:填空题
1.基因芯片可以分为
2. 人类基因组全序列分析分两大步骤即制图和测序,并最终绘制出四张
图谱:
3. 分子系统发生分析主要分为三个步骤即
4. 国际上最主要的三大核酸序列数据库分别是
5. 蛋白质得分矩阵有
7. 文献是掌握科研进展的最直接方式,目前由NCBI维护的大型文献资源
是。

3. 用于核酸序列比对中常见的三种得分矩阵,分别为
4. 根据生物芯片探针分子类型的不同,可以将生物芯片哪三种,
5. 核酸序列分析所获得的信息主要有(举例说明四个)
6. 限制性酶切分析是分子生物学实验中的日常工作之一,这方面最好的
限制酶数据库是
三:选择题
1、如果试图确定一个新蛋白质序列属于哪一个蛋白质家族,或该序列
可能包含何种结构域或功能位点,应使用:()
A: PROSITE数据库 B: DDBJ数据库
C: PIR数据库 D: PDB数据库
2、构建序列进化树的一般步骤不包括:()
A:建立DNA文库 B:建立数据模型 C:建立取代模型 D:建立进化树3、BLAST教案所程序中,哪个方法是不存在的?()
A:BLASTP B:BLASTN C:BLASTX D:BLASTQ
4. 以下常见的几个物种,哪一个目前还没有完成全基因组测序:()A: 茶树 B: 玉米 C: 水稻 D: 小鼠
5、向核酸序列数据库(GenBank/EMBL/DDBJ)提交数据,应该使用下面
哪个软件:()。

A: Blast B:Sequin C:SRS D:Swiss-Model
6、在蛋白质序列数据库中比较查询手头未知的蛋白质序列,应使用Blast中哪个具体的算法:()。

A:BLASTX B:tBLASTN C:BLASTP D:BLASTN
7、下列中属于一级蛋白质结构数据库的是:()
A:EMBL B:DDBJ C:PDB D:SWISS-PROT
8、下面不属于SWISS-PROT蛋白质数据库的注释范畴的是:()A: 与其它蛋白质的相似性 B: 蛋白质的二级结构
C: 由于缺乏该蛋白质而引起的疾病 D: 核酸的功能描述
9、下列属于蛋白质二级结构预测的软件程序是()
A: BLASTX B:SOPMA C:DNAstar D:GO
10. 如果做DNA结构分析,应该考虑用下面哪个数据库:()A:GenBank B: PIR C:NDB D:UniProt
四:简单题
1.简述Entrez的设计概念和使用方法?
2. 简述生物大分子PDB存储的生物分子种类和数据结构特点?
3.简述生物信息学的研究意义?
4 简述蛋白质序列分析的基本内容以及常用的软件?
5. 简述Swiss-Prot的数据结构?
6、简述序列多重比对的意义?
7、简述生物信息学的发展历史?
五:论述题
1.论述蛋白质相互作用研究的意义,传统的实验方法和计算预测方法的
应用?
2.论述后基因组时代生物信息学面临的挑战和研究策略?
3.论述生物信息学的应用?
4. 论述如何利用基因芯片数据做聚类分析。

相关文档
最新文档