中科院生物信息学复习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.什么是生物信息学,如何理解其含义?
答:生物信息学有三个方面的含义:
1)生物信息学是一个学科领域,包含着基因组信息的获取、处
理、存储、分配、分析和解释的所有方面。
2)生物信息学是把基因组序列信息分析作为源头,破译隐藏在
序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。
3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及
遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。
怎样理解生物信息学:
生物信息学是把基因组序列信息分析作为源头,找到基因组序列中代表蛋白质和基因的编码区;同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在序列中的遗传语言规律:在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。
其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程中的生理生化信息结合,阐明其分子机制,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。
2.如何利用数据库信息发现新基因,基本原理?
答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:
1)从大规模基因组测序得到的数据出发,经过基因识别发现新
基因:
利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,,
2)利用数据库发现新基因和新:
数据来源于大量的序列小片段,较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入库
①构建若干数据库:总的纯化的数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,数据库;
②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质;
③用种子和纯化的数据库比对
④用经过一次比对得到的长的片段和蛋白数据库、数据库比较,判断是否为已有序列,再利用该大片段与纯化的数据库比对,重
复以上步骤,直到序列不能再延伸;
⑤判断是否为全长序列。
(利用数据库:原理:当测序获得一条序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有序列,进而将它们拼接成和完整基因相对应的全长序列。而到目前为止,公共数据库()中已经收集到约800万条的人的序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)
3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么?当前的困难是什么,如何克服?
答:构建系统进化树,其主要步骤如下:
1)序列相似性比较。就是将待研究序列与或蛋白质序列库进行
比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有、等;
2)序列同源性分析。是将待研究序列加入到一组与之同源,但
来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有等;
3)构建系统进化树。根据序列同源性分析的结果,重建反映物
种间进化关系的进化树。为完成这一工作已发展了多种软件包,如、等;
4)稳定性检验。为了检验构建好的进化树的可靠性,需要进行
统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用算法。
当前的主要困难是发现了基因的横向迁移()现象,即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。
克服的方法:
1)选择垂直进化而来的序列进行研究,即去除横向迁移的数
据库,如数据库;
2)使用全基因组数据库进行基因组水平上的对比;利用生物
体的蛋白质组构建进化树。
选取特征对比,不同长度的序列字符串进行对比后,对照
其进行归一化;
对比,将采用的分类规则进行分类,再构建进化树
4.什么是,为什么的研究是重要的,举出2~3个相关的网站。答:是指单核苷酸多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性;
因为研究是基因组领域理论成果走向应用的关键步骤,是联系基
因型和表现型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。
相关的一些网站:
1) 's ()
2)将这些数据进行整理,去掉冗余,使每个都是唯一的。此
时的被称为或。(()
3) () 这一数据库收录了人基因组中所有已知的序列变化,
包括:、序列的插入和缺失()、简单重复序列等。()
4)()()
5) (),蛋白突变数据库。收录了蛋白质特定位点的氨基酸突
变信息,以及这些突变对蛋白质结构功能的影响。()
6) ():人类群体等位基因频率数据库,
5. 什么是系统生物学?系统生物学对生命科学概念上的发展?答:系统生物学是指在系统的层面上研究生命活动。(研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系。)包含三个相互衔接的组成:整合数据,即整合所有各个层次(水平,水平,蛋白质水平,蛋白质相互作用水平)的信息数据;系统建模,即用这些信息构建描绘生命活动的数学模型;预测未知,即用这个模型预测生命未来的发展及外界干扰后系统的变异。
概念上的发展主要有:
1)研究思路的变化:传统的分子生物学研究步骤一般为:序列