生物信息学课后习题

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

绪论
1、生物信息学的概念及其组成部分
生物信息学（Bioinformatics）：是一门交叉学科，包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面，它综合运用了生物学、计算机科学和数学等多方面的知识和方法，来阐述和理解大量生物学数据所包含的生物学意义，并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学的三个组成部分:
①建立可以存放和管理大量生物信息学数据的数据库
②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具
③使用这些工具去分析和解释不同类型的生物学数据
2、生物信息学的主要研究领域
①生物数据的建立与搜索
②序列比较与相似性搜索
③基因组结构注释
④蛋白质结构与功能的预测
⑤基因组数据分析
⑥比较基因组合系统发生遗传学分析
⑦功能基因组和蛋白质组学数据分析
⑧信号传导、代谢和基因调节途径的构建与描述
3、初级数据库二级数据库的概念说出几个数据并说明包含什么数据
一级数据库（primary database）：数据直接来源于实验获得原始数据，只经过简单的归类、整理和注释。

例如GenBank、EMBL、DDBJ、SWISSPORT、PDB
二级数据库（secondary database）：在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来，是对生物学知识和信息的进一步整理。

例如human genome databases GDB转录因子数据库等
4、简述核酸序列的测序
①DNA测序一般原理
DNA测序一般采用全自动的荧光标记链终止反应完成，该法利用了DNA聚合酶能从脱氧核糖核苷酸（dNTP）延伸但不能从双脱氧核糖核苷酸（ddNTP）延伸的特性，通过加入限量的荧光标记过的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段，然后通过聚丙烯酰胺凝胶电泳（PAGE）分离并通过扫描仪读取序列（300-800bp）
②基因组测序策略—分而治之---shortgun
因为测序反应每次只能测300-800bp故先将基因组分割成一定大小的片段，然后对这些片段分别测序，测完后再将这些片段拼接起来—鸟枪法（shortgun）
③一次性测序
例如：表达序列标签（EST）是其中的代表，它对随机挑选的cDNA克隆进行两端一次测序得到300-500bp的片段，代表cDNA的一部分。

在生物信息学研究中有重要的作用
5、GBFF格式包括那三部分内容，并能说出各项的含义
GBFF（GenBank flatfile）格式：是基因GenBank database中的基本信息单位
分为三部分:
第一部分：包含整个记录信息的描述
第二部分：这一记录的特性
第三部分：序列本身最后一行以//结尾
6、举出几种蛋白质测序方法并简要论述
Edman降解法：从多肽游离的N端测定氨基酸残基序列的过程常用异硫氰酸酯修饰，切下修饰的残基，层析鉴定，循环。

（自动测序仪60个肽）sanger测牛胰岛素用的是2.4-二硝基氟苯反应。

C端测序：肼解法生成氨基酸酰肼沉淀。

多肽酶法最常用（肽链外且酶）从C端逐个降解。

效果不理想
质谱测序：通过电离源将蛋白质或多肽分子转化为气相离子，然后利用质谱分析仪的电场、磁场将具有特定质量与电荷比(mass/charge，m/z)的离子分离开来，经过离子检测器收集分离的离子，精确确定离子的分子量，以分析鉴定未知蛋白质或多肽。

其特点是能提供精确地分子量和进行微量鉴定。

7、说出两个最著名的检索系统
最著名的两个Entrez美国建立和SRS(sequence vetrieval sysrem)EMBL Theore Etzold建立
基因预测(1)
1、什么是寡核苷酸，简并寡核苷酸？
寡核苷酸（oligonucleotide）：是一类只有20个以上碱基对的短核苷酸片段的总称（包括DNA和
RNA A RNA）寡核苷酸可以很容易与它们的互补链链接，所以常用来作为探针（probe）确定DNA和RN 的结构，用作引物来进行聚合酶链式反应。

简并寡核苷酸：是代表编码单个氨基酸的所有可能组成的不同序列的混合物。

2、引物设计常用的工具举例、PCR用的引物约多个碱基？
Primer
3、基因的概念、简单介绍真核基因的结构？
基因（gene）：具有遗传效应的DNA片段。

真核基因的结构：large genomes107–1010bp；low coding density(<50%)；intron/exon structure(alternative splicing)；Pseudo-gene；Gene identification a complex problem,gene level accuracy~50%
4、DNA序列污染的主要来源？
主要的污染源：a）载体b）接头和PCR引物c）转座子和插入序列d）DNA/RNA纯度不好5、ORFS的概念，说出一种常用查找软件。

ORF（open reading frame)：一个起始密码子和终止密码子之间的序列称为一个开放读框，当一个DNA序列被测定以后，它编码的蛋白质未知时通常使用这一术语；查找软件：ORF Finder（NCBI）6、CpG岛的概念及其常用查找软件
CpG岛（CG island）：也称为HTF岛，是一些富含GC的小区域，定义为Y值（观测到的CpG双碱基数与预期的数目之比）并且含量大于50%的序列区域，它可以有几百bp到几千bp长。

通常出现在管家基因（housekeeping
gene）或频繁表达基因的启动子周围。

常用查找软件：CpGPlot、CpGReport、Isochore
7、promoter、spliceosome、termination signal
启动子（promoter）：DNA分子上能与RNA聚合酶结合并形成转录起始复合体的区域，在许多情况下，还包括促进这一过程的调节蛋白的结合位点，是一个十分有层次的结构，通常所说的启动子包括：转录因子结合位点、核心启动序列和上下游相关的调控元件；
剪切体（spliceosome）：在真核RNA的转录过程中，首先转录整个基因，然后切除掉其中的内含子，外显子拼接成RNA这个过程有许多相关因子作用，如：SnRNP和hnRNP,这些因子所构成的复合体称为spliceosome；
termination signal：由反向重复序列以及特定5’-AATAAA-3’组成，反向重复序列的转录产物可
polyA A 形成发卡结构，特异性的被RNA聚合酶转录复合体识别，而是转录终止，AATAAA同时是poly 加尾信号。

多腺苷酸化信号的分析可以帮助划定基因的范围。

基因预测（2）
1、什么叫基因注释？
注释（annotation）：指从原始序列工程数据中获得有用的生物学信息。

基因组注释（genome annotation）：主要是指在基因组DNA中寻找基因和其他功能元件（结构注释），并给出这些序列的功能（功能注释）。

2、基因预测的方法有哪些？
序列相似性分析方法（Sequence alignment based method）；从头预测（统计分析）方法[Statistically based method(ab initio)]；多信息融合的方法（hybrid method）
3、名词解释EST
EST（expressed sequence tags）：是从实际选择的cDNA克隆中进行5’端或者3’端一次性测序获得的cDNA序列片段，长度一般为400-600bp代表了一个完整基因的一部分。

4、特征级建模常用的信息有哪些？
常用的信息：
功能位点信号（起始点、终止点、启动子、终止子、拼接位点…）；密码子使用的偏好性：Codon Usage Preference；同义密码子（synonymous condon）；最优密码子（optimal condon）；反密码子（anticondon）；碱基组成偏好性（base composition bias）；密码子偏好性（condon bias）
5、密码子的碱基组成偏好性及密码子的偏好性
碱基组成偏好性（base composition bias）:由于不同氨基酸及其不同的同义密码子使用频率的不同，导致了在编码序列中密码子的三个位置上4种碱基的概率有明显的差别，密码子的三个位置上碱基概率分布特征称为碱基组成偏好性
密码子偏好性（condon bias）：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高校表达的基因使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子的偏好性（某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子，此现象被称为密码子偏好性(Codon Usage bias)。

6、基因预测的策略
DNA序列分的总结（基因预测的策略）
当我们拿到一个DNA序列后，我们要对其进行分析，其过程如下：
1）序列相似性分析
在DNA序列中查找是否有序列污染，若有把污染序列去除。

在序列中搜索重复元件，重复元件会对序列分析造成很大的困扰，若有重复元件要进行屏蔽。

对序列做同源性搜索，如果同源性检测结果提示序列与某功能区域高度同源就可以对基因功能的定位做出非常有力的判断，也可以
DNA A 依据高度同源的蛋白质或EST序列非常准确的重构基因的结构，若没有发现同源序列则要对DN 序列进行基于统计的分析。

2）基于统计的分析方法
构建基因模型：特征级模型（可利用的信息包括功能位点信号、密码子偏好性、外显子内含子等构件的长度分布、编码区非编码区GC含量的差异性）、单元级建模、基因级建模、基因组级建模，通过建模构建出目标函数
7、基于统计分析的基因预测软件有哪些？（至少举出两例）
GENESCAN，ORF Finder
构建进化树
1、系统发育学（phylogeny）系统发育树（系统树）名词解释
系统发育学（phylogeny）：生物体间的相似和差异可以用来推断进化关系，确定生物体间进化关系的学科分支，即系统发育学
系统发育树（系统树）：用来显示进化关系，节点用来表示不同的生物体，链接用来显示不同的遗传路线
2、有根树和无根树各反映了什么？
A rooted phylogenetic tree is a tree with a unique root node corresponding to the(usually imputed)
most recent common ancestor of all the entities at the leaves(aka tips)of the tree.（反映了树上物种或基因的时间顺序）
Unrooted trees illustrate the relatedness of the leaf nodes without making assumptions about common ancestry.（只反映分类单元之间的距离，而不涉及祖先问题）
3、什么是特征性数据和距离数据？
特征性数据：它提供基因、个体、物种、群体信息
距离数据：（相似性数据）提供成对基因、个体、物种、群体间相似性的数据
4、构建进化树的三种方法？
距离矩阵法（distance matrix method）根据物种间的距离
最大简约法（maximum parsimony）寻找物种间最小的变数
最大似然法（maximum likelihood）寻找最大可能性的变化路径
5、无根树增加根的两种方法？
使用外群（可以使生物物种）如：哺乳动物系统树种可以用鸟类作为树根
没有明显外群的情况下，可以将最远距离的两个物种的中点作为根
7、什么叫分子系统发育
分子系统发育：生物体不同株系后代的DNA在进化过程中积累突变，并导致大分子序列的分歧（DNA、RNA和蛋白质序列）。

基于大分子序列间差异的系统发育树被称为分子系统发育。

8、研究不同的类群，如何选择大分子序列？
研究进化距离相近的类群，杨该选择进化足够快的分子，从而明确区分这些密切相关的物种
研究分歧大的分子要选用高度保守、突变很少的大分子序列
选择合适、准确的同源序列（如：要选择垂直同源而不选择水平同源）
9、名词解释垂直同源、水平同源
垂直同源体：不同生物体中具有相同功能的同源基因
水平同源体：具有不同或者相关功能的同源基因
蛋白质序列分析
1、名词解释：同源蛋白、蛋白质同源分析
同源蛋白：生物大分子序列是分子进化的产物，从共同祖先序列进化而来的蛋白质通常称为同源蛋白
蛋白质同源分析：基于检测的同源蛋白从而外推得到某特定蛋白的某些特性的方法称为蛋白质的同源分析
2、名词解释：蛋白质二级数据库并说出几个蛋白质二级数据库（至少3个）
同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。

因此，将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了，存储这些信息的数据库称为蛋白质二级数据库。

Prosite数据库：基于多序列比较得到的单一保守序列片段，或称序列模体
Prints（蛋白质序列指纹图谱数据库）
Blocks（蛋白质序列模块数据库）
Profiles（序列概貌数据库）
Pfam（蛋白质序列家族数据库）采用了隐马尔可夫模型
Identify（蛋白质序列识别数据库）
3、蛋白质结构域的概念及结构域的特点
蛋白质结构域(protein domain)：必须是一个独立单元。

是蛋白质中结构紧密(compact)的、半独立的单元(semi-independent)在三维结构上呈现几何独立的部分；是蛋白质三维结构中可自折叠的稳定单元(stable
unit)，是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列；是可重现的功能和进化
模块，是可定义单一明确功能的部分蛋白质序列
4、蛋白质序列的理化性质分析包括哪一些？并举出一种软件。

蛋白质理化性质的分析通常包括：蛋白质的分子量、等电点(pI)、氨基酸组成、疏水性和亲水性分析等
Compute pI/Mw；ANTHEPROT；
5、蛋白质序列的基本性质包括哪一些？并举出两种软件。

蛋白质序列的基本性质分析，一般包括蛋白质的跨膜螺旋、卷曲螺旋、二硫键位置、翻译后修饰、信号肽与亚细胞定位、磷酸化位点分析等
SignalP；MHMM和TMpred
6、说明蛋白质功能的三个层次（可能简答）
分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能
molecular function：蛋白质的特殊绑定位点、催化活性和构象变化等
cellular function：一定细胞环境下代谢途径、信号级联的参与情况的
phonotypic function：生物体内的表型，如是否患有疾病及其疾病病理等
7、蛋白质功能注释的根本目标是什么？
功能注释的根本目标是建立基因型(genotype)与表型(phenotype)以及与环境间的相互作用与联系为致病基因筛选、药物靶标筛选、基因表达谱数据分析、建立调控网络等提供关键信息。

蛋白质结构分析
1、说出至少一种蛋白质结构数据库和一种可视化工具
Swiss-PDBViewer r 蛋白质结构数据的获取--PDB库，蛋白质三维结构显示比较出名的有:RASMOL，Swiss-PDBViewe 和VMD等
2、蛋白质结构的分析包括哪些？
①结构品质的分析
②蛋白质内部相互作用分析
③溶剂可接近表面的计算及分析
④功能位点的分析
3、蛋白质结构联配的概念
结构联配（比对）：将两个相似的三维结构尽可能重叠在一起，这样使得结构上对应残基的主链原子在空间尽可能的靠近。

利用重叠反过来定义序列的联配，通常认为序列上匹配的残基在空间距离上是相近的。

通过结构联配找到同源关系更远的蛋白质，因为结构要比序列更加保守。

4、说出一种结构相似性搜索工具
VAST
5、说出两个蛋白质结构分类数据，说出几种结构类
结构分类主要依据：序列比对和结构比对
6、蛋白质结构预测的常见方法有哪些？
常见的预测方法：比较建模法、折叠识别法、二级结构预测法和从头预测法
7、蛋白质预测的策略？（大题）
在得到一条未知结构蛋白质的序列时，我们可以采取如下的步骤进行结构预测：
第一步：应该是判断目标序列中是否包含关键性的特征，如应该检查序列的潜在的跨膜片段；是否含有那些单氨基酸重复的区域，有则要作特殊处理。

通过用Interpro之类的工具分析序列可以查寻这个蛋白质中可能存在的已知结构域，揭示出蛋白质中所有的结构域组成。

另外，可以用PSI-BLAST寻找和它相关的其它序列或者部分序列（结构域）。

第二步：如果查询序列与已知结构的序列有较高的相似度，则可以采用比较建模法，由SWISS-MODEL提供的网络服务可以完成这个任务，如果SWISS-MODEL上的搜索是成功的，则可以直接通过它进一步建立完整的结构模型。

第三步：当不能用比较建模时，下一步则应该是二级结构预测。

二级结构预测可以用于任何蛋白质序列，（球蛋白的结构域的预测要比膜蛋白更加准确）。

将每个残基安排到α螺旋、β折叠或无规卷曲中去，。

二级结构预测完成之后则是进行折叠识别，该方法能确定二级结构是如何包裹成三级折叠的，这类方法的预测精度通常也要比标准比较建模法低得多。

蛋白质组数据分析
1、蛋白质组及蛋白质组学？
蛋白质组(proteome)：是指一个基因、一个细胞或组织所表达的全部蛋白质成分。

蛋白质组学首先利用双向电泳技术分离蛋白质组分，然后利用计算机软件对所得图像进行处理，从胶上回收蛋白质并采用氨基酸成份分析、微量蛋白质序列分析、质谱分析等技术进行鉴定，从而获得蛋白质组分的物理、化学及生物学参数,如分子量、等。

将获得的数据与已知蛋白质数据库中的数据进行比较，获得相关信息。

2、蛋白组学的核心技术是什么？
双向电泳
3、双向电泳的两向分别是什么电泳？
第一向是等电聚焦(isoelectric focusing，IEF)第二向是SDS-聚丙烯酰胺凝胶电泳(SDS-PAGE)
4
定蛋白质。

肽阶梯序列技术（peptide ladder sequence）:一种间接的肽序列鉴定技术，通过末端的酶解或化学降解，产生一组相互之间差一个残疾的多态序列组，经MACDI-TOF-MS鉴定后，由所得到的肽阶梯图中各肽的分子量差值确定末端的氨基酸序列。

肽序列标签（peptide sequence tag）：双向凝胶电泳分离的蛋白质点，经酶裂解后，生成的肽混合物不需分离，可直接导入下列带有ESI的串联质谱(MS/MS)分析仪中，由MS/MS直接测定肽混合物中某一特定肽段的肽序列标签。

肽质指纹(peptide mass fingerprint,PMF):是由质谱仪测定的某蛋白的多条肽段的分子量，这些肽段由酶或化学裂解法裂解得到。

5、末端序列标签(Terminal sequence tags)：可以用来鉴定蛋白质的N端、C端氨基酸序列。

6、蛋白质相互作用的形式有哪些？
蛋白质分子的聚合、分子杂交、分子自我装配、多酶复合体、分子识别
7、说出三种研究蛋白相互作用的实验方法
噬菌体展示技术、酵母双杂交方法、串联吸附质谱分析TAP/MS
生物信息学在创新药物中的应用
1、药物靶标（drug target）：指导致疾病（Disease or Disorder）或与疾病产生密切相关的生物大分子，包括蛋白质（酶、受体、离子通道），核酸（DNA、RNA），糖类等。

药物可与其专一的结合来加强或者阻止它进行正常生理活动。

2、先导化合物（lead molecule）：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。

3、生物信息学在创新药中研究中发挥作用主要有两个方面
药物靶点发现、药物基本设计
4、主要的药物靶标
细胞膜受体约占靶标总数的45%，酶占28%，激素和因子类占10%，离子通道占5%，核受体占2%，其它占7%。

5、说出一种分子对接的常用软件
DOCK
人类遗传病基因和基因芯片
1、人类遗传病有哪些种类？
2、什么是遗传度？
遗传度是人体性状或者疾病由基因决定程度，一般用百分比表示。

一个性状的表现是受遗传和环境两方面因素决定的。

遗传度说明了两者作用的相对大小，即从变异的角变，将遗传作用与环境作用的相对重要性给以定量化。

例如Ⅱ型ＤＭ属多基因遗传，遗传度为５８．７４％。

3、说出一种疾病基因相关的生物信息学数据库
Human Gene Mutation Database （HGMD ）收集了人类遗传疾病相关的核基因突变数据信息4用于分析哪些基因的表达发生了改变，基因表达之间存在何种相关性，在不同条件下基因之间如何相互影响，等等。

它们在生物学、药理学、医学等领域有重要的应用。

（填空）
上机操作作业格式及说明
邮件的名称：学号+姓名
附件格式：
学号：姓名：
作业：分析一条DNA 序列；分析一条蛋白质序列
自由选择分析内容，至少用到五中操作每种2分。

操作结果通过截屏方式复制，然后粘贴到WOR
WORD D 格式的文本中。

模板在公用邮箱中，也可以自己设计。

人类遗传病基因病
染色体病
线粒体病单基因遗传病
多基因遗传病。