生物信息学重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.计算二联体频率
2.保守性计算
二、论述
1.生物信息学与大数据的区别与联系
生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
生物信息的数据和互联网的大数据其实很不一样, 生物信息的数据主要是深,互联网的大数据主要是广。
互联网上的大数据是一种样本量很大,但是对于每个样本要分析的内容是非常明确的,而且可行度很高,后续随便做点统计应该就可以了,主要是计算量大。
生物信息的数据就不一样了,通常来说样本量不大,就几个个体或者几十几百个,然后数据非常复杂,可能有基因组,表达组,变异数据等很多(而且数据不怎么可靠!),然后生物信息的研究会尝试从中发现一些规律或者找到关键的基因或者位点之类的。
总之就是分析方法和分析内容都和传统大数据的分析不一样。
2.生物信息学大数据在生物学上的应用
生物信息学作为一门最具发展前途的新兴学科,它综合运用了计算机技术、生物技术和信息技术进行科学研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义,近年来生物信息学在生物技术、生物医学、农业、食品等研究领域发挥了重要作用。
生物信息学在生物技术领域主要涉及微生物基因图谱、文库的构建、序列的分析、基因组的功能注释、菌种目录、病毒资源库、病原微生物数据库的建设及相关软件的应用以及生物技术平台服务等。
生物信息学主要的发展方向是基于数据库与知识库的知识与规律的发现$新型基因的发现、功能预测方法及程序的开发等。
生物信息学最早应用于生物医学领域,随着人类基因组计划最初目标的完成,医学开始注重向研究改善人类健康、预见和避免基因组危害人类的方向转移。
通过计算机应用及软件开发,建立人工智能模型,研究生命系统$数据库及其他医疗信息技术在临床环境上的应用,通过管理和分析生物医学图像( 如放射性照片、扫描电子显微镜或者手术模拟环境) ,用于支持治疗病人的决策过程,生物信息学也可用于破译遗传密码、筛选免疫基因以及进行新药研发等领域。
随着遗传操作技术特别是动植物细胞的基因转移技术的不断创新和完善,将农业生物信息学与常规育种技术相结合,进而提高育种效率,创新遗传资源,加快育种进程,已成为农业育种的发展趋势。
生物信息学与农业结合将推动农业的发展,高质量完善的农业生物信息数据库则成为农业基础与应用研究中必不可少的技术手段。
食品在加工制作和存储过程中各种细菌数量发生变化,传统检测方法是进行生化鉴定,但所需时间较长,不能满足检验检疫部门的要求,运用生物信息学方法获得各种致病菌的核酸序列,并对这些序列进行比对,筛选出用于检测的引物和探针,进而运用PCR法、RT-PCR 法、荧光RT-PCR法、多重PCR和多重荧光定量PCR等技术,可快速准确地检测出细菌及病毒。
此外,对电阻抗、放射测量、ELISA法、生物传感器、基因芯片等技术也是未来食品病毒检测的发展方向。
给一段序列,找启动子位置、5URT、3URT、CDS
四、填空
1.blast算法有两种:NW算法(Needleman-Wunsch,全局优化比较)和SW算法(Smith-Waterman,局部优化比较)
2.高通量测序
3.精准医疗基于遗传信息和基因组
4.三大核算序列数据库:Genbank、 EMBL、 DDBJ
五、简答
1.生物信息学研究的基本问题
生物信息学是生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学,它是当今生命科学和自然科学的重大的前沿领域之一。
同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学和蛋白质组学两方面。
具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
(1)序列对比的基本问题是比较两个或两个以上符号序列的相似性或不相似性。
从相互重叠的序列片段中重构DNA的完整序列。
在数据库中搜索相关序列和子序列,寻找核苷酸的连续产生模式,找出蛋白质、DNA序列中的信息成分。
(2)蛋白对比是比较两个或两个以上蛋白质分子结构的相似性。
一般具有相似功能的蛋白质结构一般相似,氨基酸的序列内在的决定了蛋白质的三维结构。
(3)基因识别的基本问题是是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。
(4)分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构造进化树。
2.人类基因组计划包括:
遗传图谱:又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱:物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
序列图谱:序列分析采用一个区域的DNA序列重叠群使测序工作不断延伸,使用其中的序列标记位点STS作为两个片段间的重叠区域,使分别被测序的短序列进行正确的拼接,最后获得DNA全序列图谱。
转录图谱:转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。
3.大规模、高通量测序中的数据分析:
(1)大规模测序的每一个环节都与数据分析紧密相关
(2)过程复杂、工作量大
(3)有效的数据分析算法与软件
(4)高通量测序技术,复杂微生物群落的基因组测序,新的挑战。
4、转录组分析与芯片技术相比:
(1)RNA-seq无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段。
(2)能应用于基因组图谱尚未完成的物种。
(3)具有信噪比高,分辨率高,应用范围广等优势。
(4)已成为研究基因表达和转录组的重要实验手段。
5、基因组分析内容:
(1)基因组的拼接以及拼接效果的评估。
(2)基因组功能元件的预料及其功能注释
(3)比较基因组分析
(4)物种特异性生物学亮点的挖掘。
6、期望最大化(EM)方法:
EM算法即最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,用于含有隐变量(latent variable)的概率参数模型的最大似然估计或极大后验概率估计。
最大期望算法经过两个步骤交替进行计算:
第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;
第二步是最大化(M),最大化在 E 步上求得的最大似然值来计算参数的值。
M 步上找到的参数估计值被用于下一个 E 步计算中,这个过程不断交替进行。
总体来说,EM的算法流程如下:1.初始化分布参数2.重复直到收敛:
E步骤:估计未知参数的期望值,给出当前的参数估计。
M步骤:重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。
EM算法的主要目的是提供一个简单的迭代算法计算后验密度函数,它的最大优点是简单和稳定,但容易陷入局部最优。
7、信息论方法
信息符号、状态空间(ACGT四种符号、及其所有可能的排列)
信息量信息的度量是信息符号出现何种状态的一种不确定性程度,信息的获得要对不确定性进行否定
信息熵信息熵H刻画了随机试验结果的先验不确定性,或观察到观察到输出时所获得的信息量
刻画生物序列中的信息保守性
8.动态规划方法
一种常用的多阶段决策的寻优算法
基本思想:在状态空间中,根据目标函数,通过递推,求出一条从状态起点到状态终点的最优路径(代价最小的路径)。
其策略是将一个问题递归分解为两个规模更小的相似子问题。
动态规划在生物信息学研究中用的最多的方面是DNA序列或蛋白质序列比对,或应用于隐Markon模型中寻找最优的隐状态序列。
9、RNA-Seq
RNA-seq即转录组测序技术,就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。
反映出它们的表达水平。
实验流程:样品提取总RNA后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA第一链,并加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二链,经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱经末端修复、加碱基A,加测序接头,再经琼脂糖凝胶电泳回收目的大小片段,并进行PCR扩增,从而完成整个文库制备工作,构建好的文库用Illumina HiSeq2000进行测序。
应用领域:转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融
合、编码区SNP研究),非编码区域功能研究(Non-coding RNA、microRNA前体研究等),基因表达水平研究以及全新转录本发现。