生物信息学重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.计算二联体频率
2.保守性计算
二、论述
1.生物信息学与大数据的区别与联系
生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
生物信息的数据和互联网的大数据其实很不一样, 生物信息的数据主要是深,互联网的大数据主要是广。互联网上的大数据是一种样本量很大,但是对于每个样本要分析的内容是非常明确的,而且可行度很高,后续随便做点统计应该就可以了,主要是计算量大。生物信息的数据就不一样了,通常来说样本量不大,就几个个体或者几十几百个,然后数据非常复杂,可能有基因组,表达组,变异数据等很多(而且数据不怎么可靠!),然后生物信息的研究会尝试从中发现一些规律或者找到关键的基因或者位点之类的。总之就是分析方法和分析内容都和传统大数据的分析不一样。
2.生物信息学大数据在生物学上的应用
生物信息学作为一门最具发展前途的新兴学科,它综合运用了计算机技术、生物技术和信息技术进行科学研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义,近年来生物信息学在生物技术、生物医学、农业、食品等研究领域发挥了重要作用。
生物信息学在生物技术领域主要涉及微生物基因图谱、文库的构建、序列的分析、基因组的功能注释、菌种目录、病毒资源库、病原微生物数据库的建设及相关软件的应用以及生物技术平台服务等。生物信息学主要的发展方向是基于数据库与知识库的知识与规律的发现$新型基因的发现、功能预测方法及程序的开发等。
生物信息学最早应用于生物医学领域,随着人类基因组计划最初目标的完成,医学开始注重向研究改善人类健康、预见和避免基因组危害人类的方向转移。通过计算机应用及软件开发,建立人工智能模型,研究生命系统$数据库及其他医疗信息技术在临床环境上的应用,通过管理和分析生物医学图像( 如放射性照片、扫描电子显微镜或者手术模拟环境) ,用于支持治疗病人的决策过程,生物信息学也可用于破译遗传密码、筛选免疫基因以及进行新药研发等领域。
随着遗传操作技术特别是动植物细胞的基因转移技术的不断创新和完善,将农业生物信息学与常规育种技术相结合,进而提高育种效率,创新遗传资源,加快育种进程,已成为农业育种的发展趋势。生物信息学与农业结合将推动农业的发展,高质量完善的农业生物信息数据库则成为农业基础与应用研究中必不可少的技术手段。
食品在加工制作和存储过程中各种细菌数量发生变化,传统检测方法是进行生化鉴定,但所需时间较长,不能满足检验检疫部门的要求,运用生物信息学方法获得各种致病菌的核酸序列,并对这些序列进行比对,筛选出用于检测的引物和探针,进而运用PCR法、RT-PCR 法、荧光RT-PCR法、多重PCR和多重荧光定量PCR等技术,可快速准确地检测出细菌及病毒。此外,对电阻抗、放射测量、ELISA法、生物传感器、基因芯片等技术也是未来食品病毒检测的发展方向。
给一段序列,找启动子位置、5URT、3URT、CDS
四、填空
1.blast算法有两种:NW算法(Needleman-Wunsch,全局优化比较)和SW算法(Smith-Waterman,局部优化比较)
2.高通量测序
3.精准医疗基于遗传信息和基因组
4.三大核算序列数据库:Genbank、 EMBL、 DDBJ
五、简答
1.生物信息学研究的基本问题
生物信息学是生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学,它是当今生命科学和自然科学的重大的前沿领域之一。同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学和蛋白质组学两方面。具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
(1)序列对比的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从相互重叠的序列片段中重构DNA的完整序列。在数据库中搜索相关序列和子序列,寻找核苷酸的连续产生模式,找出蛋白质、DNA序列中的信息成分。
(2)蛋白对比是比较两个或两个以上蛋白质分子结构的相似性。一般具有相似功能的蛋白质结构一般相似,氨基酸的序列内在的决定了蛋白质的三维结构。
(3)基因识别的基本问题是是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。
(4)分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构造进化树。2.人类基因组计划包括:
遗传图谱:又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱:物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
序列图谱:序列分析采用一个区域的DNA序列重叠群使测序工作不断延伸,使用其中的序列标记位点STS作为两个片段间的重叠区域,使分别被测序的短序列进行正确的拼接,最后获得DNA全序列图谱。
转录图谱:转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。
3.大规模、高通量测序中的数据分析:
(1)大规模测序的每一个环节都与数据分析紧密相关
(2)过程复杂、工作量大
(3)有效的数据分析算法与软件
(4)高通量测序技术,复杂微生物群落的基因组测序,新的挑战。
4、转录组分析与芯片技术相比:
(1)RNA-seq无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段。(2)能应用于基因组图谱尚未完成的物种。
(3)具有信噪比高,分辨率高,应用范围广等优势。