华中农业大学本科生物信息

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.生物信息学:

生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。

研究内容:

以基因组DNA序列信息为源头,识别基因组序列中代表蛋白质和RNA基因的编码区,阐明非编码区的信息特征,破译隐藏在DNA序列中的遗传语言规律;同时,归纳、整理与基因组遗传语言信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。

研究方向:

生物学数据的收集、存储、管理与提供(GenBank 1.06*1011 bps)

基因组序列信息的提取和分析(非编码区)

功能基因组相关信息分析

生物大分子结构模拟和药物设计

生物信息分析的技术与方法研究

分子进化与比较基因组学

研究方法:

基于数据挖掘的方法,如:统计方法、机器学习、神经网络等。

基于模拟分析的方法,如:

发展前景:

生物信息学将会揭示人类及重要动植物种类的基因的信息,为生物大分子结构模拟和药物设计提供巨大的帮助。生物信息学不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质有重要意义,而且将为人类疾患的诊治开辟新的途径,还可为动植物的育种改良提供坚实的理论基础。生物信息学的发展已经超越了它最初的目标。现在可以说生物信息学的重要目标在于理解生物数据和揭示生命本质,但是它的前景仍然是不可估量的。可以肯定,在不远的将来,生物信息学的研究成果不仅被应用于生物、医学等相关领域,同时它将对其它学科,包括信息科学、数学、计算机科学物理学等的研究产生巨大的影响。

认识:。。。。。。

2.基因组:包含细胞或生物体的全套遗传信息的全部遗传物质

3.Encode project:Encyclopedia of DNA Elements(DNA元件百科全书)

目的:该项目旨在解析人类基因组中的所有功能性元件

4.1遗传图谱:

又称为连锁图((linkage map),是指基因或DNA标志在染色体上的相对位置与遗传距离,后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示,cM值越大,两者之间距离越远。一般可由遗传重组测检结果推算。

4.2 物理图谱:

是指标明一些界标(例如,限制酶的切点、基因等)在DNA上的位置,图距物理长度为单位,例如染色体的带区、核苷酸对数目等。

5*.生物复杂性:

复杂生物系统可以出现在生物界的各个层面上,包括分子水平、细胞水平、组织器官水平、个体水平、群体水平和生态系统水平。

(可以逐个展开阐述:

单分子层次遗传信息的表达:由DNA到RNA再到蛋白质,即序列决定结构,结构决定功能。

分子网络层次遗传信息的表达:分子与分子的相互作用决定分子相互作用网络,然后又决定相应的功能。

基因种类多、核酸种类多、调控机理复杂、复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化、生物中的复杂网络、复杂过程、复杂现象……

数据库

6.1 EBI的主要资源:

ENA(核酸序列数据库),

Ensembl(基因组),

ArrayExpress(基因表达数据),

UniProtKB蛋白质序列,

InterPro(蛋白质家族/域/蛋白指纹等)

PDBe(大分子结构)

6.2 NCBI的主要资源: 书上P19

MP 架构

LAMP架构:L —Linux 操作系统

A —Apache 网站服务器

M —MySQL数据库

P —PHP/Perl脚本语言

8.1 核酸数据库

8.2 蛋白质结构数据库

8.3代谢途径数据库

9动态规划

把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解,从而对问题进行优化。

适用动态规划的问题必须满足最优化原理和无后效性。

1.最优化原理(最优子结构性质)最优化原理可这样阐述:一个最优化策略具有这样的性质,不论过去状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。简而言之,一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优子结构性质。

2.无后效性将各阶段按照一定的次序排列好之后,对于某个给定的阶段状态,它以前各阶段的状态无法直接影响它未来的决策,而只能通过当前的这个状态。换句话说,每个状态都是过去历史的一个完整总结。这就是无后向性,又称为无后效性。

3.子问题的重叠性动态规划将原来具有指数级时间复杂度的搜索算法改进成了具有

多项式时间复杂度的算法。其中的关键在于解决冗余,这是动态规划算法的根本目的。动态规划实质上是一种以空间换时间的技术,它在实现的过程中,不得不存储产生过程中的各种状态,所以它的空间复杂度要大于其它的算法。

10.蛋白质预测方法:

蛋白质二级结构预测就是从蛋白质的一级序列出发,预测序列中各分子所属的二级结构类型。抽象出来看,就是从20种氨基酸组成的序列到3种二级结构类型(3类预测)或8种类型(8类预测)组成的序列的一个映射。预测结果的好坏就是看,谁构造的映射精确,并且泛化能力强。迄今,蛋白质二级结构预测算法共经历了三代。

第一代是指上世纪六七十年代的工作,这些算法几乎全部都是基于单个氨基酸倾向性的。

第二代算法大体是指上世纪九十年代之前的算法,此阶段的算法主要考虑的是3-5个相邻残基片段的倾向性,三类预测的准确率在60%多,此时已开始使用机器学习类算法。

第三代预测算法是指上世纪九十年代之后的算法,此时蛋白质二级结构预测领

域已经是机器学习类算法特别是人工神经网络的天下。这一代算法除了考虑残基片段的局部信息以外,还把从序列比对得到的进化信息(全局信息)结合进来,把3类预测的准确率提高到70%以上。这些算法通常的做法是,把待预测的序列拿去和蛋白质序列的无冗余库(nr)作比对,并以比对结果所给出的概貌(Profile)作为神经网络的输入,再由多层神经网络预测二级结构。

相关文档
最新文档