基因组科学与技术东南大学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
genetics是遗传,重点在于基因与性状的关系,侧重于基因功能的认识。
而组学是一种思路,一种技术,这体现在基因功能的研究上,目前的分子生物学研究单个基因,而组学通过全基因组的研究来认识基因行为和功能。这可理解为钓鱼和网鱼的区别
我讲的这部分的逻辑是:基因组学关心的问题是什么?用什么技术来研究这个问题?这个技术得到的数据,如何分析?我们的重点是分析思路和主要步骤
话说重点:1. 课堂上出的题目,2.每一讲的主要结构(基因组注释流程、基因表达数据分析方法)
目前是这样考虑的,出一些选择题,主要是关于基因组学理论的,出一些名词解释,例如N50等,出几个问答题,讲讲对某一类数据或者具体问题的分析流程(一般要求包括分析目的、分析主要步骤、每一步的分析思路和工具举例)
GO:gene ontology, 基因本体,我的理解,是一组具有相互关系的标准术语(词汇)集,用于基因产物的功能注释。GO术语分3类,分别是细胞功能cellular function, 生物学过程biological process, 和细胞组分(cellular component),每一类中的词汇之间形成有向无循环图,关系有父子(is-a)或者组成(part-of)。每个基因产物可用多个GO术语注释,每个GO术语可以注释多个基因产物。
是分子功能,GO属于分为MF,BP, CC三类
一般我们在使用GO时有2个东西,一个是GO术语表,另一个是某物种的基因的注释表,前者是术语的定义和关系图(DAG),后者是每一个基因产物的GO注释结果。
这2个表是经常更新的
three structured, controlled vocabularies (ontologies) that describe gene products in terms of their associated biological processes, cellular components and molecular functions in a species-independent manner.
有一个GO项目,/,这是一个国际联合项目,主要有3个工作,一是GO术语的发展和维护,二是对于各个物种中基因产物的注释(这个是需要专业知识的,目前是不完整,甚至有错误,在注释时需要标注证据来源),三是开发工具便于术语的建立、维护和使用。
The Experimental Evidence codes are:
Inferred from Experiment (EXP)
Inferred from Direct Assay (IDA)
Inferred from Physical Interaction (IPI)
Inferred from Mutant Phenotype (IMP)
Inferred from Genetic Interaction (IGI)
Inferred from Expression Pattern (IEP)
The Computational Analysis evidence codes are:
Inferred from Sequence or structural Similarity (ISS)
Inferred from Sequence Orthology (ISO)
Inferred from Sequence Alignment (ISA)
Inferred from Sequence Model (ISM)
Inferred from Genomic Context (IGC)
Inferred from Biological aspect of Ancestor (IBA)
Inferred from Biological aspect of Descendant (IBD)
Inferred from Key Residues (IKR)
Inferred from Rapid Divergence(IRD)
Inferred from Reviewed Computational Analysis (RCA)
上述说明了基因产物是如何用GO术语注释的过程,需要证据,证据来源很多
以往在基因组中是专门有一讲要讲到GO注释的
使用:1。Search GO data,输入一个GO术语或者基因产物的名称,你可以得到很多关于它们的信息
2. Enrichment analysis (beta)这就是富集分析,基因表达数据分析的结果是一组基因名称,输入这些基因名称,就能进行GO分析,得到这些基因与哪些GO有关(有统计学意义)。这样的工具很多,有在线的,有单机版的。
/link?url=_1akNE3lauOTExVqjo8vB-J--lAN-u1PJO5RodC0v8fZ486rA70 mt6qUUTD7pRMZaWo_p6-En_-8d-GzMnY_Yn4A VxPgK5zec5vPPen5nbO 这个PPT好像挺好的
一组基因的功能富集分析用的较多的是DA VID: /, 除了GO分析外,还有KEGG等数据库中的pathway分析
两篇关于差异表达分析的综述
这两篇貌似侧重于不同的实验方法。网上还有说道分析数据的方法的,比如“倍数分析”“t 检验”“方差分析”等等
那就是像倍数分析t检验方差分析这种偏计算机或者数学方法的?
谢建明(524453582) 11:06:17
需要了解差异表达分析常用方法倍数分析、t-检验等的原理,方法优缺点以及应用(对于特定的数据和目的如何选择?)
是的,侧重于原理和应用,对其算法本身不需要多了解,了解分析工具,例如SAM等
从生物信息学在基因组研究中的应用这个角度来学习
基因组学中出来的都是大数据,测序数据(DNA-seq,RNA-seq,ChIP-seq)、基因表达数据、全基因组SNP数据
在数据分析过程中,要解释其生物学意义,必然会使用到现有的知识,例如GO,KEGG,STRING等数据库和文本挖掘等方法
给你ChIP-seq数据,如何处理?处理前需要考虑哪些问题?
从2方面考虑,一是做实验得到这些数据的合作者想得到什么信息,换句话说,生物学实验的目的是什么?二是从数据本身出发,数据质量,数据类型,一般对这些数据做什么分析。ChIP-seq技术是获取与蛋白质结合的DNA序列
问题1,研究的是什么蛋白?转录因子,RNA聚合酶、组蛋白,还是其他蛋白质或与DNA 可结合的分子?
问题2,如果我们考虑的是转录因子,那么TFBS有什么特点呢?通常位于基因组的什么区域?
问题3,TFBS研究中的ChIP-seq实验得到的数据有啥特点?这些数据的质量如何?
问题4,ChIP-seq实验得到的是测序read,如何分析read,得到TFBS呢?
问题5,转录因子与DNA的结合是有组织/细胞特异性的,能否从数据中反应出来?
问题6,TFBS是相对保守的元件,如何表示它?
问题7,能否根据这次的实验结果找到全基因组中该TF的结合位点?TFBS的全基因扫描和验证
对于某一种基因组数据,基本上是一个考虑思路,也是要求你们了解的
对于测序数据得到的read要mapping到基因组上,是一个很费时的工作,需要有一些好的算法,而且其结果不是唯一的,为什么?基因中可能存在SNP,Indel等变化
基因组的数据分析基本上由专职人员来做,但仅仅由专职人员负责是做不好的,需要生物学