深度测序数据分析部分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1基因数据库的建立
1.1建立病原体数据库
肺炎的发生是有很多原因所致。病因可分为以下几类:①细菌性肺炎,可分为肺炎链球菌肺炎、金黄色葡萄球菌、甲型溶血性莲球菌、肺炎克雷白杆菌、流感嗜血杆菌、铜绿假单胞菌肺炎等。②非典型病原体所致肺炎,如军团菌、支原体和衣原体等。③病毒性肺炎,如冠状病毒、腺病毒、呼吸道合胞病毒、流感病毒、麻疹病毒、巨细胞病毒、单纯疱疹病毒等。④真菌性肺炎,如白色念珠菌、曲霉、放线菌等。⑤其他病原体所致肺炎,如立克次体(如Q热立克次体)、弓形虫(如鼠弓形虫)、原虫(如卡氏肺囊虫)、寄生虫(如肺包虫、肺吸虫、肺血吸虫)等。⑥理化因系所致的肺炎如放射性损伤引起的放射性肺炎,胃酸吸入引起的化学性肺炎,对吸入或内源性脂类物质产生炎症反应的类脂性肺炎等。
凡是能引起肝脏损害、出现肝功能异常的肝脏炎症性疾病,称之为肝炎。它是一类严重危害人体健康的疾病。我们常说的肝炎,主要是指病毒性肝炎。据近几年科学研究,因其致病病原体的不同而有甲型肝炎、乙型肝炎、丙型肝炎、丁型肝炎、戊型肝炎、己型肝炎、庚型肝炎等。另外,因大量、长期饮酒引起的肝炎,叫做酒精性肝炎;对肝脏有损害的药物引起的叫做药物性肝炎;还有由于机体免疫功能紊乱引起的叫做自身免疫反应性肝炎。
本项目不考虑由理化原因引起的肺炎和肝炎疾病,因此,只需建立目前已知的所有肺炎和肝炎致病基因的数据库。
1.2建立人体常见的微生物基因组数据库
人体有四个大的细菌储存库,即皮肤、口腔、结肠、泌尿生殖道。种类繁多,多与人类能和平共处,少数是条件致病菌。论个难以数计,论重量,据估计每个活的个体可达3-4公斤。
人类体表和肠道是无数微生物的居所。Elizabeth Costello及其同僚对多达27个身体部位的微生物进行了调查,其中包括肠道、口腔、耳朵、鼻子以及多达18个区域的皮肤表面。研究人员还发现,某些皮肤部位,如食指或膝盖的背侧常常比肠道或口腔能容留更为多元的微生物。他们的数据所强调的事实是,我们身体的个体化的微生物随着时间的推移仍然保持着相对的稳定,而且它们展现了在我们身体各个位置生长的可预测的模式。
人体微生物基因组计划又称第二人类基因组计划,已由美国国立卫生研究院资助,于2007年开始启动。研究人体微生物对于疾病的预防和治疗有重大意义。
1.3人体全基因组数据库
人类基因组计划于20世纪80年代提出的,由国际合作组织包括有美、英、
日、中、德、法等国参加进行了人体基因作图,测定人体23对染色体由3×109核苷酸组成的全部DNA序列,于2000年完成了人类基因组“工作框架图”。2001年公布了人类基因组图谱及初步分析结果。
2高通量测序数据分析
由于不知道疾病的致病原因,因此病原体的类别为以下几种:病毒、真菌、细菌以及等。而且这些病原体的遗传信息又可分为DNA、RNA以及蛋白质或是多肽。本项目以基于高通量RNA 测序数据进行分析。
高通量RNA 测序即RNA-seq,就是把mRNA,smallRNA,and NONcoding RNA 等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。主要有以下几个应用领域:转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。与基因芯片技术相比,RNA-seq 无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段,并能应用于基因组图谱尚未完成的物种[6],具有信噪比高、分辨率高、应用范围广等优势,正成为研究基因表达和转录组的重要实验手段.
本项目对当前RNA-seq 应用的现实情况,尝试以Illumina/Solexa测序平台产生的mRNA-seq 数据为例(即产生的),不对测序过程做讨论,只对数据处理和分析的基本流程、关键方法和现有软件进行介绍,并讨论RNA-seq 数据分析中存在的挑战.
RNA-seq数据分析包括基本数据分析和生物信息数据分析,对测序数据的序列匹配(mapping),裁减低质量部分,数据格式转换等。序列拼接(assembly),tRNA/rRNA识别和分类。基因组GC含量分析,并识别特异区域。基因功能注释(包括同源注释和蛋白结构域识别)。基因功能分类,参照Gene Ontology或COG 标准(由用户指定标准)。
2.1测序数据的读段定位(Mapping)
获得RNA-seq 的原始数据后,首先需要对所有测序读段进行序列映射(mapping)定位,高通量基因组测序序列mapping 分析是指将测序得到的序列又称作read)比对回参考基因组(mRNA 或EST 等参考序列),其中read 长度多在25bp 至100bp 不等。通过将每一个read 快速的和参考基因组序列比对,最终得到read在比对的基因组或其它参考序列上的位置及匹配质量等信息。,这是所有后续处理和分析的基础.在读段定位之前,有时还需要根据测序数据情况对其做某些基本的预处理.例如,过滤掉测序质量较差的读段、对miRNA 测序读段数据去除接头序列等.
针对诸如Illumina/Solexa 等测序平台得到的读段一般较短、且插入删除错误少等特点,人们开发了一些短序列定位算法.这些算法主要采用空位种子索引法(spaced-seed indexing)或Burrows-Wheeler 转换(Burrows-Wheeler Transform,BWT)
技术来实现.目前高通量基因组测序数据mapping 分析软件主要代表有SSAHA (2)、Maq、SeqMap、BWA、Bowtie、SOAP/SOAP2、SMALT等。基于空位种子算法思想的是Maq、SeqMap;基于Burrows-Wheeler transform 思想的BWA、Bowtie 和SOAP2;近来人们开发了一些基于改进的Smith-Waterman 动态规划算法的序列比对工具,如BFAST[30]、SHRiMP[31]、Mosaik等,但算法速度较慢,大多需采用计算机并行编程技术来解决运行时间的问题.
2.2序列的拼接与组装(Assembly)
序列的拼接与组装是基因组测序数据处理中一个至关重要的步骤,对于高通量测序产生的海量短序列,拼接与组装显得尤为重要。大部分软件除了SHORTY 之外,都可以用于对Illunina 高通量测序仪产生的序列进行de novo 组装,对454 测序应该也可以,SHORTY 用于组装ABI SOLiD产生的序列。这些软件都需要在高性能工作站、计算机集群甚至大型计算机上运行,大部分都只有Linux 版本,不能在Windows 系统下运行,所采用的算法基本都是图论中的OverlapGraph 和De Bruijn Graph 算法。应用最广泛的是Velvet算法集,常用的还有SSAKE、SHARCGS软件等。
2.3基因的表达水平估计
RNA 测序数据是对提取出的RNA 转录本中随机进行的短片段测序,如果一个转录本的丰度高,则测序后定位到其对应的基因组区域的读段也就多,可以通过对定位到基因外显子区的读段计数来估计基因表达水平。显然,读段计数除了与基因真实表达水平成正比,还与基因长度成正比,同时也与测序深度即测序实验中得到的总读段数正相关.人们提出了RPM 和RPKM 的概念.RPM(reads per million reads)即每百万读段中来自于某基因的读段数,考虑了测序深度对读段计数的影响.RPKM(reads per kilo bases per millionreads)是每百万读段中来自于某基因每千碱基长度的读段数,公式表示为:
RPKM =
RPKM是目前最常用的基因表达估计方法.软件rSeq、DEGseq 软件包和Cufflinks 等都提供了用上述方法进行基因表达水平计算的功能.
2.4选择性剪接事件识别和剪接异构体表达水平推断
真核生物中,选择性剪接现象普遍存在.基因转录形成的mRNA 前体(pre-mRNA)在剪接过程中因去掉不同的内含子区域或保留不同的外显子区域,可形成不同的剪接异构体.根据RNA-seq 原理,只要测序深度足够深,就能检测