生物信息学_高通量测序技术及数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
背景介绍
• 以Illumina为例简单介绍测序原理
cBot
Illumina HiSeq 2500
背景介绍
• 高通量测序数据格式
– fasta
• 序列文件的第一行是由大于符号(>)打头的任意文 字说明,主要为标记序列用。从第二行开始是序列 本身,标准核苷酸符号,通常核苷酸符号大小写均 可
– fastq
生物信息学
高通量测序技术及数据分析介绍
高通量测序技术及数据分析介绍
• 背景介绍
– 第一代测序技术 – 第二代(高通量)测序技术
• 基因芯片与高通量测序的比较 • 高通量测序技术的应用
– – – – – – 高通量测序数据分析概览 高通量测序数据质量评估与过滤 基因组测序 RNA-seq ChIP-seq UCSC Genome Bioinformatics
背景介绍
背景介绍
• 第一代测序技术
– Sanger测序法
• 链终止法 • 双脱氧终止法 • 1975年
Frederick Sanger 弗雷德里克· 桑格 1918年8月13日-2013年11月19日 1958年 诺贝尔化学奖 1980年 诺贝尔化学奖
Transcription
http://blog.sina.com.cn/s/blog_7110867f0100zi09.html
NCBI/Sanger or Illumina 1.8 and later. Using a Phred scale encoded using ASCII 33 to 93. This is the standard for fastq formats except for the early Illumina data formats (this changed with version 1.8 of the Illumina Pipeline). Illumina Pipeline 1.2 and earlier. Using a Solexa/Illumina scale (-5 to 40) using ASCII 59 to 104. The Workbench automatically converts these quality scores to the Phred scale on import in order to ensure a common scale for analyses across data sets from different platforms (see details on the conversion next to the sample below). Illumina Pipeline 1.3 and 1.4. Using a Phred scale using ASCII 64 to 104. Illumina Pipeline 1.5 to 1.7. Using a Phred scale using ASCII 64 to 104. Values 0 (@) and 1 (A) are not used anymore. Value 2 (B) has special meaning and is used as a trim clipping. This means that when selecting Illumina Pipeline 1.5 and later, the reads are trimmed when a B is encountered in the input file if the Trim reads option is checked. 36 39 39 39 39 39 39 39 39 39 38 39 39 36 36 34 34 29 31 2 20 20 19 19 19 38 38 38 36 36 36 36 36 36 30 32 35 35
• 第一行由‘@’开始,后面跟着序列的描述信息,这点 跟fasta格式是一样的;第二行是序列;第三行由‘+’ 开始,后面也可以跟着序列的描述信息;第四行是 第二行序列的质量评价(quality values),字符数跟 第二行的序列是相等的。
背景介绍
• 高通量测序数据格式
– fastq
Q =-10 log10(p) OR Q =-10 log10[p/(1-p)] (p:碱基错误率) 字符的ASCII值 - 64 = 质量值 OR 字符的ASCII值 - 33 = 质量值
背景介绍
• 第二代测序技术
– ቤተ መጻሕፍቲ ባይዱ合成边测序
• 2005年左右 • Sequencing by synthesis
Illumina HiSeq 2500
– 代表性测序技术
• • • • • Illumina/Solexa Roche/454 ABI/SOLiD Polonator HeliScope
背景介绍
• 高通量测序文库构建
– 单末端测序,single-end
• 首先将DNA样本进行片段化处理形成200-500bp的片 段,引物序列连接到DNA片段的一端,然后末端加 上接头,将片段固定在flow cell上生成DNA簇,上机 测序单端读取序列。
– 双末端测序,paired-end
• 在构建待测DNA文库时在两端的接头上都加上测序 引物结合位点,在第一轮测序完成后,去除第一轮 测序的模板链,引导互补链在原位置再生和扩增, 以达到第二轮测序所用的模板量,进行第二轮互补 链的合成测序。
– 参考文献
• Metzker, M.L. (2010). Sequencing technologies - the next generation. Nat Rev Genet 11, 31-46.
http://www.nature.com/nrg/journal/v11/n1/full/nrg2626.html
基因芯片与高通量 测序的比较
芯片与测序比较
• 基因芯片
– 约20年的历史,技术比较成熟,成本相对较低 – 原理
• 探针,互补配对的原则 • 靶序列用荧光标记 • 通过荧光强度间接反映靶序列的数量