高通量测序入门

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

很高兴成为论坛特邀专家,鄙人会接下来的一段时间内写一些高通量测序数据方面的帖子,由浅入深,可能刚开始会比较简单一些,后面会有一些针对性的专题,也欢迎各位大侠或小菜提出建议或问题大家一起探讨。为了活跃论坛建议大家直接跟帖或发新帖,我会尽快回复大家。

本人方向也仅限在RNA-seq 领域,所以其他领域的问题可能不太了解,只能按照自己的背景知识和请教别人解答,请大家慢拍砖!

另外,由于实验室课题比较忙,所以可能不能及时发帖或回复大家,也请见谅。

既然是入门专题,那就先简单说一下,要分析高通量测序数据的配置要求吧:

声明:该配置不适用与从华大拿回分析结果直接写paper 的同学。我认识的一位同学一点生物信息背景也没有,直接用华大返回分析结果发了很好的文章,如果想这样的同学可直接跳过这篇,等待以后的专题。

言归正传:

1. 软配置:

生物理论知识:熟悉生命活动的基本过程,对复制、转录、翻译、转录后修饰有较清晰的认识,如果知道cis-element 和trans-factor 的区别就更好了。推荐朱玉贤的分子生物学,能够掌握60% 就差不多了(这是对想通过测序数据进行生物分析同学的要求,如果是做软件开发等就无所谓了,比如国内做的很好的一些实验室,都是数学或自动化专业的牛人,以下一些配置也不适用这些牛人)

实验理论知识:不一定要做过实验,但至少要知道实验的过程,比如测序前样本的处理过程,序列片段化、加接头、PCR 扩增等。也许没有用,但将来出了问题,你可以很容易知道问题出在哪里

编程知识:要求不用太高,学一些perl 就可以了,对于生物专业的同学(本人就是生物专业),强烈推荐perl 语言入门,好像现在已经出到第五版了。此书极为搞笑,本人当时看了一个星期,其中幽默的语言导致本人经常笑出声音引得实验室同学以为神经了。对于有C 语言基础的同学来说简直就是菜,两天就可以通了。另外,学有余力的同学可以学一些R 以及python 或java. 因为好多软件都是用R 或python 写的,如果要是比较懒或三国杀很忙抽不出空就算了,学学perl 就好了。切记一点:perl 的学习过程中除了基础知识,一定要看一下哈希和模块这两部分。当然如果你们导师允许你对数据去个冗余也要半个月的话,你只学到循环就可以了。

统计学知识:只要大学上过生物统计也就差不多了(遇到二百五的老师你就比较悲剧了),最基本的知道什么是标准化,正态分布,p value 以及卡方检验或Fisher 精确检验,多重检验,,FDR 这些概念和计算方法也就差不多了。推荐从以下统计软件中择一精通之:

SAS(比较变态,硕士期间学了,后来就还给老师了)

excel(入手比较容易,好好学学,功能比较全,我学的差)

matlab(本人认为最牛的统计软件,有专门的论坛,有兴趣的同学可以google 一下) SPSS(上手比较容易,而且很多汉化的非常好,新手同学比较推荐,但是精通比较

难)

R (最好能学这个,我觉着学R 太必要了)

perl (指CPAN 中的统计模块,不过需要一点技术)

常见数据库:这个根据自己所做的方向,需要具体问题具体分析,常见的NCBI 以及EBI 和UCSC 还是需要了解的。

计算机操作要求:

推荐linux 系统,掌握最基本的命令就可以了,还有一些shell 命令,建议买一本linux 入门的书看看;对于习惯windows 的同学,强烈建议学linux,开始的时候也许你觉得好多软件都有windows 版本的,但是早晚你会发现有很多软件没有,所以必须要学

2. 硬件要求:

计算机要求:现在电脑快跟白菜一个价了,所以建议个人电脑配置的好一点(如果有服务器就算了),推荐配置:64位系统(32 系统的话,内存受限,最多识别3G 多),redhat 或ubuntu 都可以,推荐ubuntu,它的apt-get 功能还是比较神器的,4个CPU 差不多,本人极力推荐装8G 内存,如果你不能忍受经常内存溢出的话。当然如果有服务器,这些都不是问题。至于显卡什么的,就算了,如果要是你想魔兽一下的话,可以跟你老板申请一下。对了硬盘大点,因为测序数据一般比较大。

网络要求:这个好像你也管不了,一般实验室都已经固定了带宽。遇有经常在数据库上下一些基因组或其他注释信息,所以还是进你所能的争取一下。

本人文字表达能力比较差,就唠唠叨叨先说这些,下次我会简单介绍一些高通量测序的基本知识和发展过程。对于已经掌握这些入门知识(一般也是生物信息的入门知识)的同学可以飞过,如果你还有哪些不了解,可以简单的复习一下了!!

高通量测序入门第二帖/bbs/thread-370713-1-1.html

很高兴贴完第一帖得到那么多回复,本来这一帖早就该写的,因为最近课题比较紧而且遇到很多问题,所以拖到现在,向大家致歉!

———————————————————扯淡分割线——————————————————————————

正式开始之前,还是扯点八卦。在第一帖之后,有个朋友给我发邮件问我华大的评价。我也觉着华大是一个好有争议的话题。我仔细想了一下那些质疑华大的人无非有两种理由:1. 华大太能忽悠2. 对于他们取得的成绩,很多人都说如果我有那么多钱我也能做。我跟华大接触不是很多,而且我读博之前也那么觉得,可是我现在觉得我们应该好好的去阅读一下华大。首先,现在的科研有几个不在忽悠(此忽悠不是贬义,试想,我们做的工作在发paper 时总是要写的意义重要一些,去让reviewer 觉得有发表的必要,这是不是忽悠;你去申请基金的时候,总是要把课题意义拔高再拔高,这是不是忽悠),大家都是在忽悠,何必五十步笑百步呢。2. 给

你那么多钱,你也不一定能有他们那么多成果。华大到底拿了多少钱,我不知道,但是我知道拿他们那么多钱,没做出东西的人有的是。我知道某个单位,要测某个微生物的基因组(为了影响就不说是什么物种了,说了物种就很容易知道哪个单位了),当时Roche 454 刚刚出来,该单位将测序意义定义为打破国外高科技技术垄断,人工与高通量测序技术赛跑。人才啊,最后的结果是什么,在徘徊了两年,花费数十万(或上百万后),还是送到了华大,倒是真的没用454,因为已经出了通量更高的Illumina GA,最后文章发表在某杂志上,篇幅不到一页,亮点就是作者奇多,估算一下,每个作者不到十个单词。当然这么极品的人还是比较少,我只是想说给你钱,你真的不知道怎么花。

————————————————扯淡完分割线————————————————————————————

扯淡完,进正题,这一贴,主要简单介绍一些,测序数据分析的基本知识,心急的同学,不要着急,俗话说心急吃不了臭豆腐。

首先,介绍一下测序技术的发展过程和一些标志事件;

说道测序,可能最先想到的是Sanger 和Maxam-Gilbert 这两个人,至于这两个人干了什么,就不用太清楚了,只要知道没有这两个人就不会有测序技术的今天.......就像没有GCD 就没有XZG 一样,自从有了这两个人就迎来了分子生物学的春天,自从有了这两个人分子生物学事业焕然一新.......

事物的发展总是从量变到质变,在这个量变过程中,我们完成伟大的人类基因组计划还有很多的模式生物的基因组,那些鄙视华大的同学这里要记住这个过程中,华大是有贡献的。

质变来临: 忽如一夜春风来,ABI 3730 型测序仪渐行渐远,NGS (Next Generation sequence) 在哪里?马上就有答案。

Roche 454、Illumina GA、ABI SOLiD伴着春姑娘的脚步出现了。

这三种测序平台的原理、优缺点、发展历程估计大家已经听的很多了,如果想复习一下的同学可以google一下(俗话说,知之为知之,不知google 知)。找不到?不能吧,两个检索方法:1. google 中输入: "filetype:ppt Next Generation sequence" .

2. 直接pubmed 检索综述,找稍微好点的杂志,好好复习一下就好了。

由于本人用到的数据多是Illumina GA 平台,所以我后面的内容可能更倾向于这个平台。

先说几个概念:

1. fasta 格式:其实我也不知道,为什么叫这个名字,其实也不用知道,你只要这是一种序列存储格式就好了,大概分为两行,第一行以> 开头,表明注释信息,第二行及往后均为序列信息。

2. fastq 格式:这个同样是序列存储格式,共分四行,前两行与fasta 一致,第三行一般是一个“+”字符,第四行就是序列质量分数,这个分数看起来有点奇怪,实际

相关文档
最新文档