1-序列数据的编辑与比对

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1-序列数据的编辑与比对
DAN barcoding引物序列
COBU：5'-TYTCAACAAAYCAY AAR gATATTgg-3'
COBL：5'-TAAACTTCWggRTgWCCAAARAA TCA-3'
（COBL反向互补序列：5'-TGATTYTTTGG WCAYCCWGAAGTTTA-3'）
* 该引物序列对应的片段长度为658bp
* 注意：保存分子系统学分析数据的所有文件夹都要用英文命名，因为许多分析软件都无法识别汉字。

测序峰图的浏览
安装staden-windows-1-7-0.msi后左键双击“*.abl”测序文件可直接查看测序峰图，初步判断测序效果。

序列数据的编辑：
1. 从GenBank中下载的序列的编辑
从GenBank中下载的序列通常包含有许多说明序列特征的信息，而这些信息在序列比对及分析时不仅毫无用处而且还会影响软件对序列的识别，所以必须对这些序列进行编辑，删除多余信息，仅保留序列号及序列（的来源物种）名称、序列及其前面的>（”>”是FASTA 文件的标志符号）；若序列名称用来源物种的学名表示，则属名和种名之间不能留空格，要用下划线”_”连接，若种名之后还要加其他符号以便区分同一物种的不同克隆或不同个体来源的序列，也不能留空格，可直接将标志符号加在种名之后或用下划线”_”连接。

若序列为从核基因组中扩增出来的线粒体功能基因的假基因，应在序列标示符中用“Ps”或其他标识符号标明。

例如：
>gi|20749966|gb|AY042337.1| Alpinacris crassicauda AC28 cytochrome oxidase subunit I (COI) gene, partial cds; mitochondrial gene for mitochondrial product
TACCAGGATTTGGTATTA TTTCACA TA TTGTA
TGTCAAGAAAGTGGAAAAATTGAATCATTTGGAACA TT AGGAATAATTTATGCTATATTA TCAATTGGACTAATAGGATTTA TTGTA TGAGCACATCATATATTTACAGT AGGAATGGA TGTTGATACACGAGCATATTTTACATCAGCAACAA TAATTATTGCTGTACCAACAGGAAT TAAGGTTTTCAGATGACTAGCAACATTA TA TGGAACAAAA TTCAAGTTTAACCCCCCA TTATTATGAGC TCTTGGTTTTATTTTNTTATTNACAA TTGGGGGATTAACTGGATTAGTATTAGCAAACTCA TCNCTTGA T ATTGANCTTCATGANACTTACTATGTTGTTGCCCACTTCCATTATGTAT TATCTATAGGAGCGGTA TTTGC AA TTATAGGAGGNATTA TTCAA TGA TACCCNTTA TTTACCGGNTTAACTA TAAACAATCCNTGATTAAAA ATTCAATTCNCAATTATA TTTA TTGGAGTAAACTTAACTTTCTTNCCCC
编辑之后的形式为：
> AY042337_Alpinacris_crassicauda1
TACCAGGATTTGGTATTA TTTCACA TA TTGTA TGTCAAGAAAGTGGAAAAATTGAATCA TTTGGAACATT AGGAATAATTTATGCTATATTA TCAATTGGACTAATAGGATTTA TTGTA TGAGCACATCATATATTTACAGT AGGAATGGA TGTTGATACACGAGCATATTTTACATCAGCAACAATAATTATTGCTGT ACCAACAGGAAT TAAGGTTTTCAGATGACTAGCAACATTA TA TGGAACAAAA TTCAAGTTTAACCCCCCATTATTATGAGC TCTTGGTTTTATTTTNTTATTNACAA TTGGGGGATTAACTGGATTAGTATTAGCAAACTCA TCNCTTGA T ATTGANCTTCATGANACTTACTATGTTGTTGCCCACTTCCATTATGTAT TATCTATAGGAGCGGTA TTTGC AA TTATAGGAGGNATTATTCAA TGA TACCCNTTATTTACCGGNTTAACTATAAACAATCCNTGA TTAAAA ATTCAATTCNCAATTATA TTTA TTGGAGTAAACTTAACTTTCTTNCCCC
* 假基因序列编辑后的形式为：增加“Ps”标识以便选择使用序列时正确识别区分，假基因序列一般不可用于系统发育分析，但可用于学生练习判别假基因的方法。

>EU589072_Ps_Locusta_migratoria ATGAATAAACAATATAAGATTTTGACTGTTACCACCATCAGTAACATA CCTACTACTGTCCTCCATAGTA GATAATGGAACTGGTACAGGATGAACAGTATCTCCCCCACTAGCTAG AGTCATTGCACACAGAGGAGCTT CTGTAGATTTAGCAATTTTCTCATTACATCTAGCAGGTGTTTCTTCCAT TTCAGGAGCAATTAATTTCAT TATAACAGCAATTAATATACGATCAAATAATATCTCTTGATCAAACAC CATTATTTGTTTGATCAGTAGC AATTACAGCTTTATTACTACAATTGTCATTACCAGTATTAGCTGGAGC AATTACTATATTATTAACTGAT CGAAACCTTAATACGTCATTCTTCGACCCGGCAGGAGGAGGTGACC CAATTTTATATCAACACTTATTTT
GATTCTTTGGTCACCCA
2. 自测序列的编辑
自己测序的序列在用于分析时也要先作同样的编辑，然后才能输入Clustalx软件，否则不能被识别，无法输入序列。

序列拼接
* 为了保证测序结果的准确性，单基因短片段（700pd左右）测序一般应采用双向测序，然后将双向测序的结果拼接在一起，从而获得一致性序列。

线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的，最后也需要将测出的短片段拼接成一条完整的序列。

序列拼接可以在不同的软件中进行。

一、使用“组装批处理文件byLHM.pg4”进行拼接
1. 在预定的位置建立一个文件夹“gap”，将需要使用的3个软件“组装批处理文件byLHM.pg4”、
“Vector_primer4pMD18-T.vec_pri”、“pMD18-
T_Vector.seq”拷贝到该文件夹下，再将需要拼接的测序文件拷贝到该文件夹下。

2. 双击运行“组装批处理文件byLHM.pg4”程序。

3. 在程序运行后出现的界面右侧点击“Add files”按钮，打开要拼接的序列文件。

为了保证拼接后输出的
是正向序列，最好先添加上游引物序列，然后添加下游引物序列，因为在一般情况下软件将添加的第一条序列默认为正向参照序列；有时由于测序效果等因素的影响，有时即使首先添加的是上游引物序列，但拼接后仍然会以测序效果明显更好的下游引物序列为正向参照序列，此时需要按照后面介绍的方法将上游引物序列转换为正向参照序列再输出一致性序列。

4. 点击界面上方第二行的“Configure Modules”，在弹出的窗口左边的任务栏中点击“[x] Sequencing vector
Clip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“Vector_prime r4pMD18-T.vec_pri”程序；
点击左边任务栏中的“[] Cloning V ector Clip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“pMD18-T_Vector.seq”程序；点击左下角的“Run”按钮，即开始数据处理，处理结果将自动保存到“gap”文件夹中。

5. 在“gap”文件夹中双击“AssMit_tmp.o.aux”文件，将鼠标移到弹出的“Contig Selector”窗口中的直线
上，点击右键，选择“Edit Contig”，即弹出“Contig Editor”窗口，点击最右边的“setting”按钮，在下拉菜单中选择“By background colour”，即可显示比对结果的有差异碱基；双击某一序列，即可显示该序列的测序峰图，以检查核对该位点碱基的测序情况。

* 注：执行此操作时一定要检查正向序列是否为上游引物序列；如果不是，则需要将上游引物序列转换成正向序列后再执行下面的“输出及保存序列”操作；具体的操作步骤是：点击“GAPv4.10 AssMit_tmp.o”
窗口中的“Edit”菜单，在下拉菜单中选择“Complement a contig”命令，在弹出来的“Complement contig”
小窗口中检查确认“Contig identifier”框中的序列为上游引物序列，然后点击“OK”即将完成序列转换。

6. 点击“GAPv4.10 AssMit_tmp.o”窗口中的“File”菜单，在下拉菜单中选择“Save consensus”可保存
一致序列，文件名要用“*.txt”形式，以便保存的文件成为文本文件，若忘记在文件名后加“.txt”，则保存完毕后可将文件的扩展名改成“.txt”；只有拼接好的一致序列才可用于后面的序列分析。

* 注：若在后面的序列比对和手工校正过程中发现某一条序列为反向互补序列，可用两种方法进行转换：（1）重新拼接序列，用上面介绍的方法将上游引物序列转换成正向参照序列后再输出一致性序列；（2）在DNAStar软件的EditSeq中直接转换，具体操作步骤是：①运行DNASar中的EditSe q，②将需要转换的序列复制粘贴到EditSeq 中，③按Ctrl+A命令全选序列[或点击“Edit→Select All Ctrl+A”]，
④点击Goodies→Reverse Complement即可转换成反向互补序列，⑤将获得的反向互补序列全选并
复制粘贴到一个独立的文件中保存，也可以直接另存，⑥用获得的反向互补序列重新进行比对。

单基因研究时用第一种方法比较方便，而线粒体基因组注释时用第二种方法比较合适。

* 上述3个软件只能识别英文路径，因此存放并运行这3个软件的文件夹及所有上级文件夹名称都要使用英文名称。

* 若仅用一个引物（一般是上游引物）对某一基因片断进行了测序，将测序峰图“.abl”文件转化为“.txt”
文件的方法与双向测序时序列拼接步骤相同。

有些人的做法是：先双击打开测序峰图文件，然后点击“File”菜单，在下拉菜单的“Save As”命令中选择“plain text”，将峰图文件另存为“.txt”文件即可。

但用这种方法输出的是测序峰图中的全部碱基序列，不会对测序效果进行判断，不能删除序列前端和后端测序效果差的碱基，给后面
的序列比对带来麻烦，因此最好不要使用这种方法。

二、使用DNA star软件进行拼接
DNA序列数据的比对及校正
（一）Clustalx 1.83 操作步骤：
* Clustalx 1.83为免安装软件，可拷贝到任意文件夹下直接运行。

1. 输入已经编辑好的待分析比对的序列：
（1）双击鼠标运行程序；
（2）点击主菜单中的“File”命令，在下拉菜单（dropdown menu）中点击“Load Sequence”命令，然后根据弹出的对话框选择需要输入分析的序列数据文件，即可输入需要分析比对的序列。

2. 选择分析参数
（1）点击主菜单中的“Alignment”命令，在下拉菜单中点击“Output Format Options”命令，即会弹出一个对话框。

（2）在对话框的“Output Files”复选项中选择需要输出的文件格式，可选择输出“CLASTAL format（*.aln 格式文件）”、“PHYLIP format”、“NEXUS format”和“FASTA format”等不同格式。

但通常情况下只要选择默认的“CLASTAL format（*.aln格式文件）”即可，因为其它格式的文件在需要时均可由这种格式或“*.fasta”的文件转换而成。

* 特别值得注意的是：若选择了“FASTA format”输出格式时，比对后插入的空格会以“-”符号插入到原FASTA文件的序列中（即直接覆盖原来导入的同名文件，没有任何警告性提示），即通过插入空格符号“-”来固定序列之间的同源性位点，使所有序列的同源性位点位于相同的位置；为了便于手工校正时确定校正位点的准确位置，因校正需要而进行的比对一定不要选择此项。

“GDE output case”选“Lower或Upper”均可（比对后输出的FASTA文件中，碱基均以大写书写）；“CLUSTALW sequence number”选择“ON”则可显示序列顺序号，选择“OFF”则不显示；将下面的“Output Order”选项设置为“INPUT”，一般情况下使用“INPUT”设置，按输入顺序输出比对好的序列，某些情况下需选择
“ALIGNED”设置，即输出文件中的序列按比对后的相似性顺序排列；“Parameter output”
一般选“OFF”，若要看修改参数后的效果差异，则选“ON”，即可在输出的比对序列文件中包含各种比对参数。

3. 比对：点击主菜单中的“Alignment”命令→点击下拉菜单中的“Do Complete Alignment”命令，在弹出
来的“Complete Alignment”选项窗口中选择指导树和比对结果输出文件的输出路径，点击“ALIGN”
按钮即开始比对。

比对结束后会生成选定格式的文件自动保存在指定的文件夹下（默认路径为输入的序列文件所在的文件夹）。

4. 输出比对结果：
在因系统发育分析需要而进行的比对中，必须另外输出比对结果，以便切除引物序列或其它多余位点。

具体操作是：点击“File”→“Save Sequences as”，根据比对结果及分析需要在弹出的“SA VE SEQUENCES”窗口中选择文件格式（Format）、需要输出的序列的起始和终止位点（Save range from □ to □）及保存文件的路径（SA VE SEQUENCES AS），然后点击“OK”按钮。

（二）原始序列的比对及校正
* 原始序列的手工校正：为了保证测序结果准确，单基因研究最好采用双向测序；由于测序系统误差及拼接软件识别误差，序列前后50个碱基不完全可信，需要将同一样品多次重复测序（或同一物种不同个体或近缘物种的同一基因测序）获得的序列进行比对，然后根据比对结果进行必要的手工校正。

校正的内容包括删除多读的碱基、插入漏读的碱基和修改错读的碱基。

* 引物序列的去除：由于扩增目的片段时使用的引物相同，所以在完成序列的手工校正后进行系统发育分析前要根据比对结果将序列前、后两端的引物序列去除；上游引物序列通过比对直接删除即可，下游引物序列需要转换成反向互补序列后进行比对，然后删除。

* 蛋白质编码基因序列的翻译：为了检验扩增及测序过程中可能产
生的突变，需要将蛋白质编码基因序列翻译成蛋白质序列。

若序列全长能被翻译，证明没有产生框内终止密码子（in-frame stop codon）；若翻译不通，则需对出现框内终止密码子的位点进行校正（若无法校正，则需对该片段重新扩增和测序）。

具体的操作步骤见“蛋白质编码基因序列的翻译”。

（三）NCBI中DNA序列资源的选择与使用
* 在进行系统发育分析时，除了使用自己测定的序列数据外，往往还可使用GenBank（National Center for Biotechnology Information；NCBI；/doc/3715849122.html,/）中的相关序列。

序列检索方法可参考“大量序列数据的快速检索方法”，但最好使用“Taxonomy browser”按分类单元逐一查找，以免遗漏。

* 从NCBI中下载的单一基因序列经过编辑和检测后即可使用；检测的方法一般是在“Spin”和“Clustal”
软件中进行比对，以确定下载的序列与自己测定的序列是否处于基因组中相同的位点范围。

由于不同的研究人员使用的引物和研究目的不尽相同，往往只是根据需要选择扩增某些基因的部分序列片段进行分析，因此必须确定从NCBI中下载的序列是否与自己测定的序列处于相同的位点范围；检测的方法是：将某物种的一条该基因全长序列作为参照序列，在Spin中进行比对，根据“Spin Sequence Comparison Plot”（序列比对图）确定自测序列和下载序列分别在全长序列中的位点范围（具体操作见“蛋白质编码基因序列的翻译”）；该方法可大致确定一条序列在全长序列中的位点范围，与自测序列是否存在重叠区，但无法准确定位，无法确定下载序列与自测序列重叠的具体碱基数目，因此还要在Clustal软件中比对，以确定下载序列可用的具体碱基数目。

由于Clustal软件进行全局比对时总是会通过插入空格的方式完成序列的比对，不论比对序列的来源如何，所以当比对的序列来源于基因组中不同位点范围（即不是同源序列）时，比对结果将会很不理想，此时就要考虑序列是否同源，即用Spin 比对甚至到NCBI中用“Blast”功能进行比对。

* 除了单一基因序列外，基因组序列中的相应片段也可提取出来使用；具体的方法是：根据基因组注释信息确定该基因在基因组中的起始和终止位点→启动DNAstar中的Editseq软件，将基因组全序列拷贝到编辑框中→点击“Searc h→Go To Position..Ctrl+G”→在弹出的“Position”对话框中输入该基因的起始和终止位点，输入格式为“*..*”（即[起始位点]..[终止位点]），点击“OK”，选择的基因序列即
呈黑色显示→将黑色显示的序列拷贝到另一个“*.text”文件中保存即可使用。

有些提交到NCBI中的序列包含有多个基因，可用同样的方法提取相应的片段；对于起始的基因片段（是一个基因序列的3'端序列）要注意根据注释信息（即其长度）确定其是否与自测片段存在重叠及大概长度，若重叠长度太短则不可用。

（四）系统发育分析前的序列比对
当用于系统发育分析的所有序列都准备好了以后，需要将这些序列进行统一比对，以确定同源性位点和去处引物序列或其它多余位点，具体操作见“Clustalx 1.83 操作步骤”。

（五）大量序列的比对
由于受计算机内存的限制，当需要分析的序列数量很多（300条以上）时，用“Multiple Alignment Mode”比对模式同时进行比对往往无法完成。

在这种情况下可采用分批比对，先用“Multiple Alignment Mode”模式按分类单元（如科、亚科或属，根据实际情况确定）进行序列比对，比对结果最好切除引物序列后另存，每一组比对好的分类单元的序列即构成一个“Profile（？集）”。

需要分析的所有分类单元的序列比对完成之后，再用“Profile Alignment Mode”比对模式将已经比对好的“Profile”组合到一起，每次可在一个Profile中添加上另外一个Profile，直到将所有的Profile组合成一个总的Profile，这个总的Profile即可直接用于后面的系统发育分析。

蛋白质编码基因序列的翻译
* 蛋白质编码基因序列除了可用于直接分析外，还可翻译成蛋白质序列进行分析；另外，为了检验测序误差（包括假基因的判断），即
使不进行蛋白质序列分析，也需要通过翻译蛋白质编码基因序列来检测是否存在框内终止密码子（in-frame stop codon）。

一、用Standen Package Spin软件翻译：
* 该软件需要用已注释好的其它近缘种的同一蛋白质编码基因序列（或包含该序列的更长序列）作为参照，可以分别从序列的第1、2、3个核苷酸开始翻译，并统计出能翻译的序列片断的起始位置；遇终止密码子翻译中断时，将继续从终止密码子之后开始对剩余序列进行翻译。

1. 运行“Standen Package Spin”，具体操作步骤是：点击“开始”菜单→所有程序（P）→Standen Package
→Spin。

另一种运行“Standen Package Spin”的方法是：用鼠标选中需要打开的文件，单击右键，在弹出的菜单中点击“打开方式”→“Spin”；用这种方法启动“Spin”时，选中的文件将自动导入“Spin”，再导入其它文件时可省去（或简化）选择文件路径的麻烦，因为从“开始”菜单启动“Spin”时，其默认路径是“C：\Documents and settings\Administrator”，导入序列文件时必须重新选择路径。

2. 导入序列。

点击“Fil e→Load sequence→Simple”，在弹出的“Load sequence”对话框中点击“Browse”
按钮，打开需要导入的序列文件（“.seq”或“.txt”文件，一个文件中只能包含一条序列，因为蛋白质编码基因的翻译只能两两比对），点击“OK”按钮；用同样的方法导入飞蝗Locusta migrataria 的同一蛋白质编码基因序列或线粒体基因组全序列（或其它近缘种的同一蛋白质编码基因序列）作为参照序列；也可同时选中这两个文件一起导入。

3. 设置序列坐标。

点击“Fil e→Sequence manager”，在弹出的“Sequence manager”对话框中设置水平
（Horizontal）和垂直（Vertical）序列（软件将后面导入的一条序列默认设置为水平序列）。

在理论上将任何一条序列设置为水平序列而另一条设置为垂直序列都可以；但在一般情况下最好将飞蝗的序
列（或其它参照序列）设置为垂直序列，将需翻译的序列设置为水平序列，因为在执行后面的序列翻译命令时，水平序列是“Seq identifier”栏中默认的被翻译序列，这样可以省去选择需要翻译的序列的麻烦（因此导入序列时可考虑先导入参考序列）；具体操作是：将鼠标移至该序列上，点击右键，在弹出的菜单中选择“Vertical”或“Horizontal”即可，再点击“OK”按钮。

4. 序列比对。

点击“Comparison→align sequences”，在弹出的“align sequences”对话框中点击“OK”，
即会出现一个“SPIN Sequence Comparison Plot”界面窗口，显示比对结果，关闭窗口。

注：序列比对的主要目的是检验待翻译序列与参照序列的大致相似性（或同源性？）；若比对图（plot）为一条直线，说明比对序列与参照序列比对结果很好，相似性（或同源性？）较高，反之则相似性低。

单纯从操作上来说，不进行序列比对而直接设置遗传密码和翻译序列也可以，但建议最好不要省略这一步。

5. 设置遗传密码。

点击“Translation→Set genetic code”，在弹出的“Set genetic code”对话框中选择
“Invertebrate mitochondrial”，点击“OK”。

当在同一窗口先后翻译多条基因序列时，后面序列的翻译可不必再设置遗传密码。

6. 序列翻译。

点击“Translation→Find open reading frames→write protein as fasta file”，在弹出
的“Find ORF: write……”对话框中的“Seq identifier”栏点击“▼”按钮，选择需要翻译的序列；在“fasta filename”栏中输入翻译后所得的蛋白质序列文件的名称，再点击“OK”按钮确定。

翻译结果会自动显示在“Spin”窗口的末尾，同时自动生成一个文件保存在原始序列文件所在的文件夹下（该文件无后缀名，但可以用写字板或记事本打开，也可增加后缀名“.txt”将其重新命名为文本文件）。

7. 将窗口最末尾的翻译所得的蛋白质序列复制并集中保存到另外一个“.txt”文件中备用，也可从自动生
成的文件中。

* 注：当一条序列翻译完成而需要翻译另一条序列时，可以先关闭“Spin”，然后重新启动“Spin”导入序列，此时“Spin”系统中将不包含任何其它序列；也可以不关闭“Spin”而在原来的“Spin”窗口中直接导入新的序列，此时“Spin”系统中包含有前面导入的一条序列；为了避免原来导入的序列数据产生可能的干扰，可以在设置序列坐标时在弹出的“Sequence manager”对话框中选中前面导入的序列文件及比对时生成的临时文件，点击右键，使用弹出菜单中的“Delete”命令删除翻译前一条序列时导入的序列及比对时生成的临时文件。

二、用MEGA 4.1软件进行翻译。

* 该软件不能自动寻找开放阅读框，所以翻译时要先指定密码子在序列中的起点，即密码子是从序列的第一位碱基还是第二位或第三位碱基算起；该软件的优点是可同时对一系列序列进行翻译，主要用于计算序列的碱基组成、转换/颠换值、替换饱和性分析、密码子使用及利用DNA序列和蛋白质序列构建系统发育。

1. 运行MEGA 4.1。

2. 将已比对好的序列的“.aln”文件转化成“.meg”文件。

（1）点击窗口左上角工具栏中的“Text Editor and Format Convertor”图标，在弹出来的“Text Editor and Format Convertor”窗口中点击“Fil e→Open”或直接点击窗口左上角工具栏中的“Open”图标，选择并打开需要翻译的序列文件；。

（2）点击左上角工具栏中的“Convert to MEGA format”图标，在弹出来的“Select File and Format”小窗口中选择待转化的文件及格式（因前面已经打开该文件，一般情况下不需另外选择），点击“OK”按钮即完成文件格式转化。

（3）检查文件内容，删除多余的符号如“#”和“*”等，将文件保存到指定的文件夹，关闭文件转化窗口。

3. 将DNA序列翻译成蛋白质序列
（1）在MEGA主窗口中点击“File→Open Data”，打开待翻译的序列的“.meg”文件；在弹出来的“Input Data”小窗口中选择
“Data type”，如“Nucleotide Sequence”、“Protein Sequences”、“Pairwise Distance”
等，点击“OK”按钮；在弹出来的“Confirm”小窗口中出现提问“Protein-coding nucleotide sequence data?”,点击“Yes”按钮；在弹出来的“Select Genetic Code”小窗口中选择“Invertebrate Mitochondial”，点击“OK”按钮，即出现“View Sequence Data”窗口。

（2）指定密码子的起点。

具体操作见“DNA序列组成及变异分”中的“计算保守位点、变异位点、简约信息位点”部分。

（3）输出翻译结果：可以用不同的格式输出，排列方式是按比对好的形式输出。