基因组序列的差异分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因组序列的差异分析

----mVISTA的在线使用说明

当然,除了在线版的,我们还可以在网站上填写信息申请离线的软件。但我试用了一下,需要先自己比对,然后要按照一定的格式来制作文件,当然你还必须得安装java才能运行软件;总之,我感觉没有在线版的方便。

1 将数据放入服务器中

在首页,你将被要求确定你想要分析的基因组序列的数量。输入这个数字之后,点击“提交”,将带你到主提交页面。

mVISTA服务器最多可以同时处理100条序列。

1.1主提交页面必填的内容

E-mail 地址

通过E-mail,我们可以提示你的在线处理已经得到结果。

序列

你可以用2种方式来上传你的序列:

1.使用“Browse”按钮从你的电脑上,上传纯文本的Fasta格式文件。如果是一个作为参

考的生物体的DNA序列必须作为一个contig提交(可以进行一定的定向排列将多个片段合并为一个contig),而其他非参考序列可以在一个或多个contig中提交(draft)。

Fasta格式的示例序列(您可以在NCBI站点上找到关于该格式的更多细节):

>mouse

ATCACGCTCTTTGTACACTCCGCCATCTCTCTCT

!!!注意:序列里面我们只接受字母CAGTN和X。请确保提交序列是作为一种纯文本格式,而不是Word或HTML文件格式。

如果您以FASTA格式提交序列,我们建议您为它取一个有意义的名称(比如直接是你的物种名之类的),因为这些名称将出现在我们生成的图形中。如果您使用的是一个draft草图序列,那么结果中每个contigs的命名都将按照您在“>”符号后指示的命名进行。

2.您可以给出它的GenBank登录号,系统将自动从GenBank数据库里进行检索序列。

在这两种情况下,序列的总大小都不应超过10M,而且任何一条序列都不应超过2M。

1.2主提交页面选填的内容

这些选项允许您自定义您的VISTA分析。您可以使用独立获得的基因注释,选择合适的Repeat Masker选项,给分析的序列指定名称,并改变序列保存分析的参数。如果您没有填写这些选填选项,我们将使用它们的默认值。

比对程序

根据您分析的具体内容(参见“about”-链接中的详细信息),您可以选择以下比对程序之一:1、AVID----全局两两比对。如果您选择使用这个程序,其中一个序列应该被完成比对,其他

所有序列可以完成或以草图draft格式完成。对于集合中所有已完成的序列,AVID生成所有相对所有成对的比对结果,可以使用任何序列作为基础(参考)来显示。如果某些序列是草图格式,AVID将生成它们与最终序列的比对,这将被用作基础(参考)。这是该服务器上唯一可以处理草图序列的比对程序。

(小知识:草图序列与完整序列DNA sequence, draft: Sequence of a DNA with less accuracy than a finished sequence. In a draft sequence, some segments are missing or are in the wrong order or are oriented incorrectly. A draft sequence is as opposed to a finished DNA sequence.)2、LAGAN----完成完整序列的全局两两比对和多重比对。如果某些序列是草图格式,您的查

询将被重定向到AVID以获得两两比对。多重比对将由VISTA可视化,它将计算并显示序列的保守区,以您指示的任何序列作为参考。这是该服务器上唯一能够产生真正的多重

比对的程序。

3、Sheffle-LAGAN----完整序列的全局比对。它检测序列中的重排和逆序,同时产生一个全局

的端到端映射图。如果你输入几个序列,所有成对的组合将被处理,结果将在VISTA中可视化。这是该服务器上唯一可用于检测重排和逆序的比对程序。(叶绿体基因组差异分析论文中好像一般都选这个)

对每条序列你可以选择:

名字

你选择的物种名字将会显示在图例中。我们建议您使用一些有意义的内容,例如这个生物体的名称、您的实验编号或数据库标识。当您使用GenBank标识符来输入序列时,默认情况下我们将使用它作为序列的名称。(页面默认的是sequence1,sequence2,sequence3···)

注释

如果有序列的基因注释信息,您可以将其以简单的纯文本格式提交,以便在绘图中显示。每个基因由其在序列上的起始和结束坐标以及列在一行上的名称来定义。一行前应放置大于(>)或小于(<)的符号,以表示正链或负链,但编号应根据正链来排列。在每个外显子的开始和结束坐标之后,外显子以单词“exon”单独列出。UTRs的注释方式与外显子相同,用“utr”代替“外显子”。

例如:

< 106481 116661 gene1

106481 106497 utr

107983 108069 exon

有一种简单的方法可以从Ensembl基因组浏览器中导出上述格式的注释。以下显示是如何做:

1、在Ensembl浏览器中选择您感兴趣的序列区域;

2、点击页面左侧的“Export information about region”;

3、“Output Format输出格式”请选择“VISTA格式”;

4、点击“Continue”按钮;

5、点击“Annotation data”链接;

6、将结果保存为纯文本文件。

我们的web服务器也接受GFF3格式的注释。

NCBI网站上可以下载GFF3格式的文件,如下所示:

相关文档
最新文档