GEO数据库上传--RNA-seq发文必备技能

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GEO数据库上传--RNA-seq发文必备技能
GEO数据库是NCBI开发的基因表达数据库,主要接收通过高通量测序、基因芯片等方法获得的基因表达数据。

除SRA数据库之外,GEO数据库也是目前文章投递过程中要求进行数据上传的数据库之一。

网上关于GEO数据库的上传教程良莠不齐,推荐使用下面的方法快速上传自己的数据到GEO。

第一步向GEO提交联系信息
正常登录NCBI,如果是首次进入GEO,页面会出现两个选项,如下图:
对于之前从未上传数据到GEO的同学,请选择第二个选项。

按照要求填写相应的信息,包括注册人员信息和上传者信息,其中最重要的是邮箱信息。

填写完毕,管理员会发送通知和链接到你的邮箱。

信息填写完毕后会自动登陆GEO。

第二步创建新提交任务
再次登录进入MY submissions选择new submission,自动跳转进入Subimitting data 界面(下面以高通量测序数据为例进行讲解)
选择 High-throughput sequence submissions(如下两图)。

第三步文件准备
完成上述操作后,页面自动跳转到高通量测序数据上传界面。

按照提示准备好三种文件。

第一种文件 Metadata spreadsheet,主要记录RNA-seq实验的目的、方法、处理过程,以及统计预备上传的所有文件的信息和文件的MD5值等等。

网站提供了相应的案例模版(同一页面具有下载链接),此步骤一定要基于模版,根据自己实验的实际情况填写所有内容,不可以直接拷贝。

模版如下:
第二种文件 Processed data files,主要是基因表达的数据文件,一般转换成文本格式,可以是多个文件(例如一个样品对应一个文件)
也可以是一个文件(多样品数据整合),或者其他的补充文件,包括gff文件等等。

这一部分的文件是基于测序的原始数据经处理之后的结果。

如果涉及新注释的一些基因的表达数据,则需要提供注释基因的位置信息等(如下图)。

第三种文件Raw data files,也就是测序原始数据。

一般接受fastq格式(上传fastq压缩文件即可),以及SRA数据库接受的其他格式。

将所有文件整理放置到同一个文件夹内,文件夹名称最好命名为GEO帐号的名称。

第四步使用Filezilla上传数据
整理好文件之后准备开始上传。

数据上传前需要安装软件Filezilla (可百度可谷歌,so easy)。

需要注意的是,注册GEO之后在上传页面的Uploading your submission 会提供FTP的地址、账号、密码等信息,需要保存备用,例如:
在Filezilla输入刚才获得的地址、帐号、密码就可以登录ftp,登录后界面如下:
登陆后在界面的右栏创建一个自己的目录(如下图路径目录/20180124_cici),打开对应的目录,拖动界面左栏准备好的所有文件,直接移动到右栏中(如下图),就开始进行数据的上传了。

保证网络正常就可以完成相应的上传工作(如果数据量较大,保证网络正常之外,计算机要保证不能出现休眠等停止工作的情况)。

第五步给GEO管理员发邮件
最后一步就是给GEO数据库的管理者发邮件。

网站明确要求了邮件的内容:
第一项是介绍清楚自己的GEO登录帐号名称。

第二项是上传数据的路径和所有文件的名称。

路径是Filezilla上传的路径,如上图注明的路径(创建的目录加上上传的文件夹名称)。

该路径下的所有文件必须一一列举,并注明类型。

(所有文件和Metadata spreadshee统计的数据文件一致,包括Processed data files 和Raw data files)。

第三项是说明数据释放日期,如有延后需要注明,但最多不超过三年。

Over
完成以上工作,坐等管理员的答复邮件就可以了。

如果数据存在问题,工作人员会提示如何修改,完成处理之后会在邮件中给出GEO
的Accession Number。

到此,恭喜你完成了所有的上传工作,利用这个登录号就可以查询到上传的数据内容,也可以在文章中引用这个ID进行数据的解释。

更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读。

相关文档
最新文档