UCSC Genome Browser 介绍和应用举例 生物信息学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程考核作业
内容UCSC Genome Browser 介绍
学院生物学院
课程名称生物信息学
学生姓名周思倩
学号S6
任课教师谭钟扬
完成日期: 2016 年1月15日
UCSC Genome Browser简介:
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。
站点用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因,预测基因,表达序列标签,信使RNA,CpG岛,克隆组装间隙和重叠,染色体带型,小鼠同源性等。
用户也可以因为教育或科研目的加上他们自己的注释信息。
UCSC Genome Browser目前应用相当广泛,比如Ensembl 就是使用它的人类基因组序列草图为基础的。
约有一半的注释信息来自通过公开的数据计算得出,另外一半来自世界各地的科研工作者,支持数据库检索和序列相似性检索,Genome Browser本身不下任何结论,只是收集各种信息供用户参考。
UCSC 主要界面介绍:
下图是UCSC的主页,左边的功能菜单栏显示了UCSC的主要几个工具,包括Genome Browser、BLAT、Table Browser、Gene Sorter、In Silico PCR、VisiGene、Genome Graphs、等。
总体介绍部分注释了UCSC的基本概念信息,新闻栏部分定期更新UCSC在技术和功能上面的改进和数据上的更新。
下图是Genome Browser的主界面,搜索基因名PPP1R1B得到以下基因组草图。
简单的调整功能和每个区域所代表的含义如图标识。
外显子是由代表内含子的横线连接的条形块部分。
内含子是指连接条形外显子的细线部分。
5’和3’非翻译区显示为前面和后面相对比较细的条形块部分。
基因内含子内箭头表示转录的方向。
在没有内含子可见的情况下,箭头显示在外显子条形块部分。
Bioinformatics 2016Default tracks for the human hg38 assembly at the PPP1R1B gene locus.
Navigate along
the genome Zoom
Search box
Click for track
description
Assembly organism
and date
Browser graphic
Chromosome ideogram
下图是路径的显示设置界面,包括多种特性的路径图。
可以通过你的研究需要来选定所需要的显示选项。
每个路径都可以通过点击蓝色的字体链接到注释界面。
下面是路径的5中显示模式介绍:
• Hide 路径不显示,这种模式有助于限制显示,只显示那些感兴趣的路径,
方便查看。
• Dense 显示所有功能压缩成一行。
当你只是想要一个注释的总体视图,这
种模式有助于减少空间。
• Squish 每个注释特性的路径图单独显示,但只有full 模式50%的高度。
这种
模式有助于减少路径图空间使用的,适用于当你想看大量的个体特性和得到一个注释的整体视图时,特别适合在染色体特定区域显示大量的路径图特性。
• Pack 分别显示的跟踪显示每个注释功能和标记,但不一定是显示在一个单
独的行。
当您想要查看大量的个体特性时,这种模式有助于减少空间使用,但需要提供的标签和显示尺寸完整模式。
• full 每个注释特性的跟踪显示在单独的行中。
建议您使用这个选项的路径
不要设置太多。
•
Track Groups
Visibility Controls
Click here for track
description Reverses the display for viewing annotations on
the negative strand
UCSC中基因组版本与其它数据库版本对应关系:
因为各数据库对基因组有一套自己的命名法则,往往说的名称不一样,但基因组序列相同,如UCSC的hg19和NCBI的GRCh37就是同一基因组,现将UCSC 中基因组版本与其它数据库版本的对应关系列出,方便大家查找。
下面为部分截图,全部内容访问:
下面介绍UCSC 两个典型的应用:
(1)利用UCSC找序列的上下游基因
如果有一段序列,想找到其上下游基因,方法很多,用UCSC直观明了。
以一段人源序列为例,首先打开UCSC 的,选择基因组为“Human”,版本选择最新的,其它的采用默认的,在文本域中拷入下面的序列,点击文本域下的“submit”提交就可以了。
在接下来的页面选择第一个100%匹配的结果,如果你的序列有多个100%匹配的结果,那么说明此序列在基因组中多个位置存在。
点击“browser”的链接就进入了浏览器模式,如果你想知道序列的详细情况可以点击旁边的“detail”。
在浏览器模式下,首先设置显示的内容,默认的太多了,没法看,如果只想找基因的话,只需要下图标出的两个就可以了,其它的都设为“hiden”,设置好一组后就点上面的“refresh”,马上就可以看到上面图形的变化。
下图显示了一些主要区域的说明,通过“zoom in”和“zoom out”放大缩小基因组的显示范围,通过左边”move”调整你的序列在图形在的位置,一个基因显示多排说明此基因有多个编码方式及对应多个accession num。
通过不断缩小就可找到你的序列上下游基因如下图。
(2)利用UCSC对序列进行定位
如果你有一段序列,想知道在基因组的位置,或者想进行基因定位,一般都是用NCBI的在线Blast,但Blast不仅速度慢,而且结果较多,很难找到想要的东西。
如果你的序列是脊柱动物的,那么用UCSC的Blat会非常方便。
首先打开其页面,在第一个下拉框中选择对应的物种,目前UCSC包含大部已测序的脊柱动物,线虫,微生物的注释信息,然后在第二个下拉框中选择对应的注释版本,如对于Human,NCBI37对应hg19,如果你想比较你的序列定位信息,要特别留意这个版本号。
其它的不需要改,在下面文本框中填入你的序列后,点击下面的”submit”就可以了,序列长度要大于30bp,序列有空格,分行符,数字,大小写不统一,是不是Fast格式都没关系,系统会忽略掉的。
在接下来的结果页面,第一结果往往就是最好的结果,看一下IDENTITY 那列是不是100%,SPAN列是不是你序列的长度,如果第二结果或者第三个结果和第一个结果一样都是100%,SPAN长度也和你的序列长度一样,那说明你的序列不具有特异性,存在于多个位置。
如果IDENTITY没有100%,但有98%以上,且SPAN长度和你序列差不多,那么你的序列和标准序列有高同源性,基因位置也基本一样。
点击ACTIONS列下的detail链接就可以看到序列的详细信息。
browser链接图形显示序列在整个基因组的位置,点击那些条条就可看到相关信息。
在图形下面那些众多的下拉框中,你想显示哪个就将hide 改成dense或者pack然后点上面的refresh,就可在上面的图形中找到对应的东东了。
图形界面的“<”和“>”可以放大和缩小基因组范围。