可变剪接分析分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
使用Genome Browser 获得序列
出现的页面框中为要获得序列的位置,可以改变 范围或是包括任意长上游或下游序列,比如要分 析启动子序列,可以选取基因起始点上游1K的序 列。 (如果序列与基因组序列互补,应向后取)
2.2 可变剪接成因分析
从 Genome browser 中可以看到,上例 中不同剪接体的形成的主要原因可能是 采用了不同的启动子或是出现了外显子 的跳过现象。这就促使我们考虑采用不 同的手段预测可能导致这些剪接出现的 原因。
Genome Browser 中的结果
基因图中每个方块对应一个外显子,方块之间带有 箭头的连线对应基因组上的内含子序列。箭头的方 向代表序列转录的方向(5’-3’)。
Genome Browser 中的结果
基因跨度约12.7k。在该区域中有23个已知基因 (根据SWISS-PROT, TREMBL, Refseq数据库中 的注释),在本例中这23个基因都对应着一个基 因(cklfsf1)23个不同的剪接形式。
可变剪接的分析主要包括剪接体序列的 校正,剪接体之间的比较,以及剪接机 制的探索。
剪接体序列的校正
克隆试验得到的mRNA 往往不是全长, 测序反应也不能保证100%的正确,所以 拿到一条序列首先要对其进行校正,尽 可能保证使全长序列且无错误。 校正可以通过剪接体序列与EST数据及 基因组的比对进行。
1.1 可变剪接背景知识
内含子剪接信号
内含子剪接需要区分外显子及内含子,识别信 号主要包括 内含子5‘ 及 3’ 末端序列及中间 分支点(branch site)附近的序列。
内含子剪接信号
内含子5‘ 剪接点称为供体点(donor site), 3’剪接点称为受体点(acceptor site)。 内含子开始和末尾的两对碱基最为保守,大多 数情况为 GU-AG (约占99.24%),少数为GCAG(约占0.7%), 极少数为AT-AC(0.05%)。除 了这两对保守碱基外,他们附近的碱基在不同 物种间存在差异,但在物种内有保守性。如如 脊椎动物5’剪接信号AG|GUAAGU 。
可变剪接分析
yup@mail.cbi.pku.edu.cn
主要内容
可变剪接介绍 使用UCSC Genome browser分析 可变剪接成因分析 其它分析工具及数据库 基因表达谱
一、可变剪接介绍
可变剪接 (alternative splicing) 即一个 mRNA 前体通过不同的内含子去除方式可 以获得不同成熟mRNA 。
改变查看区域
查看其它性质
有些注释信息默认不显示,用户可以在 browser下方选择显示。比如查看spliced EST
使用Genome Browser 获得序列
使用genome browser除了可以浏览基因的相关信息外, 还可以很方便的获取想得到的基因组序列。方法是通过 browser 上方的DNA 连结。
查看EST支持
Genome Browser 提供的一个重要资源 是EST在染色体上的定位信息,其基本 做法是把EST数据与基因组作比对后, 按照最好的匹配结果将EST唯一的定位 到基因组上。 通过EST可以对不同剪接体提供佐证
Genome browser 中的EST 数据
分为两个集合:
–已剪接EST集合(human ests that have been spliced) –包括未剪接EST的所有EST集合(human ests including unspliced) 后者包括前者。已剪接EST集合是与基因组比对后可 以被分成多个外显子结构,且外显子之间的序列符合 内含子剪接位点模式(GT-AG模式)的EST。全部 EST集合则不考虑是否含有剪接位点,其中可能有染 色体污染和一些未经剪接的EST数据。
其它如hnRNP蛋白,多聚嘧啶序列结合蛋白(PTB), CELF蛋白家族等等也有各自不同的调节作用。
ESE 与SR 蛋白的作用模式可能是可变剪接调控中最 普遍的调控形式。已有实验表明由于外显子中剪接增 强子序列的突变不能与SR蛋白结合可以导致外显子的
跳过(exon skipping)。
二、可变剪接的分析
反式作用因子
SR 蛋白
因富含serine/arginine 得名,该蛋白通常含有一至两
个RNA 识别模体(RRM,RNA Recognition Motif), 羧基端有RS结构域(RS 二肽富集区)。
RRM负责介导RNA结合,决定各SR蛋白的底物特异性。
RS结构域主要参与蛋白-蛋白相互作用。
SR 蛋白
可变剪接示意图
可变剪接是生物多样性的重要成因
高等生物与低等生物的基因数量并没有特别显著 的差别,如人的基因估计约30000-40000,小鼠 的基因也为30000左右,而且人鼠基因有很多存 在有很高的相似性。果蝇、线虫等基因约为 15000,基因数量的差别不足以解释以上物种间 存在的显著差异。
可变剪接与蛋白质组
由于采用不同的外显子,导致编码蛋白 质的不同,有时会出现蛋白提前终止, 起到分子开关的作用。
1.3 可变剪接的调控
可变剪接的调控机制目前还不清楚。但 越来越多的研究表明,可变剪接的调控 是通过基因序列上的顺式作用元件和核 内反式作用分子的相互作用进行的。
可变剪接的调控
主要的顺式作用元件有:
– ESE: exon splicing enhancer 外显子剪接增强子 – ISE: intron splicing enhancer 内含子剪接增强子 – ESS: exon splicing silencer 外显子剪接沉默子 – ISS: intron splicing silencer 内含子剪接沉默子
(1) 寻找潜在的启动子
Cold Spring Harbor的Michael Zhang 小组开发 的FirstEF程序针对第一外显子和启动子的预测, 其准确度在同类软件中较高,因此选用该程序对 我们序列进行预测。实际上在genome browser 中也包括firstexon 预测结果。 该软件网址http://rulai.cshl.org/tools/FirstEF/
内含子剪接信号
分支点(branch site)通常位于3‘剪接点 上游50bp,处于一段富含嘧啶的区域,分 支点腺嘌呤附近区域为YNYURAY 。
剪接识别信号
剪接体
剪接由剪接体(spliceosome)催化完成。剪 接体主要由几个核糖蛋白亚基组成,每个亚基 都由RNA链和蛋白组成。另外还有几十个小多 肽参与构成剪接体。 剪接体分主要剪接体(major spliceosome) 和次要剪接体(minor spliceosome)。前者主 要针对剪接信号为GU-AG模式的内含子,包括 U1,U2,U4,U5,U6等亚基,后者主要对应ATAC模式,由另外一组亚基组成 。
Details 结果
图中显示有四个block, 即提交序列可以分为四个区段 与染色体上四个区域对应,即有四个外显子。蓝色区 域为完全匹配,浅蓝色为比对区域的边缘序列,可以 理解为外显子边界
Details 结果
点击每个block 可以看到对应的外显子序列, block之间可以认为是内含子序列,可以观察是否 符合GT-AG 或是GC-AG模式
Spliced EST
Total ESTs
ຫໍສະໝຸດ Baidu
EST 数据选择
整条序列在染色体上以单外显子形式出 现很可能是染色体污染。一般优先看已 剪接EST数据对基因的支持情况,如数 量不足再看包含未剪接EST的所有EST 集合
改变查看区域
在browser 里可以任意移动查看,改变位 置的方法有两种,一是直接输入定位数字, 二是通过窗口下方的方向箭头移动。
Genome Browser 中的结果
该组剪接体总体分为两组,第一组包括上方20条序列, 起始位点相同。第二组包括最后三条序列,其起始位 点在第一组序列中的内含子区域。两组序列共有7个外 显子区域。
Genome Browser 中的结果
从图上看造成不同剪接体的原因有三种: •转录起始位点不同。第二组序列起始点位于第一 组序列内含子区域,可能表明该附近区域可能有 启动子活性。 •外显子的跳越现象。3,4,5,6外显子均存在被 切除的现象。 •剪接位点的偏移。在同一外显子区域,外显子的 大小不同(对应方块的大小不同),可能是由于 内含子内存在多个相邻的剪接信号,导致不同的 剪接结果。
剪接过程,U1结合donor site, U2结合 branch site, U4,U5,U6连结U1,U2
1.2 可变剪接的主要模式
可变剪接主要有四种模式:
– 内含子不切割 – 5’或3’切点竞争 – 外显子跳过 – 外显子互斥
可变剪接的主要模式
内含子不剪切
切点竞争
外显子跳过
外显子互斥
可变剪接的结果
FirstEF 预测
FirstEF 结果
promoter 区为预测的启动子区域,exon 为预测的第一个 exon 区 域 , 点 击 可 查 看 具 体 位 置 信 息 。 该 程 序 预 测 66376104-66376673 为启动子区域,第一外显子区域为 66376604-66376834 或是 66376604-66377167 。第一组序 列的起始位置为66,376,615 , 第二组序列的起始位置为 66,376,969 。已有实验证明第一组序列的启动子可能在 其上游约 1.5Kb 处,故此处的启动子可能为第二组序列 的启动子。
据估计,人40-60%的基因存在可变剪接形 式。通过可变剪接,产生多种蛋白产物, 放大了对不同物种基因组的差别,极大的 扩展了不同物种的变化空间。
可变剪接的生理意义
可变剪接与基因表达的时空性息息相关, 在不同时期,不同组织基因的表达形式 可能不同,与物种发育的不同时期对应。 可变剪接的调控与生物体的健康息息相 关,其突变可以直接导致疾病。
Genome Browser 使用
Genome Browser提供一个与基因组比对 的程序blat, 用户可以提交序列用blat进行 基因组定位。
Blat 提交界面
可以从下拉菜单中选择不同基因组
Blat 结果
可以看到QUERY AY174119为用户提交序列,比 对得分为742, 提交序列全长774,其中4-755的序 列可以匹配在16号染色体正链区域(6637661566389357),有99.6%的匹配序列与提交序列完 全相同。“details”为比对的文本显示, “browser”为在Genome Browser中查看结果
Genome Browser 简介
Genome Browser 可以理解为一个基因组的浏 览器,选择一定区域后,则会显示在该区域内 的一系列性质,如图谱信息(STS,FISH clone, chromosome band),定位在该区域的已知基因 情况以及通过基因预测软件预测的基因情况, 与该段基因组匹配的mRNA 与 EST信息,人 与其它物种如小鼠,大鼠,黑猩猩基因组的比 对情况等等,都直观的显示在一张图上。
SR蛋白主要与外显子剪接增强元件ESE结合, 通过直接招募剪接体蛋白或是拮抗剪接抑制因 子的作用来发挥作用。 SR蛋白主要对5’位点的选择起作用: 通过招募剪接体蛋白如U2AF或是U1-70K,在 pre-mRNA的两个或多个5’可变剪接位点中促 进选择使用距内含子3’端较近的5’位点。
其它反式作用蛋白
剪接体序列的校正
与EST及基因组的比对可以到NCBI使用 BLAST进行,根据多数原则进行修正。 但这样做每次只能查看一条序列,没有 一个总体的概念。因此我们推荐使用加 州大学圣克鲁兹分校提供的Genome Browser 进行。
2.1 UCSC Genome Browser
Genome Browser 是美国加州大学圣克 鲁兹分校(University of California, Santa Cruz)开发的一套基因组注释浏 览工具。其特点是以基因组区域为单位 把相关注释信息整合在一个直观的界面 上。( http://genome.ucsc.edu )