9-基因家族分析【兰州大学生物信息学】

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.5 启动子分析
基因表达量的高低与启动子有关 基因功能的差异主要与基因结构有关
启动子序列:1500bp 预测网址:
http://bioinformatics.psb.ugent.be /webtools/plantcare/html/
3.6 选择计算
选择计算可以得到碱基的差 异,之后通过实验检测对功 能的影响
基因家族进化分析
主要内容
一、什么是基因家族
1. 鉴定方法 2. 基因命名 3. 进化树构建
二、如何进行分析
A 基因数量的分析:
1. 进化树分析 2. 染色体定位 3. 共线性分析 4. 起源方式
B 基因结构的变化
1. 外显子内含子 2. 内含子相位 3. Domain和Motif 4. 启动子区域 5. 可变剪切 6. 选择的计算
3.3 内含子及相位
内含子相位内含子插入密码子的位置 内含子相位的差异可能会导致功能差异 可以手工绘制
3.4 可变剪切
有些基因的一个mRNA前体通过不同的剪接方式(选择 不同的剪接位点)产生不同的mRNA剪接异构体
1.可变剪切对基因功能具有很大的影响 2.基因家族鉴定的基因都是去可变剪切的 3.内含子可能参与转录导致基因功能分化
➢ MYB成员多,少选物种 ➢ 亚家族分类 ➢ 同源基因,功能预测 ➢ 基因家族各个分支的扩张与收缩 ➢ 某物种特有分支(标红)
2.1 进化树分析
在本分支上极大的扩张
基因家族在各个物种中的成员 少于10个,选了57种植物,12 种动物 亚家族分类 同源基因,功能预测
2.2 基因数量分析
1. 基因的扩张(segmental and tandem duplication) 2. 基因的丢失 3. 基因只在某支上的扩张 4. 某物种特有的分支
基因家族:是来源于同一个祖先,由一个基因通过基因 重复而产生两个或更多的拷贝而构成的一组基因,它们 在结构和功能上具有明显的相似性,编码相似的蛋白质 产物, 同一家族基因可以紧密排列在一起,形成一个 基因簇,但多数时候,它们是分散在同一染色体的不同 位置,或者存在于不同的染色体上的,各自具有不同的 表达调控模式。
3.1 外显子结构
各分支外显子数量一致 外显子差异会导致功能差异 可以在外显子上加上domain
绘制方式: SVG脚本 软件:http://bio.ieo.eu/ fancygene/tutorial.html
3.2 Motif和Domain
Motif 主要软件 Meme: http://meme.nbcr.net/meme/ Domain分析数据库: http://www.ebi.ac.uk/interpro/scan.html http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi http://pfam.xfam.org/
1.3 建树
B: 蛋白序列和Domain序列建树
Domain序列保守行较高,可以更好的反映基因家族各 个成员之间的进化关系
C: 常用建树软件
1. NJ树:ClustalW 2. ML树:RAxML和PhyML 3. Bayes树:MrBayes 4. MP树:PAUP
2.1 进化树分析
桉树 MYB 家族
3. 对得到序列进行手工校对
1.2基因家族命名
根据所在染色体位置命名
根据已有命名的同源基因命名
1.3 建树
A: 建树时物种选择
1. 根据你的研究目的选择物种 2. 很大的基因家族,可以少选几个物种或只选一个物种进行分 3. 基因数量比较少或者比较小的基因家族(10个基因以内),可以多 选几个物种(从藻类到被子植物) 4. 拟南芥作为研究比较清楚的模式植物是除了研究物种外的首选物种
四 功能分析
1. 同源基因预测 2. 转录组分析 3. 实验验证
4.1 同源基因
4.2 转录组
Heatmap 与进化树和基因结构等结合
检测基因在不同组织,不同胁迫的表达
4.3 实验
通过qRT-PCR得到基因家 族各个成员的表达情况 或者验证转录组结果 通过实验验证你的结果 或者关键基因的功能
1.1基因家族鉴定
序列相似性Blast鉴定:
1. 找出已有的或者鉴定好的基因或具 有某功能的基因(拟南芥)
2. 用这些基因对你所需物种进行 blast(evalue=1e-5)
3. 对blast得到的序列进行手工校对
Domain相似性鉴定:
1. 找到你要鉴定的基因家族的 domain(Pfam)
2. 根据domain对物种基因组进行 Search (HMMer)
基因起源的方式:Segmental and Tandem Duplication
2.3 染色体定位
制图方法: 跟据gff文件得到基因的位置信息 A. 软件(没有好用的) B. SVG脚本(已有) C. 手工绘制
染色体定位通常与 基因来源方式 共线性 结合起来
2.4 共线性分析
软件:McscanX
染色体定位图
circle图
2.5 基因起源
Segmental and Tandem Duplication
A:两个片段的共线性区域 B:进化树orthologs
根据A,B和绿色和蓝色标记基因序列差异
C:推测这些基因起源
基因结构
1. 外显子数量 2. 某段序列的差异 wk.baidu.com. 碱基的差异 4. 启动子区域的差异 5. 内含子相位
C 功能分析
1. 功能预测分析 2. 表达量
三、综合类分析
基因家族,转录组, 基因组和实验互相 组合
一 基因家族
A Gene family is a set of several similar genes, formed by duplication of a single original gene, and generally with similar biochemical functions
3.2 Motif和Domain
Domain与Motif: Domain 是保守结构域,一条序列一 般只有1-2个domain Motif 是更小的分类单位,一个 domain可能有多个motif组成
Domain 数量差异对功能影响极大 Domain 数量的不同导致不同亚家族 Motif 的差异可能会导致功能差异
相关文档
最新文档