9-第05章-1 基因组注释-信息分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ຫໍສະໝຸດ Baidu
脊椎动物基因和蛋白质缩写约定
物种
基因简写
蛋白质简写
-------------------------------------------------------------------------------------------------------------
人类（Homo sapiens）
基因的命名规则
迄今为止国际上还没有一个普遍公认的适合所有生物种属的基因命名规则。由于历史, 习惯以及其它各种原因, 基因命名中常常存在许多同名歧义, 或者同义歧名的现象. 许多基因在生物的不同发育阶段具有不同的功能, 这一点也给准确的基因命名造成了实际困难. 很多科学家都希望基因的命名标准化，曾经在1997年和 1999年举行了两次有关基因命名的研讨会，但因研究领域的不同以及基因命名本身存在的复杂问题, 无法达成一个统一的意见。目前不同生物种属的基因命名规则仍由各相关领域的专家讨论分别制定, 然后推荐给研究者选择采用.
外显子序列的组成特点
1) 摇摆密码子的使用频率或密码子偏爱
2) 不含或含有较少的终止密码
酵母兼并密码
子
使用频率不同于人类
DNA序列同源查询
1 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT 2 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT
2 ) 功能域具有很强的保守性, 关键的氨基酸组成及其排列顺序是相当保守的, 是鉴定基因功能的主要依据。.
3 ) 功能域是目前注释软件确定基因功能的主要内容之一。
信号传导蛋白激酶结构域比较
GXH1322075
已知动植物中绝大多数含有亮氨酸重复区
(LRR)的蛋白质均可归类于跨膜信号传导蛋白受体.
1) 外显子的组成 2) 内含子的组成 3) 碱基的组成规律
内含子的组成特点
真核生物基因的内含子具有一些特征序列：1）5’剪接供体顺序GT和3’受体顺序AG; 2)近3’剪接位的一段富嘧啶区；3）前体mRNA加工所需分支点A。
内含子含有
高比例三种读框的终止密码
内含子三种读框中终止密码比率远高于外显子近一倍 (18%＞10%).
基因. Novel transcripts: 与novel 基因相似, 但缺少明确的ORF. Putative gene: 有同源EST支持, 但缺少cDNA或ORF(假
定基因). Predicted gene: 数据库中至少有一个外显子支持, 但缺
少cDNA或明确的ORF. (预测基因) Pseudogene(假基因): 与已知蛋白质有50%的相似性, 但
cDNA残缺, 在其它位点存在正常的同源基因的顺序.
Nature 414:865-871, 2001
水稻注释基因类群的划分标准
Homology(同源的): 与某一蛋白质氨基酸顺序完全一致或相当一致的基因, 有两种水平: 一致的命名(same name); 可能的(putative protein) 或类似的(-like protein) 命名.
异氨基酸. 一致性氨基酸百分比: 红色氨基酸所占的比例。相似性氨基酸百分比: 红色和蓝色氨基酸相加所占的比例。注意：同源性不能用百分比表示！只有“是”或“否”。
功能域注释
1 ) 任何基因编码的蛋白质都由一些在高级结构水平具有特征性的功能域组成, 如信号肽, 受体区, 激酶区, DNA或RNA结合域等。
DNA序列与氨基酸顺序同源性查询
这里所列出的两段DNA编码序列之间一致性的比例远高于一致性氨基酸的比例。由于密码子的第3位碱基可摇摆，允许代换，因此从功能的意义看, 氨基酸的同源性比DNA更加重要。在查询DNA编码序列同源
性时通常更多参考氨基酸顺序一致性。
相似性与一致性
249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋
第5章-1 基因组序列注释
1) 内含子组成特点 2) 外显子组成特点 3) 结构域 4) 同源查询
基因注释的常用方法
常用的基因注释方法如下：
1）外显子分布； 2）内含子组成
特点； 3）密码子使用
偏好； 4）同源性查询； 5）转录表达产
物比对； 6）保守的蛋白
结构基序；
7）加尾序列。
真核生物基因的组成特征
2) 常用的注释软如GenScan主要偏重于内容指令, 而 FgeneSH则着重于信号指令。
由于每种生物都有种属专一性的密码子偏好, 也存在某些非保守的信号指令, 因此注释软件的编写会注意不同物种的特点。
超长基因注释常出现正向错误(false-positive, 多注释) 或负向错误(false-negetive, 少注释) . Nature Reviews/Genetics, 4:741-749,2003
植物拟南芥注释基因的ID命名
拟南芥的基因注释ID号制定和编写规则:
1）基因ID的编写规则：ATxGxxxx0,
AT =organism 1,2,3,4,5 =chromosome G =gene 00010 =gene id AT: Arabidopsis thaliana，代表拟南芥；x:染色体编号 G：代表基因；xxxx0：基因ID编号 2) 基因的编号顺序：染色体短臂为北，长臂为南。基因序号北端开始，向南递增。
1 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT 2 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT
在获得新的DNA序列时，通常会将该序列在已有数据库中进行序列比对或查询（BLAST），用以确定新获得的序列与已知的序列之间的关联。
注：SHH，基因sonic hedgehog的简称。
在命名基因符号（symbol）时，要求尽可能简短，通常在3-8个
字母范围。如编码cytotoxic T-lymphocyte-associated protein 4
的基因简称, 斜体，CTLA4；蛋白质简称，正体，CTLA4。
https://en.wikipedia.org/wiki/Gene_nomenclature
Unknown(未知的): 具有全长cDNA或EST(覆盖几乎整个基因范围)支持但没有任何同源蛋白质记录的基因.
hypothetical (假定的): 由一个或几个注释软件认可的蛋白质, 但缺少cDNA或EST支持的基因.
谢谢!
SHH
SHH
小鼠（Mus musculus）
SHH
SHH
原鸡（Gallus gallus）
SHH
SHH
安乐蜥（Anolis carolinensis） shh
SHH
爪蟾 (Xenopus laevis)
shh
Shh
斑马鱼(Danio rerio)
shh
Shh
---------------------------------------------------------------------------------------------------------------------------------------------------------------------
3) 为何每个初定的基因ID号末尾均为0(xxxx0)? 初始注释时以每条染色体含9000个代码为限。十位数是基因初始排序的个位数，如随后在基因附近发现新的基因，可在保留的0位逐个添加1，2，3….。如AT4G00210，或AT4G00212。
基因注释分类—人类
Known gene: 与人类已知cDNA和蛋白质顺序同源的基因. Novel gene: 与脊椎动物cDNA或其它物种蛋白质同源的
基因注释软件的特点
1)目前基因注释程序的编写主要依据两种信息内涵: 1. signal terms ( 信号指令) , 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧啶顺序, 分支点等保守的顺序组成; 2.content terms ( 内容指令) , 如密码子使用偏好。