9-第05章-1 基因组注释-信息分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ຫໍສະໝຸດ Baidu
脊椎动物基因和蛋白质缩写约定
物种
基因简写
蛋白质简写
-------------------------------------------------------------------------------------------------------------
人类(Homo sapiens)
基因的命名规则
迄今为止国际上还没有一个普遍公认的适合所有生物种 属 的基因命名规则。由于历史, 习惯以及其它各种原 因, 基因命名中常常存在许多同名歧义, 或者同义歧 名的 现象. 许多基因在生物的不同发育阶段具有不同 的功 能, 这一点也给准确的基因命名造成了实际困难. 很 多科学家都希望基因的命名标准化,曾经在1997年 和 1999年举行了两次有关基因命名的研讨会,但因研 究 领域的不同以及基因命名本身存在的复杂问题, 无 法 达成一个统一的意见。目前不同生物种属的基因命 名 规则仍由各相关领域的专家讨论分别制定, 然后推 荐 给研究者选择采用.
外显子序列的组成特点
1) 摇摆密码子的使用频率或密 码子偏爱
2) 不含或含有较少的终止密码
酵母 兼并 密码
子
使用 频率 不同于 人类
DNA序列同源查询
1 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT 2 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT
2 ) 功能域具有很强的保守性, 关键的氨基酸组 成及其排列顺序是相当保守的, 是鉴定基因功 能的主要依据。.
3 ) 功能域是目前注释软件确定基因功能的主要 内容之一。
信号传导蛋白激酶 结构域比较
GXH1322075
已知动植 物中绝大 多数含有 亮氨酸重 复区
(LRR)的 蛋白质均 可归类于 跨膜信号 传导蛋白 受体.
1) 外显子的组成 2) 内含子的组成 3) 碱基的组成规律
内含子的组成特点
真核生物基因的内含子具有一些特征序列:1)5’剪接供 体顺序GT和3’受体顺序AG; 2)近3’剪接位的一段富嘧 啶区;3)前体mRNA加工所需分支点A。
内含子含有
高比例三种读框的终止密码
内含子三种读框中终止密码比率远高于外显子近一倍 (18%>10%).
基因. Novel transcripts: 与novel 基因相似, 但缺少明确的ORF. Putative gene: 有同源EST支持, 但缺少cDNA或ORF(假
定基因). Predicted gene: 数据库中至少有一个外显子支持, 但缺
少cDNA或明确的ORF. (预测基因) Pseudogene(假基因): 与已知蛋白质有50%的相似性, 但
cDNA残缺, 在其它位点存在正常的同源基因的顺序.
Nature 414:865-871, 2001
水稻注释基因类群的划分标准
Homology(同源的): 与某一蛋白质氨基酸顺序完 全一致或相当一致的基因, 有两种水平: 一致 的命名(same name); 可能的(putative protein) 或类似的(-like protein) 命名.
异氨基酸. 一致性氨基酸百分比: 红色氨基酸所占的比例。 相似性氨基酸百分比: 红色和蓝色氨基酸相加所占的比例。 注意:同源性不能用百分比表示!只有“是”或“否”。
功能域注释
1 ) 任何基因编码的蛋白质都由一些在高级结构 水平具有特征性的功能域组成, 如信号肽, 受体区, 激酶区, DNA或RNA结合域等。
DNA序列与氨基酸顺序同源性查询
这里所列出的两段DNA编码序列之间一致性的比例远高于一致性氨基 酸的比例。由于密码子的第3位碱基可摇摆,允许代换,因此从功能的 意义看, 氨基酸的同源性比DNA更加重要。在查询DNA编码序列同源
性时通常更多参考氨基酸顺序一致性。
相似性与一致性
249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋
第5章-1 基因组序列注释
1) 内含子组成特点 2) 外显子组成特点 3) 结构域 4) 同源查询
基因注释的常用方法
常用的基因注 释方法如下:
1)外显子分布; 2)内含子组成
特点; 3)密码子使用
偏好; 4)同源性查询; 5)转录表达产
物比对; 6)保守的蛋白
结构基序;
7)加尾序列。
真核生物基因的组成特征
2) 常用的注释软如GenScan主要偏重于内容指令, 而 FgeneSH则着重于信号指令。
由于每种生物都有种属专一性的密码子偏好, 也存在某些 非保守的信号指令, 因此注释软件的编写会注意不同 物种的特点。
超长基因注释常出现正向错误(false-positive, 多注释) 或负向错误(false-negetive, 少注释) . Nature Reviews/Genetics, 4:741-749,2003
植物拟南芥注释基因的ID命名
拟南芥的基因注释ID号制定和编写规则:
1)基因ID的编写规则:ATxGxxxx0,
AT =organism 1,2,3,4,5 =chromosome G =gene 00010 =gene id AT: Arabidopsis thaliana,代表拟南芥;x:染色体编号 G:代表基因;xxxx0:基因ID编号 2) 基因的编号顺序:染色体短臂为北,长臂为南。基因序号北端开 始,向南递增。
1 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT 2 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT
在获得新的DNA序列时,通常会将该序列在已有数据库中 进行序列比对或查询(BLAST),用以确定新获得的序列 与已知的序列之间的关联。
注:SHH, 基因sonic hedgehog的简称。
在命名基因符号(symbol)时,要求尽可能简短,通常在3-8个
字母范围。 如编码cytotoxic T-lymphocyte-associated protein 4
的基因简称, 斜体,CTLA4;蛋白质简称,正体,CTLA4。
https://en.wikipedia.org/wiki/Gene_nomenclature
Unknown(未知的): 具有全长cDNA或EST(覆盖几 乎整个基因范围)支持但没有任何同源蛋白质 记录的基因.
hypothetical (假定的): 由一个或几个注释软件认 可的蛋白质, 但缺少cDNA或EST支持的基因.
谢谢!
SHH
SHH
小鼠(Mus musculus)
SHH
SHH
原鸡(Gallus gallus)
SHH
SHH
安乐蜥(Anolis carolinensis) shh
SHH
爪蟾 (Xenopus laevis)
shh
Shh
斑马鱼(Danio rerio)
shh
Shh
---------------------------------------------------------------------------------------------------------------------------------------------------------------------
3) 为何每个初定的基因ID号末尾均为0(xxxx0)? 初始注释时以每条染色体含9000个代码为限。十位数是基因初始 排序的个位数,如随后在基因附近发现新的基因,可在保留的0位 逐个添加1,2,3….。 如AT4G00210,或AT4G00212。
基因注释分类—人类
Known gene: 与人类已知cDNA和蛋白质顺序同源的基因. Novel gene: 与脊椎动物cDNA或其它物种蛋白质同源的
基因注释软件的特点
1)目前基因注释程序的编写主要依据两种信息内涵: 1. signal terms ( 信号指令) , 如起始密码, 终止密 码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧 啶顺序, 分支点等保守的顺序组成; 2.content terms ( 内容指令) , 如密码子使用偏好。
脊椎动物基因和蛋白质缩写约定
物种
基因简写
蛋白质简写
-------------------------------------------------------------------------------------------------------------
人类(Homo sapiens)
基因的命名规则
迄今为止国际上还没有一个普遍公认的适合所有生物种 属 的基因命名规则。由于历史, 习惯以及其它各种原 因, 基因命名中常常存在许多同名歧义, 或者同义歧 名的 现象. 许多基因在生物的不同发育阶段具有不同 的功 能, 这一点也给准确的基因命名造成了实际困难. 很 多科学家都希望基因的命名标准化,曾经在1997年 和 1999年举行了两次有关基因命名的研讨会,但因研 究 领域的不同以及基因命名本身存在的复杂问题, 无 法 达成一个统一的意见。目前不同生物种属的基因命 名 规则仍由各相关领域的专家讨论分别制定, 然后推 荐 给研究者选择采用.
外显子序列的组成特点
1) 摇摆密码子的使用频率或密 码子偏爱
2) 不含或含有较少的终止密码
酵母 兼并 密码
子
使用 频率 不同于 人类
DNA序列同源查询
1 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT 2 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT
2 ) 功能域具有很强的保守性, 关键的氨基酸组 成及其排列顺序是相当保守的, 是鉴定基因功 能的主要依据。.
3 ) 功能域是目前注释软件确定基因功能的主要 内容之一。
信号传导蛋白激酶 结构域比较
GXH1322075
已知动植 物中绝大 多数含有 亮氨酸重 复区
(LRR)的 蛋白质均 可归类于 跨膜信号 传导蛋白 受体.
1) 外显子的组成 2) 内含子的组成 3) 碱基的组成规律
内含子的组成特点
真核生物基因的内含子具有一些特征序列:1)5’剪接供 体顺序GT和3’受体顺序AG; 2)近3’剪接位的一段富嘧 啶区;3)前体mRNA加工所需分支点A。
内含子含有
高比例三种读框的终止密码
内含子三种读框中终止密码比率远高于外显子近一倍 (18%>10%).
基因. Novel transcripts: 与novel 基因相似, 但缺少明确的ORF. Putative gene: 有同源EST支持, 但缺少cDNA或ORF(假
定基因). Predicted gene: 数据库中至少有一个外显子支持, 但缺
少cDNA或明确的ORF. (预测基因) Pseudogene(假基因): 与已知蛋白质有50%的相似性, 但
cDNA残缺, 在其它位点存在正常的同源基因的顺序.
Nature 414:865-871, 2001
水稻注释基因类群的划分标准
Homology(同源的): 与某一蛋白质氨基酸顺序完 全一致或相当一致的基因, 有两种水平: 一致 的命名(same name); 可能的(putative protein) 或类似的(-like protein) 命名.
异氨基酸. 一致性氨基酸百分比: 红色氨基酸所占的比例。 相似性氨基酸百分比: 红色和蓝色氨基酸相加所占的比例。 注意:同源性不能用百分比表示!只有“是”或“否”。
功能域注释
1 ) 任何基因编码的蛋白质都由一些在高级结构 水平具有特征性的功能域组成, 如信号肽, 受体区, 激酶区, DNA或RNA结合域等。
DNA序列与氨基酸顺序同源性查询
这里所列出的两段DNA编码序列之间一致性的比例远高于一致性氨基 酸的比例。由于密码子的第3位碱基可摇摆,允许代换,因此从功能的 意义看, 氨基酸的同源性比DNA更加重要。在查询DNA编码序列同源
性时通常更多参考氨基酸顺序一致性。
相似性与一致性
249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋
第5章-1 基因组序列注释
1) 内含子组成特点 2) 外显子组成特点 3) 结构域 4) 同源查询
基因注释的常用方法
常用的基因注 释方法如下:
1)外显子分布; 2)内含子组成
特点; 3)密码子使用
偏好; 4)同源性查询; 5)转录表达产
物比对; 6)保守的蛋白
结构基序;
7)加尾序列。
真核生物基因的组成特征
2) 常用的注释软如GenScan主要偏重于内容指令, 而 FgeneSH则着重于信号指令。
由于每种生物都有种属专一性的密码子偏好, 也存在某些 非保守的信号指令, 因此注释软件的编写会注意不同 物种的特点。
超长基因注释常出现正向错误(false-positive, 多注释) 或负向错误(false-negetive, 少注释) . Nature Reviews/Genetics, 4:741-749,2003
植物拟南芥注释基因的ID命名
拟南芥的基因注释ID号制定和编写规则:
1)基因ID的编写规则:ATxGxxxx0,
AT =organism 1,2,3,4,5 =chromosome G =gene 00010 =gene id AT: Arabidopsis thaliana,代表拟南芥;x:染色体编号 G:代表基因;xxxx0:基因ID编号 2) 基因的编号顺序:染色体短臂为北,长臂为南。基因序号北端开 始,向南递增。
1 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT 2 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT
在获得新的DNA序列时,通常会将该序列在已有数据库中 进行序列比对或查询(BLAST),用以确定新获得的序列 与已知的序列之间的关联。
注:SHH, 基因sonic hedgehog的简称。
在命名基因符号(symbol)时,要求尽可能简短,通常在3-8个
字母范围。 如编码cytotoxic T-lymphocyte-associated protein 4
的基因简称, 斜体,CTLA4;蛋白质简称,正体,CTLA4。
https://en.wikipedia.org/wiki/Gene_nomenclature
Unknown(未知的): 具有全长cDNA或EST(覆盖几 乎整个基因范围)支持但没有任何同源蛋白质 记录的基因.
hypothetical (假定的): 由一个或几个注释软件认 可的蛋白质, 但缺少cDNA或EST支持的基因.
谢谢!
SHH
SHH
小鼠(Mus musculus)
SHH
SHH
原鸡(Gallus gallus)
SHH
SHH
安乐蜥(Anolis carolinensis) shh
SHH
爪蟾 (Xenopus laevis)
shh
Shh
斑马鱼(Danio rerio)
shh
Shh
---------------------------------------------------------------------------------------------------------------------------------------------------------------------
3) 为何每个初定的基因ID号末尾均为0(xxxx0)? 初始注释时以每条染色体含9000个代码为限。十位数是基因初始 排序的个位数,如随后在基因附近发现新的基因,可在保留的0位 逐个添加1,2,3….。 如AT4G00210,或AT4G00212。
基因注释分类—人类
Known gene: 与人类已知cDNA和蛋白质顺序同源的基因. Novel gene: 与脊椎动物cDNA或其它物种蛋白质同源的
基因注释软件的特点
1)目前基因注释程序的编写主要依据两种信息内涵: 1. signal terms ( 信号指令) , 如起始密码, 终止密 码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧 啶顺序, 分支点等保守的顺序组成; 2.content terms ( 内容指令) , 如密码子使用偏好。