基于序列拓扑和二阶隐马尔可夫模型的跨膜蛋白亚细胞定位预测
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋 白质亚细 胞定位 是 研究 蛋白 质 功能 的重 要 方
面 , 目前已 有的亚细 胞位 置预 测方 法中 , 很 多是 通 过 计 算序列的 氨 基 酸 或氨 基 酸 对组 成, 利 用 支 持 向 量 机 ( support vector m ach ine, SVM ) ( 如 SubLoc[ 7] )或 者 神 经网络 ( 如 NNPSL[ 8] ) 来分 类; 更 新的 一 些方 法 则 考 虑了氨基 酸 残 基 的顺 序, 应 用 伪氨 基 酸 组 成 或 残 基联 合模型 来提高预 测精 度 ( 如 Fu zzy_L oc[ 9 ] 、LOCS VM PS I[ 10] 等 )。 但是 以上 这 些方 法 研 究 的主 要 对 象 是 水溶性蛋 白, 对 于跨膜蛋 白并不 适用 。而 TMHMM 和 HMM TOP 等跨膜 蛋白 拓扑 预 测方 法, 虽 然考 虑 了 跨 膜区的结 构 特 征 和跨 膜 方 向, 但又 并 非 专 门 针 对 亚 细胞位置 预测而 设计。 现在 我 们知 道的 仅有 的 两 个 真核生物 跨 膜 蛋 白亚 细 胞 定位 预 测 方 法, 一 个 是 基于 氨基酸 组成并使 用最小 M ah alanob is距离 来对 属 于 9种亚细 胞 位置 的 跨 膜 蛋白 分 类, 整 体 预 测 精 度 为 65. 9 % [ 11 ] ; 另一个 是分别 对小 鼠 FANTOM 3 细 胞 的 四种亚细 胞位置 构建 HMM 来进行 分类 , 整 体预 测 精 度为 76. 6 % [ 12] 。
ZOU L ing yun, WANG Zheng zhi* , HUANG J iao m in
( Co lleg e ofM e chatron ics and Au tom a tion, N a tiona l U niversity o f D efense T echno logy, Chang sha 410073, H unan, China)
第 17卷 第 2期 2008年 4月
激光 生 物学 报 ACTA LASER B IOLOGY S IN ICA
V o.l 17 N o. 2 A pr. 2 008
基础研究
基于序列拓扑和二阶隐马尔可夫模型的 跨膜蛋白亚细胞定位预测*
邹凌云, 王正志* , 黄教民
( 国防科技 大学机电 工程与自动 化学院自 动化研究所 , 湖 南 长沙 410073)
( A ) 单次跨膜 蛋白三种拓 扑类 型: T ype I型 ( 蛋白 质插 入膜 内 时信号肽 被切除 ), T ype II型, T ype III型; ( B) 多 次跨 膜 蛋 白三种 拓扑 类 型: I型 ( 信号 肽 被切 除 ), II型, III型。 图 中 , cy t表示 细胞质一侧 , exo 表示细胞 外或者细胞 器内。 ( A ) Three topo logy types of sing le spanning pro te ins: T ype I ( an N term ina l signa l peptide wh ich is cleaved when the prote in is inserted in to the m embrane ), T ype II, T ype III; ( B ) T hree topo logy types o f mu lti spanning prote ins: I ( an N te rm inal s ig na l peptide is c leav ed) , II, III. H e re, cy t deno tes a cy top las m ic side, and exo denote s a lum ena l or ex trace llular side. 图 1 单次和多 次跨膜蛋白 的跨膜拓 扑 F ig. 1 T ransm em brane topo logy o f sing le spanning pro te ins and m ulti spann ing pro te ins
14 4
激 光生 物 学报
第 17卷
膜蛋白 只 占 人 类基 因 编 码蛋 白 质 的 20 % ~ 30 % [ 1] , 却 占 所 有 已 知 药 物 靶 标 的 将 近 70 % 的 比 例 [ 2] 。跨 膜蛋白 是 膜 蛋白 中 的 一个 类 型, 它 的 跨 膜 区 穿越细胞 器膜的 磷脂双分 子层, 行使着 独特的 、联 系 生物膜内 外环 境的 功 能: 细胞 信 号 转 导 ( 如 G 蛋 白 耦联受 体 GPCR s) , 细 胞 间的 相 互作 用 ( 整 联 蛋 白 和 黏着蛋白 ) , 细胞 器 在细 胞 内的 区 室化 作 用 ( 如 锚 着 激酶蛋白 ) , 离 子和 溶质 的 传输 (如 钾 通 道 ), 能 量 的 产生 (如 细 菌视 紫 红 质、ATP合 酶 ) 等。跨 膜 蛋 白 具 有两种基 本的跨 膜拓扑 结构 : 螺 旋和 片 层。 螺旋跨膜蛋白通过单个或多个跨膜区域镶嵌在膜 中 , 而具有 片 层 的跨 膜 蛋 白通 常 形 成 类似 于 桶 状 的 结构定位 于 革 兰 氏阴 性 菌、线 粒体 和 叶 绿 体 的 外 膜 , 称为 barrel跨膜 蛋白 。 螺 旋跨 膜蛋 白从 拓 扑 结 构上可以 分 为 单 次跨 膜 蛋 白和 多 次 跨 膜 蛋白 , 它 们 各自还 可 以细 分 为 三种 类 型 [ 3 ] , 如图 1 所 示。 由 于 膜蛋白需 要 与 生 物膜 共 同 形成 稳 定 的 自 然构 象 , 不 利于用 X 射线 晶体衍射 方法和 核磁共 振技 术测 定 其 三维结构 , 目 前仅 有少 数 膜蛋 白 的结 构 被实 验 测 出 。因此, 通过 计 算手 段 预 测 跨 膜拓 扑 结 构 成 为 目 前 这方面研 究 的 主 要方 向 之 一, 已经 出 现 的 预 测 方 法 有 神 经 网 络, 隐 马 尔 可 夫 模 型 ( H idd en M orkov M ode,l HMM ) 等等 。其 中, 基 于 HMM 的 预 测方 法 , 如 TMHMM [ 4 ] 、HMM TOP[ 5 ] 、Phob ius[ 6 ] 等, 取 得 了 很 好 的效果。
Key words: transm embrane prote in; subcellu lar loca lization; second o rder H idden M a rkov M ode;l Baum W elch a lgor ithm
* 收 稿日期: 2007 06 04; 修回 日期: 2007 06 21 基 金项目: 国家自 然科学基金 面上项目 ( 60471003) 作 者简 介: 邹 凌 云 ( 1979 ), 男, 湖 南 汨 罗 人, 博 士 研 究 生, 研 究 方 向 为 数 据 挖 掘, 生 物 信 息 学。 ( 电 话 ) 0731 4574991; ( 手机 ) 13308436953; (电子信 箱 ) zoulingyun@ nudt. edu. cn * 通讯作者: 博士 生导师。 ( 电话 ) 0731 4574991; (电子 信箱 ) w ang zhengzh@i 126. com
关键词: 跨膜 蛋白; 亚细胞定 位; 二阶隐马尔 可夫模型 ; Baum W e lch算法 中图分类号: Q 617 文献标识码: A 文章编号: 1007 7146( 2008) 02 0143 06
Subcellular Localization P rediction of T ransm embrane P roteins Based on Sequence Topo logy and Second order H idden M arkov M odel
摘 要: 现有 蛋白质亚 细胞定位方 法针对 水溶 性蛋 白质 而设 计, 对 跨膜 蛋白 并不 适用。 而专 门的 跨膜 拓扑 预
测 器, 又不是为亚 细胞定位而 设计的。文 章改进了 跨膜拓 扑预 测器 TM PHMM Lo c的模 型结 构, 设计 了一 个新 的 二 阶隐马尔 可夫模型; 采用推 广到二 阶模 型的 Baum W e lch算 法估 计模 型参 数, 并把 将各 个 亚细 胞位 置 建立 的 模 型整合为 一个预测器 。数据集上 测试结果表 明, 此方法性能 显著优于 针对可溶性 蛋白设计 的支持向量 机方法 和 模糊 k 最邻近方 法, 也 优于 TM PHMM L oc中 提出的隐马 尔可夫 模型 方法, 是一 个有 效的 跨膜 蛋白 亚细 胞定 位 预 测方法。
Ab stract: Current predicto rs for subce llu la r lo ca lization prim ar ily target so lub le pro te ins and igno re the character istic to
po log ica l dom a ins of transm em brane pro te ins. On the other hand, topo logy predicto rs are not designed for subce llu lar lo calization pred iction. Insp ired by the topo logy o f transm em brane prote ins, and based on the H idden M a rkov M odel (HMM ) w hich w as presented in a topology pred icto r nam ed TM PHMM L oc, a m od ified second o rder HMM w as construc ted for subcellular loca lization pred iction o f transm em brane pro te ins. A n ex tended Baum W elch a lgo rithm w as presented to estim ate param eters o f models. A nd a subce llu la r lo ca tions pred ictor w as construc ted by integrating allHMM s for eve ry subcellu lar lo ca tion in one mode.l 529 transmembrane prote ins lo ca ting at five subcellu lar sites of secreto ry pa thways in m ouse cells were extracted for screen ing and testing. In compar ison w ith linea r Support V ecto r M achines ( SVM s) and Fuzzy k N earestN e ighbors, based on overall am ino ac id and di peptide com position, the m ethod in th is pape r show a sign ificant inc rease in pred iction perfo rm ance. A nd it a lso ou tper fo rm ed the HMM m e thod o f TM PHMM L oc. A ll these results indicate tha t the m e thod in th is paper is pow erfu l for transm em brane pro te ins subce llu lar loca lization pred ic tion.
本文完成了下列工 作: 一是 从一 个小鼠 蛋白 质亚
细胞定 位数据 库 LOCATE ( h ttp: / / locate. mi b. up. edu. au /) 中筛选出 一个 分别 定位 于 细胞 分泌 路径 上 五种 细胞器的无冗余跨 膜蛋白 质数据 集, 通过 已有的 拓扑 预测软件和信号肽预测软件对蛋白质的跨膜区和信号 肽进行了标注; 二 是针对 跨膜蛋白 的拓扑 结构设计 了 一 个 HMM, 并将 五 个 细胞 器 的 HMM 融 合为 一 个 预 测 器, 利 用得到的 数据集Biblioteka Baidu进行 了 训练 和测 试; 三是 将 预 测结果 和其它的 一些方 法进行了 比较。
面 , 目前已 有的亚细 胞位 置预 测方 法中 , 很 多是 通 过 计 算序列的 氨 基 酸 或氨 基 酸 对组 成, 利 用 支 持 向 量 机 ( support vector m ach ine, SVM ) ( 如 SubLoc[ 7] )或 者 神 经网络 ( 如 NNPSL[ 8] ) 来分 类; 更 新的 一 些方 法 则 考 虑了氨基 酸 残 基 的顺 序, 应 用 伪氨 基 酸 组 成 或 残 基联 合模型 来提高预 测精 度 ( 如 Fu zzy_L oc[ 9 ] 、LOCS VM PS I[ 10] 等 )。 但是 以上 这 些方 法 研 究 的主 要 对 象 是 水溶性蛋 白, 对 于跨膜蛋 白并不 适用 。而 TMHMM 和 HMM TOP 等跨膜 蛋白 拓扑 预 测方 法, 虽 然考 虑 了 跨 膜区的结 构 特 征 和跨 膜 方 向, 但又 并 非 专 门 针 对 亚 细胞位置 预测而 设计。 现在 我 们知 道的 仅有 的 两 个 真核生物 跨 膜 蛋 白亚 细 胞 定位 预 测 方 法, 一 个 是 基于 氨基酸 组成并使 用最小 M ah alanob is距离 来对 属 于 9种亚细 胞 位置 的 跨 膜 蛋白 分 类, 整 体 预 测 精 度 为 65. 9 % [ 11 ] ; 另一个 是分别 对小 鼠 FANTOM 3 细 胞 的 四种亚细 胞位置 构建 HMM 来进行 分类 , 整 体预 测 精 度为 76. 6 % [ 12] 。
ZOU L ing yun, WANG Zheng zhi* , HUANG J iao m in
( Co lleg e ofM e chatron ics and Au tom a tion, N a tiona l U niversity o f D efense T echno logy, Chang sha 410073, H unan, China)
第 17卷 第 2期 2008年 4月
激光 生 物学 报 ACTA LASER B IOLOGY S IN ICA
V o.l 17 N o. 2 A pr. 2 008
基础研究
基于序列拓扑和二阶隐马尔可夫模型的 跨膜蛋白亚细胞定位预测*
邹凌云, 王正志* , 黄教民
( 国防科技 大学机电 工程与自动 化学院自 动化研究所 , 湖 南 长沙 410073)
( A ) 单次跨膜 蛋白三种拓 扑类 型: T ype I型 ( 蛋白 质插 入膜 内 时信号肽 被切除 ), T ype II型, T ype III型; ( B) 多 次跨 膜 蛋 白三种 拓扑 类 型: I型 ( 信号 肽 被切 除 ), II型, III型。 图 中 , cy t表示 细胞质一侧 , exo 表示细胞 外或者细胞 器内。 ( A ) Three topo logy types of sing le spanning pro te ins: T ype I ( an N term ina l signa l peptide wh ich is cleaved when the prote in is inserted in to the m embrane ), T ype II, T ype III; ( B ) T hree topo logy types o f mu lti spanning prote ins: I ( an N te rm inal s ig na l peptide is c leav ed) , II, III. H e re, cy t deno tes a cy top las m ic side, and exo denote s a lum ena l or ex trace llular side. 图 1 单次和多 次跨膜蛋白 的跨膜拓 扑 F ig. 1 T ransm em brane topo logy o f sing le spanning pro te ins and m ulti spann ing pro te ins
14 4
激 光生 物 学报
第 17卷
膜蛋白 只 占 人 类基 因 编 码蛋 白 质 的 20 % ~ 30 % [ 1] , 却 占 所 有 已 知 药 物 靶 标 的 将 近 70 % 的 比 例 [ 2] 。跨 膜蛋白 是 膜 蛋白 中 的 一个 类 型, 它 的 跨 膜 区 穿越细胞 器膜的 磷脂双分 子层, 行使着 独特的 、联 系 生物膜内 外环 境的 功 能: 细胞 信 号 转 导 ( 如 G 蛋 白 耦联受 体 GPCR s) , 细 胞 间的 相 互作 用 ( 整 联 蛋 白 和 黏着蛋白 ) , 细胞 器 在细 胞 内的 区 室化 作 用 ( 如 锚 着 激酶蛋白 ) , 离 子和 溶质 的 传输 (如 钾 通 道 ), 能 量 的 产生 (如 细 菌视 紫 红 质、ATP合 酶 ) 等。跨 膜 蛋 白 具 有两种基 本的跨 膜拓扑 结构 : 螺 旋和 片 层。 螺旋跨膜蛋白通过单个或多个跨膜区域镶嵌在膜 中 , 而具有 片 层 的跨 膜 蛋 白通 常 形 成 类似 于 桶 状 的 结构定位 于 革 兰 氏阴 性 菌、线 粒体 和 叶 绿 体 的 外 膜 , 称为 barrel跨膜 蛋白 。 螺 旋跨 膜蛋 白从 拓 扑 结 构上可以 分 为 单 次跨 膜 蛋 白和 多 次 跨 膜 蛋白 , 它 们 各自还 可 以细 分 为 三种 类 型 [ 3 ] , 如图 1 所 示。 由 于 膜蛋白需 要 与 生 物膜 共 同 形成 稳 定 的 自 然构 象 , 不 利于用 X 射线 晶体衍射 方法和 核磁共 振技 术测 定 其 三维结构 , 目 前仅 有少 数 膜蛋 白 的结 构 被实 验 测 出 。因此, 通过 计 算手 段 预 测 跨 膜拓 扑 结 构 成 为 目 前 这方面研 究 的 主 要方 向 之 一, 已经 出 现 的 预 测 方 法 有 神 经 网 络, 隐 马 尔 可 夫 模 型 ( H idd en M orkov M ode,l HMM ) 等等 。其 中, 基 于 HMM 的 预 测方 法 , 如 TMHMM [ 4 ] 、HMM TOP[ 5 ] 、Phob ius[ 6 ] 等, 取 得 了 很 好 的效果。
Key words: transm embrane prote in; subcellu lar loca lization; second o rder H idden M a rkov M ode;l Baum W elch a lgor ithm
* 收 稿日期: 2007 06 04; 修回 日期: 2007 06 21 基 金项目: 国家自 然科学基金 面上项目 ( 60471003) 作 者简 介: 邹 凌 云 ( 1979 ), 男, 湖 南 汨 罗 人, 博 士 研 究 生, 研 究 方 向 为 数 据 挖 掘, 生 物 信 息 学。 ( 电 话 ) 0731 4574991; ( 手机 ) 13308436953; (电子信 箱 ) zoulingyun@ nudt. edu. cn * 通讯作者: 博士 生导师。 ( 电话 ) 0731 4574991; (电子 信箱 ) w ang zhengzh@i 126. com
关键词: 跨膜 蛋白; 亚细胞定 位; 二阶隐马尔 可夫模型 ; Baum W e lch算法 中图分类号: Q 617 文献标识码: A 文章编号: 1007 7146( 2008) 02 0143 06
Subcellular Localization P rediction of T ransm embrane P roteins Based on Sequence Topo logy and Second order H idden M arkov M odel
摘 要: 现有 蛋白质亚 细胞定位方 法针对 水溶 性蛋 白质 而设 计, 对 跨膜 蛋白 并不 适用。 而专 门的 跨膜 拓扑 预
测 器, 又不是为亚 细胞定位而 设计的。文 章改进了 跨膜拓 扑预 测器 TM PHMM Lo c的模 型结 构, 设计 了一 个新 的 二 阶隐马尔 可夫模型; 采用推 广到二 阶模 型的 Baum W e lch算 法估 计模 型参 数, 并把 将各 个 亚细 胞位 置 建立 的 模 型整合为 一个预测器 。数据集上 测试结果表 明, 此方法性能 显著优于 针对可溶性 蛋白设计 的支持向量 机方法 和 模糊 k 最邻近方 法, 也 优于 TM PHMM L oc中 提出的隐马 尔可夫 模型 方法, 是一 个有 效的 跨膜 蛋白 亚细 胞定 位 预 测方法。
Ab stract: Current predicto rs for subce llu la r lo ca lization prim ar ily target so lub le pro te ins and igno re the character istic to
po log ica l dom a ins of transm em brane pro te ins. On the other hand, topo logy predicto rs are not designed for subce llu lar lo calization pred iction. Insp ired by the topo logy o f transm em brane prote ins, and based on the H idden M a rkov M odel (HMM ) w hich w as presented in a topology pred icto r nam ed TM PHMM L oc, a m od ified second o rder HMM w as construc ted for subcellular loca lization pred iction o f transm em brane pro te ins. A n ex tended Baum W elch a lgo rithm w as presented to estim ate param eters o f models. A nd a subce llu la r lo ca tions pred ictor w as construc ted by integrating allHMM s for eve ry subcellu lar lo ca tion in one mode.l 529 transmembrane prote ins lo ca ting at five subcellu lar sites of secreto ry pa thways in m ouse cells were extracted for screen ing and testing. In compar ison w ith linea r Support V ecto r M achines ( SVM s) and Fuzzy k N earestN e ighbors, based on overall am ino ac id and di peptide com position, the m ethod in th is pape r show a sign ificant inc rease in pred iction perfo rm ance. A nd it a lso ou tper fo rm ed the HMM m e thod o f TM PHMM L oc. A ll these results indicate tha t the m e thod in th is paper is pow erfu l for transm em brane pro te ins subce llu lar loca lization pred ic tion.
本文完成了下列工 作: 一是 从一 个小鼠 蛋白 质亚
细胞定 位数据 库 LOCATE ( h ttp: / / locate. mi b. up. edu. au /) 中筛选出 一个 分别 定位 于 细胞 分泌 路径 上 五种 细胞器的无冗余跨 膜蛋白 质数据 集, 通过 已有的 拓扑 预测软件和信号肽预测软件对蛋白质的跨膜区和信号 肽进行了标注; 二 是针对 跨膜蛋白 的拓扑 结构设计 了 一 个 HMM, 并将 五 个 细胞 器 的 HMM 融 合为 一 个 预 测 器, 利 用得到的 数据集Biblioteka Baidu进行 了 训练 和测 试; 三是 将 预 测结果 和其它的 一些方 法进行了 比较。