一种有效扩大蛋白质同源建模尺度方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
建模 的基本 理论依 据 是 : 具 有 共 同祖 先 的 同源 蛋 白有 着 相 似 的 三 维 结 构 , 蛋 白质 之 间 的序 列 一致 性 ( S I D, s e q u e n c e i d e n t i t y ) 越 高意 味 着 它们 的结 构 越相 似 。研 究 表 明 , 目标 蛋 白质 与模 板 蛋 白质 之 间 的
析。主成分能反映结构演化 的最主要方 向, 因此能在降低空间的维度 的同时 , 尽可能丢失很少 的信息 , 保 留较 高 的精 度 。 由此 方法 得 到 的取样 空 间 , 是一个 能描 述保 守 区域 的结构 演化 信息 的低 维取样 空 间。 然而 , 标准 P C A只能处理在多序列 比对后蛋 白质链 中不含空位的“ 保守 ” 区域 , 其余 的部分则依赖于 l o o p 结构建模 ¨ 引, 建模难度大大增加。在多结构 比对 中, 有些区域虽然包含空位 , 但是这部分蛋 白质结
河北科技师范学院学报
第2 7卷 第 3期 , 2 0 1 3年 9月
J o u na r l o f He b e i N o r ma l Un i v e r s i t y o f S c i e n c e& T e e h n o l o  ̄ Vo 1 . 2 7 N o . 3 S e p t e mb e r .2 0 1 3
关键词 :同源建模 ; 最近邻算法 ; 缺失值 ; 主成分分析 中图分类号 :Q 6 文献标 志码 : A 文章编号 :1 6 7 2  ̄9 8 3 ( 2 0 1 3 ) 0 3 - 0 0 5 0 - 0 6
同源建模是蛋 白质结构研究 的一种重要的方法 , 广泛应用于生物信息学 、 医学、 药物学等领域¨ 。 包 括药 物设计 、 分 子置换 、 蛋 白质功 能 的确定 等一 系列蛋 白质研 究都 基 于准 确 的蛋 白质模 型 。 。 。 同源
间。与标准的主成 分分析相 比 , 该方法能利用更多 的演化信息 , 涵盖更多 的具 有遗传信息的 区域 , 构造更大尺 度的蛋 白质取样空间 。取样空 间的精度 用 目标蛋 白质 结构与其在取 样空 间上的投影 的均方根偏 差评价 。将 该方法应用于 3 3个蛋 白质超 家族 , 结果 表 明 , 扩 大后 的取样 空间精 度达 到测定 蛋 白质结 构 的 X - r a y实 验精 度, 满足后续 的蛋白质结 构研究 。
是 一个 非参数 的方 法 , 由于其算 法 具有 高效 和稳定 的特 性 , 被 广泛 应用 于各 种 连续 或离散 的缺 失值 填充 研究 , 例 如肿瘤 数 据 的特 征 值 缺 失 填 充 ¨ 。K N N算 法 根 据研 究 对 象 的 不 同 , 可 以选 择 合 适 的距 离 函 数, 例 如欧 氏距离 、 闵 氏距 离 , 或者 其它 自定 义 的距离 , 用 以模 拟 不 同 的特 性 。 在本 研究 中 , 三维 结构 相
S I D较 低时 , 能有 效 优化 蛋 白质结 构 的技术 。
对蛋 白质结构的优wenku.baidu.com十分困难。 目前许 多同源建模 的优化方法并不能提高模型的精度¨ 引 。大多
数 技术 , 如分子 动 力学 、 蒙特 卡 洛 , 遇到 的一个 难点 是取 样 空 问的 自由度 过 高 , 从 而难 以找 到最 优 结构 。 不久 前 Q i a n等 ¨ ¨ 尝试 利用 主 成 分 分 析 ( P C A, p r i n c i p a l c o mp o n e n t a n a l y s i s ) 方 法 降 低 空 间 的维 度 , 用 降 维后 的取 样子 空 间来 解 决这 一 问题 。他们 将 同源家 族 中的蛋 白质 结构 进 行 比对 , 得 到 了结 构 的演 化信 息 。 同一个超 家族 中的蛋 白质 结构 在进 化上 是相 似的 , 因此可 以用 P C A对 比对 后 的蛋 白质结 构进 行分
构仍然具有很高的相似性 , 包含一定的演化信息。在通常的保守区结构建模 中, 这部分会被直接扔掉 , 不予考虑。笔者认为 : 如果将这些空位看作缺失值 , 并填上合适的值 , 就可 以充分利用这部分演化信息, 扩大同源建模研究 的氨基 酸链 长度。为此, 笔者利用 以距离作 为权 重 的最近 邻算法 ( K N N, k - n e a r e s t n e i g h b o r ) l l “ J , 对同源建模中的缺失值进行多重填充 , 以期最终获得一个 更大尺度 的取样空间。K N N
摘要 : 采用最邻近算 法对 同源建模 中的缺失值进行填充 , 由此扩大传统 同源建模方 法的研究尺度 。在序 列结 构 比对中 , 氨基酸 的插入 ( 删除 ) 会 引起数 据缺失 , 传 统 的同源建模 法不 能处 理这 部分 结构 。结合 最邻 近算
法、 期望值最大化方 法和主成分分析 , 抽取蛋 白质结构 演化 的主要信 息 , 构建 蛋 白质保 守结构 的低维取样 空
S I D比较高时 , 采用同源建模方法可以构建一个精度较好 的模型。然 而, 当S I D低 于 4 0 %时 , 由于亲缘 关系较远 , 蛋 白质结构的均方根偏差通常大于 0 . 2 n m, 模型的精度不够满 意 J 。而在研究 中序列一致
性较 低 的情况 常常 发生 。事 实上 , 大 约有 一半 以上 的 目标 序列 的 S I D是 小 于 3 0 %的- 1 j 。这表 明亟 需在
D OI : 1 0. 3 9 6 9 / J . I S S N. 1 6 7 2 - 7 9 8 3 . 2 0 1 3 . 0 3 . 0 1 0
一
种 有 效 扩 大 蛋 白质 同 源 建 模 尺 度 方 法
韩榕生 , 吴 国庆 , 张美玲
( 1华 北电力大学数理学 院 , 北京, 1 0 2 2 0 6 ; 2天津医科大学基础 医学 院)
析。主成分能反映结构演化 的最主要方 向, 因此能在降低空间的维度 的同时 , 尽可能丢失很少 的信息 , 保 留较 高 的精 度 。 由此 方法 得 到 的取样 空 间 , 是一个 能描 述保 守 区域 的结构 演化 信息 的低 维取样 空 间。 然而 , 标准 P C A只能处理在多序列 比对后蛋 白质链 中不含空位的“ 保守 ” 区域 , 其余 的部分则依赖于 l o o p 结构建模 ¨ 引, 建模难度大大增加。在多结构 比对 中, 有些区域虽然包含空位 , 但是这部分蛋 白质结
河北科技师范学院学报
第2 7卷 第 3期 , 2 0 1 3年 9月
J o u na r l o f He b e i N o r ma l Un i v e r s i t y o f S c i e n c e& T e e h n o l o  ̄ Vo 1 . 2 7 N o . 3 S e p t e mb e r .2 0 1 3
关键词 :同源建模 ; 最近邻算法 ; 缺失值 ; 主成分分析 中图分类号 :Q 6 文献标 志码 : A 文章编号 :1 6 7 2  ̄9 8 3 ( 2 0 1 3 ) 0 3 - 0 0 5 0 - 0 6
同源建模是蛋 白质结构研究 的一种重要的方法 , 广泛应用于生物信息学 、 医学、 药物学等领域¨ 。 包 括药 物设计 、 分 子置换 、 蛋 白质功 能 的确定 等一 系列蛋 白质研 究都 基 于准 确 的蛋 白质模 型 。 。 。 同源
间。与标准的主成 分分析相 比 , 该方法能利用更多 的演化信息 , 涵盖更多 的具 有遗传信息的 区域 , 构造更大尺 度的蛋 白质取样空间 。取样空 间的精度 用 目标蛋 白质 结构与其在取 样空 间上的投影 的均方根偏 差评价 。将 该方法应用于 3 3个蛋 白质超 家族 , 结果 表 明 , 扩 大后 的取样 空间精 度达 到测定 蛋 白质结 构 的 X - r a y实 验精 度, 满足后续 的蛋白质结 构研究 。
是 一个 非参数 的方 法 , 由于其算 法 具有 高效 和稳定 的特 性 , 被 广泛 应用 于各 种 连续 或离散 的缺 失值 填充 研究 , 例 如肿瘤 数 据 的特 征 值 缺 失 填 充 ¨ 。K N N算 法 根 据研 究 对 象 的 不 同 , 可 以选 择 合 适 的距 离 函 数, 例 如欧 氏距离 、 闵 氏距 离 , 或者 其它 自定 义 的距离 , 用 以模 拟 不 同 的特 性 。 在本 研究 中 , 三维 结构 相
S I D较 低时 , 能有 效 优化 蛋 白质结 构 的技术 。
对蛋 白质结构的优wenku.baidu.com十分困难。 目前许 多同源建模 的优化方法并不能提高模型的精度¨ 引 。大多
数 技术 , 如分子 动 力学 、 蒙特 卡 洛 , 遇到 的一个 难点 是取 样 空 问的 自由度 过 高 , 从 而难 以找 到最 优 结构 。 不久 前 Q i a n等 ¨ ¨ 尝试 利用 主 成 分 分 析 ( P C A, p r i n c i p a l c o mp o n e n t a n a l y s i s ) 方 法 降 低 空 间 的维 度 , 用 降 维后 的取 样子 空 间来 解 决这 一 问题 。他们 将 同源家 族 中的蛋 白质 结构 进 行 比对 , 得 到 了结 构 的演 化信 息 。 同一个超 家族 中的蛋 白质 结构 在进 化上 是相 似的 , 因此可 以用 P C A对 比对 后 的蛋 白质结 构进 行分
构仍然具有很高的相似性 , 包含一定的演化信息。在通常的保守区结构建模 中, 这部分会被直接扔掉 , 不予考虑。笔者认为 : 如果将这些空位看作缺失值 , 并填上合适的值 , 就可 以充分利用这部分演化信息, 扩大同源建模研究 的氨基 酸链 长度。为此, 笔者利用 以距离作 为权 重 的最近 邻算法 ( K N N, k - n e a r e s t n e i g h b o r ) l l “ J , 对同源建模中的缺失值进行多重填充 , 以期最终获得一个 更大尺度 的取样空间。K N N
摘要 : 采用最邻近算 法对 同源建模 中的缺失值进行填充 , 由此扩大传统 同源建模方 法的研究尺度 。在序 列结 构 比对中 , 氨基酸 的插入 ( 删除 ) 会 引起数 据缺失 , 传 统 的同源建模 法不 能处 理这 部分 结构 。结合 最邻 近算
法、 期望值最大化方 法和主成分分析 , 抽取蛋 白质结构 演化 的主要信 息 , 构建 蛋 白质保 守结构 的低维取样 空
S I D比较高时 , 采用同源建模方法可以构建一个精度较好 的模型。然 而, 当S I D低 于 4 0 %时 , 由于亲缘 关系较远 , 蛋 白质结构的均方根偏差通常大于 0 . 2 n m, 模型的精度不够满 意 J 。而在研究 中序列一致
性较 低 的情况 常常 发生 。事 实上 , 大 约有 一半 以上 的 目标 序列 的 S I D是 小 于 3 0 %的- 1 j 。这表 明亟 需在
D OI : 1 0. 3 9 6 9 / J . I S S N. 1 6 7 2 - 7 9 8 3 . 2 0 1 3 . 0 3 . 0 1 0
一
种 有 效 扩 大 蛋 白质 同 源 建 模 尺 度 方 法
韩榕生 , 吴 国庆 , 张美玲
( 1华 北电力大学数理学 院 , 北京, 1 0 2 2 0 6 ; 2天津医科大学基础 医学 院)