药物虚拟筛选方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息化引领创新药物 研发
计算机辅助药物筛选平台
赵勇
新药的研发周期漫长
疾病发生 先导化合物(2-5 年) 靶标确定
相关技术研发
临床前期(1-3 年)
临床试验(2-10 年)
配方
File IND: 申报研究性新药 File NDA:申报新药
FDA 批准 (2-3 年)
2012年生物医药研发上的投入
南韩 印度 2% 1% 中国 3% 日本 14%
案例:CXCR4 趋化因子受体
背景
Gene Symbol: CXCR4 Gene ID: 7852 Summary: 该基因编码一种CXC趋化因子受体。该蛋白位于细胞膜,有 7个跨膜区。该蛋白在乳腺癌细胞中高效表达。在AIDS感染中与CD4协 同作用支持HIV病毒进入细胞。该基因的突变和WHIM综合征(疣,低 丙种球蛋白血症、感染和粒细胞髓内破坏增加导致的粒细胞减少)相 关。
Yearly Total
40000
30000 20000 10000 0
http://www.rcsb.org/pdb/home/home.do
目前可以开展的靶标
已知蛋白质晶体结构:310个 有部分结构的蛋白质:2057个
无结构蛋白 质, 1200
有结构蛋 白质, 310 部分结构蛋 白质, 2057
系的物质,例如石油、天然气、棉花、
染料、化纤、天然和合成药物等,均和 有机化合物有密切联系。
化合物来源:人工合成
化合物的立体结构
ZINC04015296
ZINC85593878
化合物
NCBI pubchem 数据库: 4千万种小分子化合物 ZINC 数据库:2千万种小分子 天然产物:25万多种小分子 中草药:3万多种小分子
http://www.ncbi.nlm.nih.gov/gene?cmd=Retrieve&dopt=full_report&list_uids=7852
CXCR4 同源蛋白序列比对
软件:ClustalW
单核苷酸多态性(SNP)
Var Class Genomic Transcript Protein Clinical interpretation SNC g.8228C>T c.1000C>T p.Arg334Ter pathogenic
Cheng TJ, et al. (2012) The AAPS Journal, Vol. 14, No. 1
蛋白质
蛋白质多肽链
构成蛋白质的20种氨基酸
蛋白质立体结构
从基因到蛋白质
ATGGAGGAGCCGCAGTCAGAT CCTAGCGTCGAGCCCCCTCTG AGTCAGGAAACATTTTCAGAC CTATGGAAACTACTT......
软件:PyMOL
药物靶点
生成蛋白质结构.pdbqt 格式文件和相关Gridbox 配置文件
软件:AutoDockTools
虚拟筛选
.pdb, .mol2, .sdf, ... protein.pdb
准备小分子数据库
.pdbqt
准备蛋白质结构文件
.pdbqt
参数设置和对接
打分
虚拟筛选
www.vslead.com
MolecularId ZINC67902910 ZINC67902490 ZINC02149310 ZINC02149270 ZINC02095205 ZINC12902247 ZINC02094270 ZINC02090775 ZINC15675926 ZINC15675922 ZINC09034117 ZINC12274462 ZINC12896008 ZINC01819606 ZINC12898980 ZINC12899148 ZINC15675924 ZINC04086242 ZINC08296198 ZINC70707091 ZINC12529896 ZINC01900625 ZINC02094680 ZINC06623684 ZINC08876863 ZINC15675920 ZINC15675934 ZINC67912117 ZINC70706689 ZINC08790365 ZINC09034075 ZINC12529886 ZINC67912122 ZINC70707328 ZINC79190697 ZINC85491821 ZINC85511003
SNC
g.8241C>G
c.1013C>G
p.Ser338Ter
pathogenic
SNC
g.8255G>T
c.1027G>T
p.Glu343Ter
pathogenic
蛋白质结构
PDB 数据库
软件:PyMOL
PDB ID: 3ODU
药物靶标口袋
软件:PyMOL & PocketPicker
药物靶标口袋
727
351
260 193 164
401
405
200
181 114
181 174 54 96 24 7 5 53 30
102 89
148
57
6
34
14
32
10
6
16
0
http://dgidb.genome.wustl.edu/
蛋白质结构数据库
100000
90000
80000 70000 60000 50000
http://www.genengnews.com/
第一三共株式会社(日本)
新药研发成本高昂
小分子化学药 生物药
1993年以来美国FDA每年批准的新药
过去4年,研发成功一种新药的成本是13亿美元。研发周期10-12年。
2013年自然.药物子刊
药物研究仍然是科技领域中耗时最长的研 究之一。在花费和产出之间寻找到一个合 理的平衡始终是医药产业所面临的最大的 挑战之一。 ——FierceBiotech主编John Carroll
澳洲 2%
美国 45%
欧洲 31% 加拿大 2%
(N Engl J Med. 2014, 370(1):3-6.)
2013年在生物制药领域研发投入最大的二十家药企
排名 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 罗氏 诺华 强生 默沙东 辉瑞 赛诺菲 葛兰素史克 礼来 阿斯利康 安进 百时美施贵宝 武田制药 雅培 拜耳 赛尔基因 诺和诺德 吉利德科学 阿斯特拉 默克 公司 (瑞士) (瑞士) (美国) (美国默克) (美国) (法国) (英国) (美国) (英国) (美国) (美国) (日本) (美国) (德国) (美国) (丹麦) (美国) (瑞典) (德国) 2013(亿美元) 99.1 98.52 81.83 75.03 66.78 66.08 65.18 55.31 48.21 39.28 37.31 31.48 28.55 22.91 22.26 21.78 21.2 17.77 17.71 16.44 2012(亿美元) 96.54 93.32 76.65 81.68 74.82 68.18 66.11 52.78 52.43 32.96 39.04 27.37 27.78 21.62 17.24 20.23 17.6 17.96 18.46 16.38
• 体外活性测试(大量测试) • 命中率:0.01-0.001% 假阴性较高 • 需要先有大量化合物
虚拟筛选:
• 计算机模拟分析 • 命中率:2-24% • 需要有限化合物测试
+
虚拟筛选为当前新药研发的常规步骤,是高通量筛选的有效补充。[1-2]
1、Maggio, E. T. and Ramnarayan, K. (2001). Drug Disc. Today 6, 996-1004. 2、Cheng T1, et al. (2012) AAPS J. 2012 Mar;14(1):133-41.
图像处理应用软件
可视化与量化的生物信息
数据分析和管理系统
细胞生长、细胞毒性、细胞形态学、信号传导通路的全面认识
门槛高:资金密集型
计算机技术高速发展带来药物开发新革命
美国3科学家摘2013化学诺奖:用计算机模拟化学实验
哈佛大学教授马丁·卡 普拉斯
斯坦福大学教授迈克 尔·莱维特
南加州大学教授阿里 耶·瓦谢勒
可模拟结构 蛋白质, 2513
先导化合物研发的方法
实验筛选
使用生物物理、生物化学等方法鉴别小分子和蛋 白质的相互作用,从而筛选出对蛋白质功能有调 节作用的先导化合物。
虚拟筛选
使用计算机模拟技术作为基础,筛选可能与蛋白 质结合的小分子化合物,然后进行实验验证。
高通量筛选 vs 虚拟筛选
高通量筛选:
实验筛选:高通量筛选
微孔板
工作站
分液器
机械手
荧光光度计 机器人
实验筛选:高内涵筛选
生物信息:选择靶点、相关作用机制及待测样品 2500元人民币/化合物 X10万化合物=2.5亿 较高假阴性 设计检测或筛选方法
荧光显微系统 自动化荧光图像获取系统 检测仪器
样品制备:细胞培养、化合物及相关试剂处理
从单个细胞或群体细胞获得终点或动态检测的荧光信号
MEEPQSDPSVEPPLSQETF SDLWKLLPENNVL……
DNA / 氨基酸
序列
蛋白质三维结构
蛋白质功能
DNA (基因) →→→ RNA前体 →→→ RNA →→→ 蛋白质
蛋白质和疾病
药物靶标蛋白
1400 1195 1200 1000 899 821 800 634 600 464 400 390
获奖的瓦谢勒教授在采访中表示,自己的工作“就像打开一个
表,看看里面是怎么运作的一样。我们发展出一个需要电脑的方法,来 看看蛋白质的结构,了解它的运作机制,比如酶是怎么消化食物的。你 可以用它来设计药物,满足你们的好奇心。”
卡普拉斯和另外两位诺奖得主,主要运用的方法是基于 牛顿经典力学原理,他们所做的分子动力学模拟,可以用在 很多大的体系如蛋白质折叠、酶催化反应等方面。计算机模 拟广泛运用在今天的化学领域,已经带来很大价值,特别是
药物的研发流程
研究的主体
• • • • 化合物 蛋白质 DNA RNA
化合物来源:天然产物
有机化合物主要由氢元素、碳元素组 成,含碳的化合物,但是不包括一氧化 碳、二氧化碳和以碳酸根结尾的物质。 有机物是生命产生的物质基础,所有的 生命体都含有机化合物。脂肪、氨基 酸、蛋白质、糖、血红素、叶绿素、 酶、激素等。生物体内的新陈代谢和生 物的遗传现象,都涉及到有机化合物的 转变。此外,许多与人类生活有密切关
在做蛋白质等大分子领域,令其不再受限于实验,计算机在
蛋白质研究、制药、生物研究上有着很大的影响,比如,要 寻找某种药物,可以通过计算的方法,寻找药物靶点,以及
可能的药物干扰等,已用得非常普遍。
虚拟筛选
途径和方法:
2D、3D定量构效关系 小分子数据库 药效团 结构比对 分子对接 打分结果评判 挑选命中化合物 生物实验验证 先导化合物优化 ADMET分析 全新化合物设计 蛋白质结构分析 文献调研
药物研发思路的发展
筛选阶段(上个世纪80年代以前):
--偶然发现(如青霉素) --筛选(先导化合物发现率8万分之一)(如磺胺药)
设计阶段(上个世纪80年代以后):
发现药物通过抑制特定蛋白质功能起作用(如杀虫剂)
计算机辅助药物筛选和设计阶段(本世纪初):
--实验筛选:高通量筛选 --虚拟筛选:基于结构的药物筛选,在原子层面上分析蛋白质和小分 子化合物的相互作用,进而指导药物研发。 --化合物设计:基于蛋白质和化合物相互作用的模型进行药物设计。
途径和方法:
蛋白质结构分析
2D、3D定量构效关系 药效团
小分子数据库
分子对接 结构比对 打分结果评判
全新化合物设计
先导化合物优化
计算机辅助药物筛选平台
生物信息分析模块 基于受体的虚拟筛 选模块 基于配体的虚拟筛 选模块
蛋白质结构 分析软件 分子对接软 件 药效团软件 QSAR软件 分子动力学 模拟软件
蛋白质结构分析
分子动力学模拟模 块
2D、3D定量构效关系 药效
小分子数据库
团
结构比对
分子对接
全新化合物设计
打分结果评判
先导化合物优化
虚拟筛选
1. 基于小分子结构的筛选(药效团)
2. 基于药物作用机理的筛选(分子对接) +
酶-蛋白质 底物-小分子 酶和底物结合
锁-钥原理
虚拟筛选
3. 根据蛋白质结构进行全新药物设计(De Novo化合物设计)
1、选择数据库 2、上传蛋白质结构 3、上传配置文件 4、设定对接结果返回数 5、提交订单
虚拟筛选结果评估
ZINC19202247
虚拟筛选结果评估
ZINC19202247
虚拟筛选结果评估
ZINC19202247
虚拟筛选结果评估
ZINC19202ຫໍສະໝຸດ Baidu47
affinity(kcal/mol) -12.6 -12.6 -12.6 -12.5 -13 -13 -12.7 -12.4 -12.8 -12.7 -12.5 -12.5 -12.5 -12.4 -13.1 -13 -12.9 -12.8 -12.8 -12.8 -12.7 -12.6 -12.6 -12.6 -12.6 -12.6 -12.5 -12.5 -12.5 -12.4 -12.4 -12.4 -12.4 -12.4 -12.4 -12.4 -12.4
计算机辅助药物筛选平台
赵勇
新药的研发周期漫长
疾病发生 先导化合物(2-5 年) 靶标确定
相关技术研发
临床前期(1-3 年)
临床试验(2-10 年)
配方
File IND: 申报研究性新药 File NDA:申报新药
FDA 批准 (2-3 年)
2012年生物医药研发上的投入
南韩 印度 2% 1% 中国 3% 日本 14%
案例:CXCR4 趋化因子受体
背景
Gene Symbol: CXCR4 Gene ID: 7852 Summary: 该基因编码一种CXC趋化因子受体。该蛋白位于细胞膜,有 7个跨膜区。该蛋白在乳腺癌细胞中高效表达。在AIDS感染中与CD4协 同作用支持HIV病毒进入细胞。该基因的突变和WHIM综合征(疣,低 丙种球蛋白血症、感染和粒细胞髓内破坏增加导致的粒细胞减少)相 关。
Yearly Total
40000
30000 20000 10000 0
http://www.rcsb.org/pdb/home/home.do
目前可以开展的靶标
已知蛋白质晶体结构:310个 有部分结构的蛋白质:2057个
无结构蛋白 质, 1200
有结构蛋 白质, 310 部分结构蛋 白质, 2057
系的物质,例如石油、天然气、棉花、
染料、化纤、天然和合成药物等,均和 有机化合物有密切联系。
化合物来源:人工合成
化合物的立体结构
ZINC04015296
ZINC85593878
化合物
NCBI pubchem 数据库: 4千万种小分子化合物 ZINC 数据库:2千万种小分子 天然产物:25万多种小分子 中草药:3万多种小分子
http://www.ncbi.nlm.nih.gov/gene?cmd=Retrieve&dopt=full_report&list_uids=7852
CXCR4 同源蛋白序列比对
软件:ClustalW
单核苷酸多态性(SNP)
Var Class Genomic Transcript Protein Clinical interpretation SNC g.8228C>T c.1000C>T p.Arg334Ter pathogenic
Cheng TJ, et al. (2012) The AAPS Journal, Vol. 14, No. 1
蛋白质
蛋白质多肽链
构成蛋白质的20种氨基酸
蛋白质立体结构
从基因到蛋白质
ATGGAGGAGCCGCAGTCAGAT CCTAGCGTCGAGCCCCCTCTG AGTCAGGAAACATTTTCAGAC CTATGGAAACTACTT......
软件:PyMOL
药物靶点
生成蛋白质结构.pdbqt 格式文件和相关Gridbox 配置文件
软件:AutoDockTools
虚拟筛选
.pdb, .mol2, .sdf, ... protein.pdb
准备小分子数据库
.pdbqt
准备蛋白质结构文件
.pdbqt
参数设置和对接
打分
虚拟筛选
www.vslead.com
MolecularId ZINC67902910 ZINC67902490 ZINC02149310 ZINC02149270 ZINC02095205 ZINC12902247 ZINC02094270 ZINC02090775 ZINC15675926 ZINC15675922 ZINC09034117 ZINC12274462 ZINC12896008 ZINC01819606 ZINC12898980 ZINC12899148 ZINC15675924 ZINC04086242 ZINC08296198 ZINC70707091 ZINC12529896 ZINC01900625 ZINC02094680 ZINC06623684 ZINC08876863 ZINC15675920 ZINC15675934 ZINC67912117 ZINC70706689 ZINC08790365 ZINC09034075 ZINC12529886 ZINC67912122 ZINC70707328 ZINC79190697 ZINC85491821 ZINC85511003
SNC
g.8241C>G
c.1013C>G
p.Ser338Ter
pathogenic
SNC
g.8255G>T
c.1027G>T
p.Glu343Ter
pathogenic
蛋白质结构
PDB 数据库
软件:PyMOL
PDB ID: 3ODU
药物靶标口袋
软件:PyMOL & PocketPicker
药物靶标口袋
727
351
260 193 164
401
405
200
181 114
181 174 54 96 24 7 5 53 30
102 89
148
57
6
34
14
32
10
6
16
0
http://dgidb.genome.wustl.edu/
蛋白质结构数据库
100000
90000
80000 70000 60000 50000
http://www.genengnews.com/
第一三共株式会社(日本)
新药研发成本高昂
小分子化学药 生物药
1993年以来美国FDA每年批准的新药
过去4年,研发成功一种新药的成本是13亿美元。研发周期10-12年。
2013年自然.药物子刊
药物研究仍然是科技领域中耗时最长的研 究之一。在花费和产出之间寻找到一个合 理的平衡始终是医药产业所面临的最大的 挑战之一。 ——FierceBiotech主编John Carroll
澳洲 2%
美国 45%
欧洲 31% 加拿大 2%
(N Engl J Med. 2014, 370(1):3-6.)
2013年在生物制药领域研发投入最大的二十家药企
排名 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 罗氏 诺华 强生 默沙东 辉瑞 赛诺菲 葛兰素史克 礼来 阿斯利康 安进 百时美施贵宝 武田制药 雅培 拜耳 赛尔基因 诺和诺德 吉利德科学 阿斯特拉 默克 公司 (瑞士) (瑞士) (美国) (美国默克) (美国) (法国) (英国) (美国) (英国) (美国) (美国) (日本) (美国) (德国) (美国) (丹麦) (美国) (瑞典) (德国) 2013(亿美元) 99.1 98.52 81.83 75.03 66.78 66.08 65.18 55.31 48.21 39.28 37.31 31.48 28.55 22.91 22.26 21.78 21.2 17.77 17.71 16.44 2012(亿美元) 96.54 93.32 76.65 81.68 74.82 68.18 66.11 52.78 52.43 32.96 39.04 27.37 27.78 21.62 17.24 20.23 17.6 17.96 18.46 16.38
• 体外活性测试(大量测试) • 命中率:0.01-0.001% 假阴性较高 • 需要先有大量化合物
虚拟筛选:
• 计算机模拟分析 • 命中率:2-24% • 需要有限化合物测试
+
虚拟筛选为当前新药研发的常规步骤,是高通量筛选的有效补充。[1-2]
1、Maggio, E. T. and Ramnarayan, K. (2001). Drug Disc. Today 6, 996-1004. 2、Cheng T1, et al. (2012) AAPS J. 2012 Mar;14(1):133-41.
图像处理应用软件
可视化与量化的生物信息
数据分析和管理系统
细胞生长、细胞毒性、细胞形态学、信号传导通路的全面认识
门槛高:资金密集型
计算机技术高速发展带来药物开发新革命
美国3科学家摘2013化学诺奖:用计算机模拟化学实验
哈佛大学教授马丁·卡 普拉斯
斯坦福大学教授迈克 尔·莱维特
南加州大学教授阿里 耶·瓦谢勒
可模拟结构 蛋白质, 2513
先导化合物研发的方法
实验筛选
使用生物物理、生物化学等方法鉴别小分子和蛋 白质的相互作用,从而筛选出对蛋白质功能有调 节作用的先导化合物。
虚拟筛选
使用计算机模拟技术作为基础,筛选可能与蛋白 质结合的小分子化合物,然后进行实验验证。
高通量筛选 vs 虚拟筛选
高通量筛选:
实验筛选:高通量筛选
微孔板
工作站
分液器
机械手
荧光光度计 机器人
实验筛选:高内涵筛选
生物信息:选择靶点、相关作用机制及待测样品 2500元人民币/化合物 X10万化合物=2.5亿 较高假阴性 设计检测或筛选方法
荧光显微系统 自动化荧光图像获取系统 检测仪器
样品制备:细胞培养、化合物及相关试剂处理
从单个细胞或群体细胞获得终点或动态检测的荧光信号
MEEPQSDPSVEPPLSQETF SDLWKLLPENNVL……
DNA / 氨基酸
序列
蛋白质三维结构
蛋白质功能
DNA (基因) →→→ RNA前体 →→→ RNA →→→ 蛋白质
蛋白质和疾病
药物靶标蛋白
1400 1195 1200 1000 899 821 800 634 600 464 400 390
获奖的瓦谢勒教授在采访中表示,自己的工作“就像打开一个
表,看看里面是怎么运作的一样。我们发展出一个需要电脑的方法,来 看看蛋白质的结构,了解它的运作机制,比如酶是怎么消化食物的。你 可以用它来设计药物,满足你们的好奇心。”
卡普拉斯和另外两位诺奖得主,主要运用的方法是基于 牛顿经典力学原理,他们所做的分子动力学模拟,可以用在 很多大的体系如蛋白质折叠、酶催化反应等方面。计算机模 拟广泛运用在今天的化学领域,已经带来很大价值,特别是
药物的研发流程
研究的主体
• • • • 化合物 蛋白质 DNA RNA
化合物来源:天然产物
有机化合物主要由氢元素、碳元素组 成,含碳的化合物,但是不包括一氧化 碳、二氧化碳和以碳酸根结尾的物质。 有机物是生命产生的物质基础,所有的 生命体都含有机化合物。脂肪、氨基 酸、蛋白质、糖、血红素、叶绿素、 酶、激素等。生物体内的新陈代谢和生 物的遗传现象,都涉及到有机化合物的 转变。此外,许多与人类生活有密切关
在做蛋白质等大分子领域,令其不再受限于实验,计算机在
蛋白质研究、制药、生物研究上有着很大的影响,比如,要 寻找某种药物,可以通过计算的方法,寻找药物靶点,以及
可能的药物干扰等,已用得非常普遍。
虚拟筛选
途径和方法:
2D、3D定量构效关系 小分子数据库 药效团 结构比对 分子对接 打分结果评判 挑选命中化合物 生物实验验证 先导化合物优化 ADMET分析 全新化合物设计 蛋白质结构分析 文献调研
药物研发思路的发展
筛选阶段(上个世纪80年代以前):
--偶然发现(如青霉素) --筛选(先导化合物发现率8万分之一)(如磺胺药)
设计阶段(上个世纪80年代以后):
发现药物通过抑制特定蛋白质功能起作用(如杀虫剂)
计算机辅助药物筛选和设计阶段(本世纪初):
--实验筛选:高通量筛选 --虚拟筛选:基于结构的药物筛选,在原子层面上分析蛋白质和小分 子化合物的相互作用,进而指导药物研发。 --化合物设计:基于蛋白质和化合物相互作用的模型进行药物设计。
途径和方法:
蛋白质结构分析
2D、3D定量构效关系 药效团
小分子数据库
分子对接 结构比对 打分结果评判
全新化合物设计
先导化合物优化
计算机辅助药物筛选平台
生物信息分析模块 基于受体的虚拟筛 选模块 基于配体的虚拟筛 选模块
蛋白质结构 分析软件 分子对接软 件 药效团软件 QSAR软件 分子动力学 模拟软件
蛋白质结构分析
分子动力学模拟模 块
2D、3D定量构效关系 药效
小分子数据库
团
结构比对
分子对接
全新化合物设计
打分结果评判
先导化合物优化
虚拟筛选
1. 基于小分子结构的筛选(药效团)
2. 基于药物作用机理的筛选(分子对接) +
酶-蛋白质 底物-小分子 酶和底物结合
锁-钥原理
虚拟筛选
3. 根据蛋白质结构进行全新药物设计(De Novo化合物设计)
1、选择数据库 2、上传蛋白质结构 3、上传配置文件 4、设定对接结果返回数 5、提交订单
虚拟筛选结果评估
ZINC19202247
虚拟筛选结果评估
ZINC19202247
虚拟筛选结果评估
ZINC19202247
虚拟筛选结果评估
ZINC19202ຫໍສະໝຸດ Baidu47
affinity(kcal/mol) -12.6 -12.6 -12.6 -12.5 -13 -13 -12.7 -12.4 -12.8 -12.7 -12.5 -12.5 -12.5 -12.4 -13.1 -13 -12.9 -12.8 -12.8 -12.8 -12.7 -12.6 -12.6 -12.6 -12.6 -12.6 -12.5 -12.5 -12.5 -12.4 -12.4 -12.4 -12.4 -12.4 -12.4 -12.4 -12.4