蛋白质网络
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要缺点:这种体外的方法缺乏生理环境
概率模型和数据整合
对每个相互作用,依赖一个金标准(即真 阳性相互作用和真阴性相互作用的参考集) 的定义研究它的固有可靠性,可以用来优 化计算方法对相互作用可靠预测的效率
为了提高涉及范围和精确度,整合信息的 异质资源是必要的。
相互作用的可靠性可以用一个置信度表示, 这个置信度可以联合多个资源得到(用朴 素贝叶斯方法):S 1 1 Si
尽管大规模、高通量的实验技术使得我们 的知识增加,但对蛋白质组的全局组织的 理解仍不完整。主要的障碍是由于它的复 杂性(数万个蛋白质以及它们之间的可能 的数十万种相互作用),这种理解需要分 析和解释庞大的数据集
为什么要用网络?
网络能更清楚的表示大量元素间的复杂关 系
网络这种形式可以更好的解释结构和功能 间相互影响的关系。因此进一步的研究可 以理解复杂网络中疾病的机理。
中介中心性:最短路径经过这个点(边) 的条数多的有大的中介中心性
理论上的网络模型
ER随机网络:给定n个孤立点,每次以概 率p连接两个节点,共连 n(n 1) 次。随机网
2
络是均匀网络,度分布服从Poisson分布, 聚类系数分布平行于x轴,平均路径长度 约为log(n),有小世界效应 WS小世界模型:给定一个规则网络,以一 个固定的概率随机化重连边
最新研究集中在全局网络性质(平均路径 长度、聚类系数、同配性、度分布等)。
大多数实际网络有明显的模块结构。从网 络的拓扑结构确定模块有很多方法,最广 泛应用的是基于模块最优化的划分技术, 使得网络划分成模块时,模块内部边的数 目与外部边的数目的比值最大
值得讨论的是:有多少随机图可以呈现大 的模块性;模块最优化在识别模块小于一 个尺度时是无效
2、聚类系数:网络凝聚性的度量,也是一 个节点与其邻居与派系的相似程度。
聚类系数分布C(k):度为k的所有节点 的聚类系数的平均值
3、平均路径长度:为了避免不连通的点, 采用了调和平均,而不是代数平均
最短路径长度分布 p(l)
4、其他:中心性
程度中心性:关联大量的边的点有大的 程度中心性
靠近中心性:与所有其他节点有最短路 径的节点有大的靠近中心性
从TAP获得的网络与前面的定义有所不同。 这里的边是指诱饵蛋白和其他蛋白连接,当 它们是联合纯化的。这样的方式使得在相同 的复合物中的蛋白质有边相连,而他们之间 并不一定有直接的关联作用
用于蛋白质组研究的蛋白质和肽芯片
蛋白质和肽芯片实验将靶蛋白或肽应用在 芯片上,测量同每个诱饵蛋白或肽的亲和 力,得到PIN
三、蛋白质相互作用网络(PIN)
定义PIN:节点:蛋白质;无向边:蛋白 质间的实体连接的相互作用
对于PIN的形成,两个主要的技术是:酵 母双杂交(Y2H)和串联亲和纯化策略
因为大多数实验工作和分析是集中在酵母 上的,因此我们主要集中在酵母PIN
蛋白质相互作用数据库
蛋白质相互作用数据库包括DIP、BIND、 MIPS、MINT、REACTOME,但他们之间的 重叠部分很小,因此可信度不高。
主要内容:
研究全局蛋白质的网络模型对于理解生物 体的功能很重要。这种形式使得我们用图 论、统计物理学、动力系统及其他方法研 究复杂的网络系统成为可能。因此介绍复 杂网络分析的基本概念。
区分不同网络的一些概念及对网络的分析。 主要讨论蛋白质相互作用网络(PIN)和 蛋白质信号网络(PSN)。
一、总论
无标度网络:度分布服从幂律分布,有 少数度高的节点,大部分节点的度比较 低。平均路径长度约为log(log(n)), 也具有小世界特性
等级网络:聚类系数分布服从幂律分布。 度低的节点有较高的凝聚性
几何随机网络:在有界的格子上随机的 放节点。例如:在一个环上,当两个节 点间的距离小于一个阈值时连接(最近 邻耦合网络)
但人为的使两个蛋白质在一块,会引起较 高的假阳性,因为可能两个蛋白质有不同 的定位,或不是同时表达的
因为杂交蛋白在细胞核中的集中,PTM可 能不足,导致假阴性发生
蛋白质复合物的串联亲和纯化(TAP)
与Y2H比较,TAP方法可以阐明天然蛋白质复 合物。尽管全面的TAP纯化策略还没有应用 到动物和植物的PIN上,但TAP标记对于从这 些生物体中提纯复合物的改进和质谱仪的高 灵敏度和精确性的发展为这类分析提供可能。
这些数据库里的相互作用都是基于小规 模实验得到的,集中在研究者感兴趣的 蛋白质上,而高通量实验是基于全局蛋 白质组的,因此小规模实验得到的数据 可靠性不高
酵母双杂交系统(Y2H)
检测诱饵蛋白(与Gal4转录因子的DNA结 合域融合)和靶蛋白(与Gal4的转录活性 域融合)的相互作用,他们的相互作用重 构了分离的Gal4的结合并且恢复Gal4的功 能,然后激活报告基因,通过检测报告基 因的表达产物,判断是否发生了相互作用
二、复杂网络分析的介绍
生物系统包括很多元素(基因、蛋白质、 蛋白质复合物、转录因子等)的相互作用 和相互调控,将其简化为节点集和边集。
无向网络、有向网络、加权网络、邻接矩 阵、邻居、路、环、派系(全连通)、连 通分支(无向、有向)
网络的度量:
1、节点的度(出度、入度)、度分布p(k) (联合度分布p(kin,kout ) )、网络的同配或异 配性
子图表征
模体是一个网络通过与这个网络对应的零 模型(随机图)比较得到的,可看做网络 的原子组分,提供了网络的结构和功能区 域
相同节点的所有可能的模体,有向图要比 无向图多
局部连通模式可以用来对网络分类和比较, 因此引入了度分布的一般化——子图分布 的概念。这样,当它们的子图分布相似时, 认为两个网络相似
因此得到的存在于PIN中的无标度特性不 能很可靠的预测整个PIN,更可能的是, 基于完整PIN是无标度网络,当前结果可 能得到其他的度分布
i
四、PIN的复杂网络分析
度分布 研究表明PIN度分布服从幂律,即是无标
度网络。一个讨论热点是关于真实世界数 据的度分布是幂律的解释。其中一个观点 是:真实世界的数据都是有噪音、不精确 、不完整,是从大网络中抽样得到的 为了评定幂律结果的正确性,研究表明从 无标度网络中抽样,得到的网络不是无标 度网络。
概率模型和数据整合
对每个相互作用,依赖一个金标准(即真 阳性相互作用和真阴性相互作用的参考集) 的定义研究它的固有可靠性,可以用来优 化计算方法对相互作用可靠预测的效率
为了提高涉及范围和精确度,整合信息的 异质资源是必要的。
相互作用的可靠性可以用一个置信度表示, 这个置信度可以联合多个资源得到(用朴 素贝叶斯方法):S 1 1 Si
尽管大规模、高通量的实验技术使得我们 的知识增加,但对蛋白质组的全局组织的 理解仍不完整。主要的障碍是由于它的复 杂性(数万个蛋白质以及它们之间的可能 的数十万种相互作用),这种理解需要分 析和解释庞大的数据集
为什么要用网络?
网络能更清楚的表示大量元素间的复杂关 系
网络这种形式可以更好的解释结构和功能 间相互影响的关系。因此进一步的研究可 以理解复杂网络中疾病的机理。
中介中心性:最短路径经过这个点(边) 的条数多的有大的中介中心性
理论上的网络模型
ER随机网络:给定n个孤立点,每次以概 率p连接两个节点,共连 n(n 1) 次。随机网
2
络是均匀网络,度分布服从Poisson分布, 聚类系数分布平行于x轴,平均路径长度 约为log(n),有小世界效应 WS小世界模型:给定一个规则网络,以一 个固定的概率随机化重连边
最新研究集中在全局网络性质(平均路径 长度、聚类系数、同配性、度分布等)。
大多数实际网络有明显的模块结构。从网 络的拓扑结构确定模块有很多方法,最广 泛应用的是基于模块最优化的划分技术, 使得网络划分成模块时,模块内部边的数 目与外部边的数目的比值最大
值得讨论的是:有多少随机图可以呈现大 的模块性;模块最优化在识别模块小于一 个尺度时是无效
2、聚类系数:网络凝聚性的度量,也是一 个节点与其邻居与派系的相似程度。
聚类系数分布C(k):度为k的所有节点 的聚类系数的平均值
3、平均路径长度:为了避免不连通的点, 采用了调和平均,而不是代数平均
最短路径长度分布 p(l)
4、其他:中心性
程度中心性:关联大量的边的点有大的 程度中心性
靠近中心性:与所有其他节点有最短路 径的节点有大的靠近中心性
从TAP获得的网络与前面的定义有所不同。 这里的边是指诱饵蛋白和其他蛋白连接,当 它们是联合纯化的。这样的方式使得在相同 的复合物中的蛋白质有边相连,而他们之间 并不一定有直接的关联作用
用于蛋白质组研究的蛋白质和肽芯片
蛋白质和肽芯片实验将靶蛋白或肽应用在 芯片上,测量同每个诱饵蛋白或肽的亲和 力,得到PIN
三、蛋白质相互作用网络(PIN)
定义PIN:节点:蛋白质;无向边:蛋白 质间的实体连接的相互作用
对于PIN的形成,两个主要的技术是:酵 母双杂交(Y2H)和串联亲和纯化策略
因为大多数实验工作和分析是集中在酵母 上的,因此我们主要集中在酵母PIN
蛋白质相互作用数据库
蛋白质相互作用数据库包括DIP、BIND、 MIPS、MINT、REACTOME,但他们之间的 重叠部分很小,因此可信度不高。
主要内容:
研究全局蛋白质的网络模型对于理解生物 体的功能很重要。这种形式使得我们用图 论、统计物理学、动力系统及其他方法研 究复杂的网络系统成为可能。因此介绍复 杂网络分析的基本概念。
区分不同网络的一些概念及对网络的分析。 主要讨论蛋白质相互作用网络(PIN)和 蛋白质信号网络(PSN)。
一、总论
无标度网络:度分布服从幂律分布,有 少数度高的节点,大部分节点的度比较 低。平均路径长度约为log(log(n)), 也具有小世界特性
等级网络:聚类系数分布服从幂律分布。 度低的节点有较高的凝聚性
几何随机网络:在有界的格子上随机的 放节点。例如:在一个环上,当两个节 点间的距离小于一个阈值时连接(最近 邻耦合网络)
但人为的使两个蛋白质在一块,会引起较 高的假阳性,因为可能两个蛋白质有不同 的定位,或不是同时表达的
因为杂交蛋白在细胞核中的集中,PTM可 能不足,导致假阴性发生
蛋白质复合物的串联亲和纯化(TAP)
与Y2H比较,TAP方法可以阐明天然蛋白质复 合物。尽管全面的TAP纯化策略还没有应用 到动物和植物的PIN上,但TAP标记对于从这 些生物体中提纯复合物的改进和质谱仪的高 灵敏度和精确性的发展为这类分析提供可能。
这些数据库里的相互作用都是基于小规 模实验得到的,集中在研究者感兴趣的 蛋白质上,而高通量实验是基于全局蛋 白质组的,因此小规模实验得到的数据 可靠性不高
酵母双杂交系统(Y2H)
检测诱饵蛋白(与Gal4转录因子的DNA结 合域融合)和靶蛋白(与Gal4的转录活性 域融合)的相互作用,他们的相互作用重 构了分离的Gal4的结合并且恢复Gal4的功 能,然后激活报告基因,通过检测报告基 因的表达产物,判断是否发生了相互作用
二、复杂网络分析的介绍
生物系统包括很多元素(基因、蛋白质、 蛋白质复合物、转录因子等)的相互作用 和相互调控,将其简化为节点集和边集。
无向网络、有向网络、加权网络、邻接矩 阵、邻居、路、环、派系(全连通)、连 通分支(无向、有向)
网络的度量:
1、节点的度(出度、入度)、度分布p(k) (联合度分布p(kin,kout ) )、网络的同配或异 配性
子图表征
模体是一个网络通过与这个网络对应的零 模型(随机图)比较得到的,可看做网络 的原子组分,提供了网络的结构和功能区 域
相同节点的所有可能的模体,有向图要比 无向图多
局部连通模式可以用来对网络分类和比较, 因此引入了度分布的一般化——子图分布 的概念。这样,当它们的子图分布相似时, 认为两个网络相似
因此得到的存在于PIN中的无标度特性不 能很可靠的预测整个PIN,更可能的是, 基于完整PIN是无标度网络,当前结果可 能得到其他的度分布
i
四、PIN的复杂网络分析
度分布 研究表明PIN度分布服从幂律,即是无标
度网络。一个讨论热点是关于真实世界数 据的度分布是幂律的解释。其中一个观点 是:真实世界的数据都是有噪音、不精确 、不完整,是从大网络中抽样得到的 为了评定幂律结果的正确性,研究表明从 无标度网络中抽样,得到的网络不是无标 度网络。