蛋白质网络
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
但人为的使两个蛋白质在一块,会引起较 高的假阳性,因为可能两个蛋白质有不同 的定位,或不是同时表达的
因为杂交蛋白在细胞核中的集中,PTM可 能不足,导致假阴性发生
蛋白质复合物的串联亲和纯化(TAP)
与Y2H比较,TAP方法可以阐明天然蛋白质复 合物。尽管全面的TAP纯化策略还没有应用 到动物和植物的PIຫໍສະໝຸດ Baidu上,但TAP标记对于从这 些生物体中提纯复合物的改进和质谱仪的高 灵敏度和精确性的发展为这类分析提供可能。
主要缺点:这种体外的方法缺乏生理环境
概率模型和数据整合
对每个相互作用,依赖一个金标准(即真 阳性相互作用和真阴性相互作用的参考集) 的定义研究它的固有可靠性,可以用来优 化计算方法对相互作用可靠预测的效率
为了提高涉及范围和精确度,整合信息的 异质资源是必要的。
相互作用的可靠性可以用一个置信度表示, 这个置信度可以联合多个资源得到(用朴 素贝叶斯方法):S 1 1 Si
子图表征
模体是一个网络通过与这个网络对应的零 模型(随机图)比较得到的,可看做网络 的原子组分,提供了网络的结构和功能区 域
相同节点的所有可能的模体,有向图要比 无向图多
局部连通模式可以用来对网络分类和比较, 因此引入了度分布的一般化——子图分布 的概念。这样,当它们的子图分布相似时, 认为两个网络相似
三、蛋白质相互作用网络(PIN)
定义PIN:节点:蛋白质;无向边:蛋白 质间的实体连接的相互作用
对于PIN的形成,两个主要的技术是:酵 母双杂交(Y2H)和串联亲和纯化策略
因为大多数实验工作和分析是集中在酵母 上的,因此我们主要集中在酵母PIN
蛋白质相互作用数据库
蛋白质相互作用数据库包括DIP、BIND、 MIPS、MINT、REACTOME,但他们之间的 重叠部分很小,因此可信度不高。
中介中心性:最短路径经过这个点(边) 的条数多的有大的中介中心性
理论上的网络模型
ER随机网络:给定n个孤立点,每次以概 率p连接两个节点,共连 n(n 1) 次。随机网
2
络是均匀网络,度分布服从Poisson分布, 聚类系数分布平行于x轴,平均路径长度 约为log(n),有小世界效应 WS小世界模型:给定一个规则网络,以一 个固定的概率随机化重连边
无标度网络:度分布服从幂律分布,有 少数度高的节点,大部分节点的度比较 低。平均路径长度约为log(log(n)), 也具有小世界特性
等级网络:聚类系数分布服从幂律分布。 度低的节点有较高的凝聚性
几何随机网络:在有界的格子上随机的 放节点。例如:在一个环上,当两个节 点间的距离小于一个阈值时连接(最近 邻耦合网络)
最新研究集中在全局网络性质(平均路径 长度、聚类系数、同配性、度分布等)。
大多数实际网络有明显的模块结构。从网 络的拓扑结构确定模块有很多方法,最广 泛应用的是基于模块最优化的划分技术, 使得网络划分成模块时,模块内部边的数 目与外部边的数目的比值最大
值得讨论的是:有多少随机图可以呈现大 的模块性;模块最优化在识别模块小于一 个尺度时是无效
二、复杂网络分析的介绍
生物系统包括很多元素(基因、蛋白质、 蛋白质复合物、转录因子等)的相互作用 和相互调控,将其简化为节点集和边集。
无向网络、有向网络、加权网络、邻接矩 阵、邻居、路、环、派系(全连通)、连 通分支(无向、有向)
网络的度量:
1、节点的度(出度、入度)、度分布p(k) (联合度分布p(kin,kout ) )、网络的同配或异 配性
i
四、PIN的复杂网络分析
度分布 研究表明PIN度分布服从幂律,即是无标
度网络。一个讨论热点是关于真实世界数 据的度分布是幂律的解释。其中一个观点 是:真实世界的数据都是有噪音、不精确 、不完整,是从大网络中抽样得到的 为了评定幂律结果的正确性,研究表明从 无标度网络中抽样,得到的网络不是无标 度网络。
这些数据库里的相互作用都是基于小规 模实验得到的,集中在研究者感兴趣的 蛋白质上,而高通量实验是基于全局蛋 白质组的,因此小规模实验得到的数据 可靠性不高
酵母双杂交系统(Y2H)
检测诱饵蛋白(与Gal4转录因子的DNA结 合域融合)和靶蛋白(与Gal4的转录活性 域融合)的相互作用,他们的相互作用重 构了分离的Gal4的结合并且恢复Gal4的功 能,然后激活报告基因,通过检测报告基 因的表达产物,判断是否发生了相互作用
2、聚类系数:网络凝聚性的度量,也是一 个节点与其邻居与派系的相似程度。
聚类系数分布C(k):度为k的所有节点 的聚类系数的平均值
3、平均路径长度:为了避免不连通的点, 采用了调和平均,而不是代数平均
最短路径长度分布 p(l)
4、其他:中心性
程度中心性:关联大量的边的点有大的 程度中心性
靠近中心性:与所有其他节点有最短路 径的节点有大的靠近中心性
从TAP获得的网络与前面的定义有所不同。 这里的边是指诱饵蛋白和其他蛋白连接,当 它们是联合纯化的。这样的方式使得在相同 的复合物中的蛋白质有边相连,而他们之间 并不一定有直接的关联作用
用于蛋白质组研究的蛋白质和肽芯片
蛋白质和肽芯片实验将靶蛋白或肽应用在 芯片上,测量同每个诱饵蛋白或肽的亲和 力,得到PIN
主要内容:
研究全局蛋白质的网络模型对于理解生物 体的功能很重要。这种形式使得我们用图 论、统计物理学、动力系统及其他方法研 究复杂的网络系统成为可能。因此介绍复 杂网络分析的基本概念。
区分不同网络的一些概念及对网络的分析。 主要讨论蛋白质相互作用网络(PIN)和 蛋白质信号网络(PSN)。
一、总论
尽管大规模、高通量的实验技术使得我们 的知识增加,但对蛋白质组的全局组织的 理解仍不完整。主要的障碍是由于它的复 杂性(数万个蛋白质以及它们之间的可能 的数十万种相互作用),这种理解需要分 析和解释庞大的数据集
为什么要用网络?
网络能更清楚的表示大量元素间的复杂关 系
网络这种形式可以更好的解释结构和功能 间相互影响的关系。因此进一步的研究可 以理解复杂网络中疾病的机理。
因此得到的存在于PIN中的无标度特性不 能很可靠的预测整个PIN,更可能的是, 基于完整PIN是无标度网络,当前结果可 能得到其他的度分布
因为杂交蛋白在细胞核中的集中,PTM可 能不足,导致假阴性发生
蛋白质复合物的串联亲和纯化(TAP)
与Y2H比较,TAP方法可以阐明天然蛋白质复 合物。尽管全面的TAP纯化策略还没有应用 到动物和植物的PIຫໍສະໝຸດ Baidu上,但TAP标记对于从这 些生物体中提纯复合物的改进和质谱仪的高 灵敏度和精确性的发展为这类分析提供可能。
主要缺点:这种体外的方法缺乏生理环境
概率模型和数据整合
对每个相互作用,依赖一个金标准(即真 阳性相互作用和真阴性相互作用的参考集) 的定义研究它的固有可靠性,可以用来优 化计算方法对相互作用可靠预测的效率
为了提高涉及范围和精确度,整合信息的 异质资源是必要的。
相互作用的可靠性可以用一个置信度表示, 这个置信度可以联合多个资源得到(用朴 素贝叶斯方法):S 1 1 Si
子图表征
模体是一个网络通过与这个网络对应的零 模型(随机图)比较得到的,可看做网络 的原子组分,提供了网络的结构和功能区 域
相同节点的所有可能的模体,有向图要比 无向图多
局部连通模式可以用来对网络分类和比较, 因此引入了度分布的一般化——子图分布 的概念。这样,当它们的子图分布相似时, 认为两个网络相似
三、蛋白质相互作用网络(PIN)
定义PIN:节点:蛋白质;无向边:蛋白 质间的实体连接的相互作用
对于PIN的形成,两个主要的技术是:酵 母双杂交(Y2H)和串联亲和纯化策略
因为大多数实验工作和分析是集中在酵母 上的,因此我们主要集中在酵母PIN
蛋白质相互作用数据库
蛋白质相互作用数据库包括DIP、BIND、 MIPS、MINT、REACTOME,但他们之间的 重叠部分很小,因此可信度不高。
中介中心性:最短路径经过这个点(边) 的条数多的有大的中介中心性
理论上的网络模型
ER随机网络:给定n个孤立点,每次以概 率p连接两个节点,共连 n(n 1) 次。随机网
2
络是均匀网络,度分布服从Poisson分布, 聚类系数分布平行于x轴,平均路径长度 约为log(n),有小世界效应 WS小世界模型:给定一个规则网络,以一 个固定的概率随机化重连边
无标度网络:度分布服从幂律分布,有 少数度高的节点,大部分节点的度比较 低。平均路径长度约为log(log(n)), 也具有小世界特性
等级网络:聚类系数分布服从幂律分布。 度低的节点有较高的凝聚性
几何随机网络:在有界的格子上随机的 放节点。例如:在一个环上,当两个节 点间的距离小于一个阈值时连接(最近 邻耦合网络)
最新研究集中在全局网络性质(平均路径 长度、聚类系数、同配性、度分布等)。
大多数实际网络有明显的模块结构。从网 络的拓扑结构确定模块有很多方法,最广 泛应用的是基于模块最优化的划分技术, 使得网络划分成模块时,模块内部边的数 目与外部边的数目的比值最大
值得讨论的是:有多少随机图可以呈现大 的模块性;模块最优化在识别模块小于一 个尺度时是无效
二、复杂网络分析的介绍
生物系统包括很多元素(基因、蛋白质、 蛋白质复合物、转录因子等)的相互作用 和相互调控,将其简化为节点集和边集。
无向网络、有向网络、加权网络、邻接矩 阵、邻居、路、环、派系(全连通)、连 通分支(无向、有向)
网络的度量:
1、节点的度(出度、入度)、度分布p(k) (联合度分布p(kin,kout ) )、网络的同配或异 配性
i
四、PIN的复杂网络分析
度分布 研究表明PIN度分布服从幂律,即是无标
度网络。一个讨论热点是关于真实世界数 据的度分布是幂律的解释。其中一个观点 是:真实世界的数据都是有噪音、不精确 、不完整,是从大网络中抽样得到的 为了评定幂律结果的正确性,研究表明从 无标度网络中抽样,得到的网络不是无标 度网络。
这些数据库里的相互作用都是基于小规 模实验得到的,集中在研究者感兴趣的 蛋白质上,而高通量实验是基于全局蛋 白质组的,因此小规模实验得到的数据 可靠性不高
酵母双杂交系统(Y2H)
检测诱饵蛋白(与Gal4转录因子的DNA结 合域融合)和靶蛋白(与Gal4的转录活性 域融合)的相互作用,他们的相互作用重 构了分离的Gal4的结合并且恢复Gal4的功 能,然后激活报告基因,通过检测报告基 因的表达产物,判断是否发生了相互作用
2、聚类系数:网络凝聚性的度量,也是一 个节点与其邻居与派系的相似程度。
聚类系数分布C(k):度为k的所有节点 的聚类系数的平均值
3、平均路径长度:为了避免不连通的点, 采用了调和平均,而不是代数平均
最短路径长度分布 p(l)
4、其他:中心性
程度中心性:关联大量的边的点有大的 程度中心性
靠近中心性:与所有其他节点有最短路 径的节点有大的靠近中心性
从TAP获得的网络与前面的定义有所不同。 这里的边是指诱饵蛋白和其他蛋白连接,当 它们是联合纯化的。这样的方式使得在相同 的复合物中的蛋白质有边相连,而他们之间 并不一定有直接的关联作用
用于蛋白质组研究的蛋白质和肽芯片
蛋白质和肽芯片实验将靶蛋白或肽应用在 芯片上,测量同每个诱饵蛋白或肽的亲和 力,得到PIN
主要内容:
研究全局蛋白质的网络模型对于理解生物 体的功能很重要。这种形式使得我们用图 论、统计物理学、动力系统及其他方法研 究复杂的网络系统成为可能。因此介绍复 杂网络分析的基本概念。
区分不同网络的一些概念及对网络的分析。 主要讨论蛋白质相互作用网络(PIN)和 蛋白质信号网络(PSN)。
一、总论
尽管大规模、高通量的实验技术使得我们 的知识增加,但对蛋白质组的全局组织的 理解仍不完整。主要的障碍是由于它的复 杂性(数万个蛋白质以及它们之间的可能 的数十万种相互作用),这种理解需要分 析和解释庞大的数据集
为什么要用网络?
网络能更清楚的表示大量元素间的复杂关 系
网络这种形式可以更好的解释结构和功能 间相互影响的关系。因此进一步的研究可 以理解复杂网络中疾病的机理。
因此得到的存在于PIN中的无标度特性不 能很可靠的预测整个PIN,更可能的是, 基于完整PIN是无标度网络,当前结果可 能得到其他的度分布