亚细胞定位

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

亚细胞分离绿色荧光蛋白同位素亲和标签质谱抗体
昂贵耗时重复性差
数据通量大 • 根据已知数据可对未知做预测数据增长，不断验证完善
亚细胞定位原理：蛋白质的氨基酸序列以及亚细胞的特异结构特征，提取特征参数或描述符，通过算法比较查询序列中所包含的特征参数与各类被定位蛋白质的相似度，从而对蛋白质的亚细胞定位作出判断。 1999年chou根据蛋白质的亚细胞位置，把蛋白质细分为12类（然而无细胞壁？），是后来的主流分类方式。
MCC：Mattthe相关系数（Matthew correlation coefficient）：综合评价指标，反应系统的综合评价能力 Sensitivity：敏感性，代表蛋白数据集中每一小类的预测准确率特异性：集中体现了蛋白数据集中的每一小类预测结果的可信程度。理想值：均为1 TP：真阳性数 TN：真阴性数目 FP：假阳性数目 FN：假阴性数目成功率：N为蛋白序列总数
亚细胞定位预测
数据集的建立：抽取高质量亚细胞定位数据集并分为训练集和测试集
抽取特征信息向量作出预测
选择合适算法，依据特征信息向量作出预测
用检验数据集对结果进行评价
预测性能评估
性能评估:留一交叉验证，每次取数据集中一条蛋白序列做测试样品，而剩余蛋
白序列作为训练集对测试样本的亚细胞进行定位（取平均值做总的分类性能）
性能评估流程
上诉各种蛋白定位计算的参考网址：
/s?wd=paperuri%3A %288bf4deb6418a85f9a5279ea794c4ce8d% 29&filter=sc_long_sign&tn=SE_xueshusource _2kduw22v&sc_vurl=http%3A%2F%2Fwww.d %2Fp1476545042333.html&ie=utf8&sc_us=14325412026675279602
/link?url=GkAlGgBeB Fdbe5-gEJOPvt1xcjbj0bCuTLJTcsGHfcDTlFgQBgwu28e43 GCfYZdso0j_tHAJUIKsrPHAG47J4fvcIkBJU_2cI 8c_35xW9G
在线软件使用
在线软件使用
展望未来
亚细胞定位的生物信息学研究作为亚细胞蛋白组学实验做了研究补充，但是从生物学的角度来看：
目前各数据库的亚细胞定位注释不统一，给大规模分析带来困难对分选信号的理解不透彻有些蛋白质在细胞内并不是固定在某一个亚细胞内，如：转录因子，具有流动性，这类蛋白研究较少。对蛋白质功能和亚细胞定位之间关系理解ai等最先使用构建了一个专家系统来进行预测相关性分析：蛋白质的细胞定位和氨基酸的组成的相关性机器学习法：根据已有的生物数据发现有意义的生物规律，通过推理、模型匹配从中自动学习知识和理论。包括神经网络、隐Markov模型。趋势：将多种算法结合起来，用不同算法处理不同特征信息或综合多种算法进行多级预测，都取得更高精确度。Fujiwara等用神经网络方法描述蛋白序列的氨基酸组成，用隐马可夫模型描述残基序列取得在植物中86%、非植物91%的预测精度。
http://genomics.cicbiogune.es/ SECRETOOL/wolfpsort.php 真菌
阈值：实验经验值（默认14）
结果展示
Gene ID
蛋白ID
位点位置：分数
文献结果展示
K近邻法：对于一个待分类的测试样本，在多维空间中寻找与未知样本最相似的K样本，及K个最近邻居，待测样本则被判定为K个样品中绝大多数样本所属的类别，因为仅仅取决少量相邻的样本，因此这种算法能有效处理样品不均衡问题，
关于亚细胞定位知识探讨
贺位皇
生物信息平台
2016.09.02
主要内容
亚细胞定位知识背景定位要点软件使用展望未来
亚细胞定位知识背景
生物体细胞是一个高度有序的结构，胞内根据空间分布和功能不同，可以分成不同细胞器或细胞区域，如细胞核、高尔基体、内质网、线粒体、胞浆和细胞膜等。蛋白质在核糖体中合成后经蛋白质分选信号引导后被转运到特定的细胞器中，部分蛋白质则被分泌到细胞外或留在细胞质中，只有转运到正确的部位才能参与细胞的各种生命活动，所以蛋白质的亚细胞定位信息日益重要。 ● 传统法 ●生信法
（SWISS-PROT）2002年
亚细胞数据库
亚细胞定位要点
蛋白分选信号：一种信号序列，决定特定蛋白的转运方向，可被细胞器上的分选受体特异性识别。N端分选信息包括信息肽、线粒体引导肽、叶绿体运输肽和核定位肽等。（局限性）氨基酸组成：将20种氨基酸在蛋白质序列中出现的频率抽取出来作为一个20维的向量来预测蛋白质亚细胞定位，随后也把氨基酸残基的特性结合起来。（忽略了蛋白质全部氨基酸序列及蛋白结构信息）其他特征信息：除了常用特征信息外，还加了功能域组成、结构、go注释等（局限性）几种信息的结合：将多种向量结合起来已成为最普遍的一种方法，Gardy等提出的PSORT-B将氨基酸组成、N端分选信等一起作为特征信息来预测细胞定位。