基于不同文本表示的大规模蛋白功能预测探究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

测 任 务 的影 响 ,通 过 实 验 分 析 了一 系列 主 流 的 文 本 表 示 方 法 ,包括 传 统 的基 于 词 袋 模 型 的 稀 疏 表 示 (TFIDF)和 含 有 深 度 语 义
信 息 的 稠 密表 示 (W 2V,GloVe,D2V),并做 了 两 方 面 拓 展 :① 对 基 于 词 向 量 的 文 本 表 示 考 虑 使 用 IDF加 权 平 均 (w w2V,
W GloVe);② 稀 疏 表 示 与稠 密表 示 的拼 接 结 合 (WW 2V—TFIDF,WGloVe-TFIDF,D2V—TFIDF,Combined)。 实验 结果 证 明 ,
IDF加 权 平 均 比 直 接 平 均 效 果 更 好 ;每 个 单 独 的 表 示 侧 重 点 不 同 ,各 有 优 缺 点 ;稀 疏 表 示 与 稠 密表 示 具 有 互 补 性 ;多种 表 示 的
Large-scale Protein Function Prediction
QIA0 Yu。YA0 Shuwei (School of Com puter Science and Technology,Fudan University,Shanghai 200433) Abstract:Since it takes a lot of tim e and resources tO determ ine the functions of a protein through biochem ical experim ents,it is of great significance tO autom atically annotate the protein functions using com putational technology. T ext-based m ethods for protein function prediction can take full advantages of data other than protein sequence. In order to explore the effects of differ— ent text representations in text categorization on the task of protein function prediction,the article analyzes the m ainstream text representation methods by a series of experiments,including the traditional sparse representation of BOW (TFIDF) and the dense representations with deep semantic information(W2V,GloVe,D2V).In addition,we make two expansions:① Consid— ering the IDF weighted average tO word—embedding representations(W W2V,WGloVe);② integrating the sparse representa— tions and dense representati0ns(D2V-TFIDF,W W 2V-TFIDF,W GloVe—TFIDF,Combined). The results show that the IDF w eighted average is better than the pure average;each individual representation focuses on different points and each of them has its own advantages and disadvantages;the sparse representation and the dense representation are com plem entary; the com bina- tion of multiple representations(combined with TFIDF,W W 2V ,W GloVe,D2V)presents the best performance. Key words:Protein function prediction; M achine learning; Sem antic sim ilarity
组 合 (结合 了 TFIDF,W W2V,WGIoVe,D2V)效 果 最 好 。
关 键 词 :蛋 白质 功 能预 测 ;机 器 学 习 ;文 本表 示
中 图 分 类 号 :TP311
文 献标 志 码 :A
Researeh on Different Text RepresentatiOn M ethods of
(复旦 大学 计 算机科 学 技术学 院 ,上 海 200433)
摘 要 :因 为使 用 生化 实 验 确 定蛋 白功 能 需 要 耗 费大 量 的 时 间和 资 源 ,所 以 利 用 计 算技 术 自动 标 注 蛋 白 功 能 预 测 的 方 法 可 以 充 分利 用蛋 白序 列 以 外 的 数 据 。 为 了探 究 文 本 分 类 中不 同的 文 本 表 示 对 蛋 白 质 功 能 预
Microc0mputer Applications Vo1.34,No.7,2018
基 金 项 目
微 型 电脑 应 用 2018年 第 34卷 第 7期
文 章 编 号 :1007—757X(2018)07—0001—05
基 于不 同文 本 表 示 的大 规 模 蛋 白功 能预 测探 究
乔 羽, 姚舒威
相关文档
最新文档