文本挖掘领域研究现状与趋势分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
£
图 1 2007— 2016年 文 本 挖 掘 相 关 论 文 数 量 的 年 度 分 布
使 用 当 前 国 际 信 息 可 视 化 分 析 工 具 CiteSpace『2 ]软件 ,运 用文 献共 被 引分析 方法 ,对 文献数 据进 行计 量 和可 视 化 分 析 ,探 测 文 本挖 掘 领 域 的发展 趋 势 、前 沿 主题及 其演 化规 律 。
文本挖 掘 是近 些 年来 一 个 新 兴 研 究 领 域 ,主 要 是从 大量 的 、无结 构 的文本 信 息 中发 现潜 在 的 、 可 能 的数据 模式 、内在联 系 、规律 、发 展趋 势 等 ,抽 取 有效 、新 颖 、有 用 、可理 解 的 、散 布在 文 本文 件 中 的有价 值 知识 ,并 且 利 用 这 些 知识 更好 地 组 织 信 息 的过 程[ 。文 本 挖 掘 的 研 究 领 域 范 围较 广 ,主 要 涉 及 自然 语 言 处 理 、机 器学 习 、数 据挖 掘 、信 息 检 索 等多 个 内容 ,而 不 同领域 的研 究 者 对 文本 挖 掘 的 应 用 目 的也 不 同 。
本 文 以 web of Science数 据 库 为 数据 源 ,利 用 CiteSpace软 件 对 2007~ 2016年 间 文 本 挖 掘 主题有 关 的文 献进 行 可 视化 分 析 ,以 了 解 文本 挖 掘 领域 的研 究 现状 ,探 测 文 本 挖 掘 领 域 研 究前 沿 的 发 展 趋 势 。
文本 挖 掘研究 的人 越 来越 多 ,文 本 挖掘 的影 响 力 在 逐 步 攀 升 。文 本 挖 ∞ 0 0 掘0 ∞ 技0 ∞术 O 绚的 0 ∞作 用 加 O 也0 加 越O 来 越 不 能 被 忽 视 。
g 蓦来自百度文库8 2 = 2 2 = =
蠹 呙 高
1 数 据 来 源
本 文选 取 WOS数据 库 为 数 据 源 ,以 2007— 2O16年 共 1O年 为 时 间 跨 度 ,以 “text mining”或 “text analysis”为 检索 词进 行 主题检 索 ,将 文 献类 型设 定 为 “Article OR Review”,共 得 到 4O15条 文献 记 录 。统 计 得 到 2007— 2016年 文本 挖 掘 领 域每 年 出版 文献量 情 况分 布 图 (见 图 1)。从 图 中 可 以看 出 ,文 本 挖 掘 相 关 的 论 文 持 续 增 加 ,到 2015年有 明显 上涨 ,当年 出版 文 献 超 过 600篇 , 这 说明 随着技 术 的 进 步 和研 究 工 具 的发 展 ,进 行
收稿 日期 :2017— 12—26 作 者 简 介 :陶 洁 ,女 ,副 教授 ,主 要 从 事计 算 机技 术方 面 的 教 学 和 科 研 工 作 。
42
文本 挖掘 领域 研究 现状 与趋 势 分析 陶 洁
识 的结 构 、规 律 和分 布 情 况 ]。软件 基 于 引 文 分 析 的原 理 ,通 过 对 文献 数 据 信 息 的计 量 和 可 视 化 处 理 ,探 测学 科 研 究前 沿 随着 时 间 的 变 化 趋 势 以 及 研究 前沿 与其 知识 基 础 之 间 的 关 系 ,发 现 不 同 研 究前 沿之 间 的 内在 联 系 ,使 研 究 者 能 够 直 观地 辨识 学科 知 识结 构与 知识 基础 的演 进 。 2.1 机 构 合 作 图 谱 分 析
工 程技 术
武 汉船 舶 职业技 术 学院学 报 2018年第 2期
文 本 挖 掘 领 域 研 究 现 状 与 趋 势 分 析
陶 洁 (武汉 船舶 职 业技 术 学院 ,湖北 武汉 430050)
摘 要 为 了 解 文 本 挖 掘 领 域 的研 究 现 状 ,探 测 文 本 挖 掘 领 域 研 究 前 沿 的 发 展 趋 势 。 以 W eb of Science数 据 库 为 数 据 源 ,利 用 CiteSpace软 件 对 2007~201 6年 问 文 本 挖 掘 主 题 有 关 的 文 献 进 行 可 视 化 分 析 ,结 合 多 视 角 共 被 引 分 析 ,绘 制 文 本 挖 掘 领 域 研 究 的 知 识 图 谱 。文 本 挖 掘 的研 究 主 要 有 情 感 分 析 与 主题 分 析 、文 本 挖 掘 理 论 及 主要 算 法 模 型 、生 物 医 学 研 究 、概 念 与 语 义 关 系 发 现 、其 它 领 域 应 用 5大类 ,而 未 来 文 本 挖 掘 应 用 主 要 集 中 在 4个 方 面 :学 术 科 研 领 域 、生 命 科 学 领 域 、社 交 媒 体 、商 务 智 能 。 关 键 词 文本 挖 掘 ;CiteSpace;可 视 化 ;web of Science 中 图分 类 号 G353 文 献 标 志 码 A 文 章 编 号 1671— 8100(2018)02—0042一O5
在 功能 与 参 数 设 置 区 的 Node Type选 择 为 Institution,得 到 文 本 挖 掘 研 究 的 机 构 合 作 网 络 (图 2)。其 中 节 点 的 大 小 代 表 了 发 表 论 文 的 数 量 ,连线 反 映 合作 关 系强 度 。从 图 中可 以看 出各 机 构 问有较 多合 作 。
2 各 图谱 的 生 成 与 分 析
CiteSpace是 Citation Space的 简 称 ,可 译 为 “引文 空 间 ”。CiteSpace软 件是 一 款 着 眼 于分 析 科 学分 析 中蕴 含 的潜 在 知识 ,并在 科学 计量 学 、数 据 和信 息 可视化 背景 下逐 渐发 展起 来 的一款 引 文 分 析 软件 ,可 以通 过 可视 化 的手 段 来 呈 现科 学 知