文本挖掘技术研究进展_袁军鹏

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Survey of TextM ining Techno logy
YUAN Jun-peng1 , ZHU D ong-hua2, L I Y i3, L I L ian-hong2, HUANG Jin2 (1. S chool of Pub lic Po licy &Managemen t, Tsinghua Un iversity, B eijing 100084, C hina;2. S chool of Managemen t &E conom ics, B eijing In-
用向量空间 模型得到的特 征向量的 维数往 往会达 到数十 万维 , 如此高维的特征对即 将进行 的分类 学习未 必全是 重要 、 有益的 (一般只选择 2% ~ 5%的最 佳特征 作为 分类依 据 ), 而 且高维的特征会 大大增加机器的学习时间 , 这便是特征提取所 要完成的工作 。
特征提取算 法一般是构造一个评价函数 , 对每个特征进行 评估 , 然后把特征按分值高 低排队 , 预定 数目分 数最高 的特征 被选取 。 在文本处理中 , 常用的评估函数有信息增 益 ( Info rm ation G ain)、期望交叉熵 (Expec ted C ro ss Entropy)、互信息 (M utua l In fo rm ation)、文本证据权 (The W e ight o f Ev idence fo r T ex t) 和词频 [ 17, 18] 。
stitu te of Technology, B eijing 100081, Ch ina;3. M anu fa ctory o f S izhan, J inan A ir Force, Jinan S handong 250022, Ch ina)
Ab stract:Tex tM ining, also known as inte lligent tex t ana ly sis, tex t data m ining or K now ledge-D iscovery in Tex t (KDT ), is a rapidly em erg ing field concerned w ith the ex traction o f concepts, re la tions, and imp licit know ledg e from tex ts. A sm ost info rm ation (over 80%) is stored as text, tex tm ining is believed to have a high comm ercia l po tentia l va lue. F irstly, th is rev iew paper discusses the resea rch status o f tex tm ining, then it lays ou t the framewo rk o f tex tm in ing and ana ly ses techniques of tex t m ining, such as fea ture se lec tion, au tom atic abstrac ting, tex t ca tego riza tion, tex t clustering, tex t association, da ta v isua lization. In the end, it show s the importance of tex tm ining in know ledge d iscove ry and highlights the upcom ing cha llenges of tex t m ining and the oppo rtunities it offers. K ey words:T extM ining;Cu tting Ch inese W ord;Fea ture Se lection;T ext A utom a tic A bstracting;Tex t Ca tego rization;Tex t C luste ring;Tex tA ssocia tion;D a ta V isualization
2. 1 文本 挖掘的定义
文本挖掘作 为数据挖掘的一个新主题 , 引起了人们的极大 兴趣 , 同时 , 它也是一个富 于争议的研究方向 , 目前其定义尚无 统一的结论 , 需要国内外学者开展更多的研究以便进行精确的 定义 。
借鉴 Choon Y ang Q uek对 W eb挖掘的定义 [ 3] , 我们给出文 本挖掘的定义 :
在对文档进 行特 征提 取前 , 需 要先 进行 文本 信息 的 预处 理 , 对英文而言需 进行 S temm ing 处理 , 中文 的情 况则 不同 , 因 为中文词与词 之间 没有固 有的 间隔符 (空 格 ), 需 要进行 分词 处理 。 目前主要有基于 词库的分 词算法 和无词 典的分 词技术 两种 。
2006年第 2期
袁军鹏等 :文本挖掘技术研究进展
1
文本挖掘技术研究进展 *
Hale Waihona Puke Baidu
袁军鹏1 , 朱东华2 , 李 毅3 , 李连宏 2, 黄 进 2
(1. 清华大学 公共管理学院 , 北京 100084;2. 北京理工大学 管理与经济学院 , 北京 100081;3. 空军济南四站 厂 , 山东 济南 250022)
3. 2 挖掘 分析技术
预处理技术主要包括 S temm ing(英文 ) /分词 (中文 )、特征 表示和特征提取 。 与数据库中 的结构化数据相比 , 文本具有有 限的结构 , 或者根本就没 有结构 。 此外 , 文档的 内容是 人类所 使用的自然语言 , 计算机很难处理其语义 。 文本信息源的这些 特殊性使得数据预处 理技术在文本挖掘中更加重要 。 3. 1. 1 分词技术
个基于无词典 分词 的算 法 , 能比 较准 确地 切分 出文 本中 的新 词 。 文献 [ 11] 基于层次隐马模型 , 设计开发了 “汉语 词法分析 系统 ” , 将分词 、词语排歧 、未登 录词的识 别三个 过程融 合到一 个相对统一的理 论模型中 。 3. 1. 2 特征表示
文本特征指的是关于 文本的元数 据 , 分为描 述性特征 (如 文本的名称 、日期 、大 小 、类型等 )和 语义 性特征 (如 文本 的作 者 、机构 、标题 、内容 等 )。 特征表 示是 指以 一定 特征 项 (如词 条或描述 )来代表文档 , 在文本 挖掘时只 需对这 些特征 项进行 处理 , 从而实现对非结构化的文本处理 。 这是一个非结构化向 结构化转换的处 理步骤 [ 12, 13] 。 特征表示的构 造过程就 是挖掘 模型的构造 过程 。 特征 表示 模型 有多 种 , 常用 的有 布尔 逻辑 型 、向量空间模 型 (V ector Space M odel, VSM )[ 14] 、概 率型 以及 混合型等 。 W 3C近来 制定的 XM L[ 15] , RDF[ 16] 等规范提供了 对 W eb文档资源进行描述的语言和框架 。 3. 1. 3 特征提取
2 文本挖掘概述
图 1 文本挖掘使用经验调查 由此可见 , 文本挖掘已经成为数据挖掘中一个日益流行而 重要的研究领域 。 与一般数据 挖掘以关系 、事务和数据仓库中
收稿日期 : 2005-06-22;修返日期 : 2005-09-21 基金项目 :国家自然科学基金 资助项目 (70031010);北京 理工 大学学校基金项目 ;北京理工大学育苗基金项目
3 文本挖掘技术分析
文本挖掘不但要 处理大量的 结构化 和非结 构化的 文档数 据 , 而且还要处理其中复杂的语义关系 , 因此 , 现有的数据挖掘 技术无法直接应用于 其上 。对 于非结构化问题 , 一条途径是发 展全新的数据挖掘算 法直接对非结构化数据进行挖掘 , 由于数 据非常复杂 , 导致这种算法 的复杂 性很高 ;另一 条途径 就是将 非结构化问题结构化 , 利用 现有的 数据挖 掘技术进 行挖掘 , 目 前的文本挖掘一般采 用该途径进行 。 对于语义关系 , 则需要集 成计算语言学和自然 语言处 理等成 果进行分 析 。 我们 按照文 本挖掘的过程介绍其 涉及的主要技术及其主要进展 。 3. 1 数据预处 理技术
基于无词典的分 词技术的 基本思 想是 :基于词 频的统 计 , 将原文中任意前后紧 邻的两个字 作为一 个词进 行出现 频率的 统计 , 出现的次数越高 , 成为一 个词的可能性也就越大 , 在频率 超过某个预先设定的 阈值时 , 就将其作为一个词进行索引 。 这 种方法能够有效 地提取 出未 登录词 [ 8, 9] 。 文献 [ 10] 设计 了一
摘 要 :文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程 , 已经成为数 据挖掘中一个日益流行而重要的研究领域 。首先给出了文本挖掘的定义和框架 , 对文本挖掘中预处理 、文本摘 要 、文本分类 、聚类 、关联分析及可视化技术进行了详尽的分析 , 并归纳了最新的研究进展 。最后指出了文本挖 掘在知识发现中的重要意义 , 展望了文本挖掘在信息技术中的发展前景 。 关键词 :文本挖掘 ;中文分词 ;特征选取 ;文本摘要 ;文本分类 ;文本聚类 ;关联分析 ;数据可视化 中图法分类号 :TP311;TP18 文献标识码 :A 文章编号 :1001-3695(2006)02-0001-04
基于词库的分词 算法包括 正向最 大匹配 、正向 最小匹 配 、 逆向匹配及逐词遍历 匹配法等 [ 4] 。 这类 算法的 特点是 易于实 现 , 设 计简 单 ;但 分词 的 正确 性 很大 程度 上 取决 于所 建 的词 库 [ 5] 。 因此基于词库的分词技术 对于歧 义和未 登录词 的切分 具有很大的困难 。 文献 [ 6] 在 分析了最大 匹配法 的特点后 , 提 出了一种改进的算法 。 该算法在 允许一 定的分 词错误 率的情 况 下 , 能 显著 提高 分词效 率 , 其速 度优于 传统 的最大 匹配 法 。 文献 [ 7] 中采用了基 于词典的正向逐词 遍历匹配 法 , 取 得了较 好的效果 。
定义 1 文本挖掘是指 从大 量文本 的集 合 C 中发现 隐含
2
计算机应用研究
2006 年
的模式 p。 如果将 C看作 输入 , 将 p看作 输出 , 那 么文本 挖掘 的过程就是从输入到 输出的一个映射 ξ:C→ p。 2. 2 文本挖掘 的一般过程
文本挖掘的主要 处理过程是 对大量 文档集 合的内 容进行 预处理 、特征提取 、结 构分析 、文本 摘要 、文本分 类 、文本聚 类 、 关联分析等 。 图 2给出了文本挖掘的一般处理过 程 。
1 引言
据数据挖掘著名 网站 K dnuggets的调查 , 已有 60%左右的 人在利用软件 工具进 行文 本挖掘 , 另 有 12%的人计 划在 六个 月内进行文本挖掘 , 如图 1所示 。
的结构数据为研 究目标所不同的是 , 文本挖掘所研究的文本数 据库 , 由来自各种数据源的大量文档组成 , 包括新闻文章 、研究 论文 、书籍 、期刊 、报告 、专利说明书 、会议文献 、技术档案 、政府 出版物 、数字图书馆 、技术 标准 、产品样本 、电子 邮件消息 、W eb 页面等 。 这些文档可能包含标题 、作者 、出版 日期 、长度等结构 化数据 , 也可能包含摘要和内 容等非 结构化的 文本成 分 [ 1] , 而 且这些文档的内 容是人类所使用的自然语言 , 计算机很难处理 其语义 。 因此传统的信 息检索 技术已不 适应日 益增加 的大量 文本数据处理的 需要 , 人们提出文本挖掘的方法进行不同的文 档比较 , 以及文档重要性和 相关性 排列 , 或找出 多文档 的模式 或趋势等分析 [ 2] 。
相关文档
最新文档