文本挖掘理论概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
知 识 领 域 有 深 入 的 了 解 [4]。
3) 文本挖掘可以对大量文档集合的内容进行总结、分类、聚
类 .、关 联 分 析 以 及 利 用 文 档 进 行 趋 势 预 测 等 。
4) 解释与评估: 将挖掘得到的知识或者模式进行评价, 将符
合一定标准的知识或者模式呈现给用户。
3、Web 文本挖掘的一般处理过程 无 论 是 在 数 据 结 构 还 是 分 析 处 理 方 面 , Web 文 本 挖 掘 和 数
并 根 据 该 结 构 发 现 新 的 概 念 和 获 取 相 应 的 关 系 [2]。
2.1 文本挖掘具有两个主要困难点
1.人 工 进 行 多 样 且 大 量 的 文 件 特 征 选 择 , 缺 乏 效 率 且 不 符
成本。
2.文 件 数 据 的 内 容 维 度 数 量 过 多 , 即 特 征 的 属 性 不 易 清 楚
含信息和知识的重要方法和途径[1], 而文本挖掘主要着力于从非
结构化或者半结构化的文本中抽取有用的知识。文本挖掘, 文本
数据挖掘又称文本知识发现( Knowledge Discovery in Texts) 涵盖
多种技术, 包括信息抽取, 信息检索, 自然语言处理和数据挖掘
技术。
2、文 本 挖 掘 概 述
C 中找到与给定的查询请求 q 相关的、恰当数目的文档子集 S。
的目的是根据用户的查询请求从文档库中找出相关的文档。用
户必须从找到的文档中翻阅自己所要的信息。
2) 信 息 抽 取 ( Information Extraction: IE) 是 把 文 本 里 包 含 的
信息进行结构化处理, 变成表格一样的组织形式。输入信息抽取
文本挖掘是一个崭新的人工智能研究方向, 本文根据所阅 读的大量现有有关论文对文本挖掘技术作了详细的综述, 还有 许多技术是有待于进一步研究和改进的。
参考文献: 1.周 雪 忠 吴 朝 晖 文 本 知 识 发 现 : 基 于 信 息 抽 取 的 文 本 挖 掘 计 算 机 科 学 2003 2.Kodratoff Y.Knowledge Discovery in Texts: A Definition, and Applica- tions. Proc .ISMIS' 99 , Warsaw , June 1999a 3.Stephen, Potter. A survey of knowledge acquisition from natural language. Artificial Intelligence Applications Institute, Division of Informatics, Univer- sity of Edinburgh 4.Sullivan D. The Need for Text Mining in Business Intelligence. Published in DM R eview in Dec. 2000 5.IMA "HOT TOPICS" Workshop, Apr. 2000 6. 王 丽 坤 , 王 宏 , 陆 玉 昌 。 文 本 挖 掘 及 其 关 键 技 术 与 方 法 计 算 机 科 学 2002 7.张 卫 丰 , 徐 宝 文 , 周 晓 宇.Web 搜 索 引 擎 综 述 【J】.计 算 机 科 学 , 2001, 28 ( 9) : 24- 28
2008 年第 9 期
福建电脑
21
文本挖掘理论概述
巩知乐, 张德贤
( 河南工业大学 信息科学与工程学院 河南 郑州 450001 )
【摘 要】: 文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将 大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况 , 之后着力对当前基于 Web 文本挖掘的一般处理过程进行了详细的描述, 同时总结了文本分类和文本聚类的一些主要算法, 在文章的最后对文本挖掘 在信息技术中的发展前景做了合理的预测和展望。
系统的是原始文本, 输出的是固定格式的信息点。
信息抽取有两大方法: 一是知识工程方法( Knowledge Engi-
neering Approach) , 二 是 自 动 训 练 方 法 ( Automatic Training Ap-
proach) 。知识工程方法主要靠手工编制规则的知识工程师对该
在机器学习中常 用 的 模 型 质 量 评 估 指 标 有 分 正 确 率 ( Clas- sification Accuracy) , 查 准 率 ( Precision) 与 查 全 率 ( Recall) , 查 准 率 与 查 全 率 的 几 何 平 均 数 , 信 息 估 值 ( Information Score) 兴 趣 性 ( Interestingness) 。其中兴趣性是一个主客观结合的评价指标。 4、结 论 和 展 望
【关键词】: 文本挖掘; Web 文本挖掘; 文本分类; 文本聚类
1、引 言
"数据丰富, 但信息贫乏"的现状导致了数据挖掘( Data Min-
ing) 技术研究的兴起, 数据挖掘又称数据库知识发现( Knowledge
Discovery in Databases) 是 从 海 量 的 结 构 化 信 息 中 抽 取 或 挖 掘 隐
定义或界定。
2.2 文本挖掘的一般流程
从大量文本数据中抽
取事先未知的、可理解的、
最终可用的信息或知识的
过程。直观地说, 当数据挖
掘的对象完全由文本这种
数据类型组成时, 这个过程
就 称 为 文 本 挖 掘 [3]。 文 本 挖
掘的一般流程如图 1 所示。
图 1.文本挖掘的一般流程图
1) 信息检索( Information Retrieval: IR) 是指从大量文档集 合
源自文库
基金项目: 河南省科技攻关项目(0324220024)
22
福建电脑
2008 年第 9 期
词 。 虚 词 例 如 英 文 中 的 "a, the, of, for, with, in, at, ……", 中 文 中 的"的, 得, 地, ……"; 实词例如数据库会议上的论文中的"数据 库"一词, 视为非用词。
图 3.中文文本挖掘模型结构示意图 主要的分词方法有最大匹配法( Maximum Matching method, MM 法 ) : 选 取 包 含 6- 8 个 汉 字 的 符 号 串 作 为 最 大 符 号 串 , 把 最 大符号串与词典中的单词条目匹配, 如果不能匹配, 就删掉一个 汉字继续匹配, 直到在字典中找到相应的单词为止。匹配的方向 是从右向左。 逆向最大匹配法( Reverse Maximum method, RMM 法) : 匹配 方向与 MM 法相反, 是从左向右。实验表明, 对于汉语来说, 逆向 最大匹配法比最大匹配法更有效。 双 向 匹 配 法 ( Bi- direction Matching method, BM 法 ) : 比 较 MM 法与 RMM 法的分词结果, 从而决定正确的分词。 最 佳 匹 配 法 ( Optimum Matching method, OM 法 ) : 将 词 典 中 的单词排在前, 频度低的单词排在后, 从而提高匹配的速度。 联想- 回溯法 ( Association- Backtracking method, AB 法) : 采 用联想和回溯的机制来进行匹配。 3.3.2 特征提取 特征提取( Feature Extraction) 是对文件中出现 的 词 汇 、短 语 的特征提取, 由原始数据创建新的特征集, 生成挖掘目标的特征 矢量, 特征项集提取应该根据两个基本原则即完全性和区分性 原则来进行, 并将提取得到的特征矢量经过特征子集的选取后 存 放 到 文 本 特 征 库 中 形 成 文 本 中 间 表 示 形 式 [6]。在 不 影 响 特 征 分 类准确度的情况下, 减少文本描述空间的高维特征数量是很有 必要的, 这个过程称为特征提取。 特征提取的方式有 4 种: ( 1) 用映射或变换的方法把原始特 征变换为较少的新特征。( 2) 从原始特征中挑选出一些最具代表 性的特征。( 3) 根据专家的知识挑选最有影响的特征。(4)用数学 的方法进行选取, 找出最具分类信息的特征, 这种方法是一种比
较精确的方法, 人为因素的干扰较少, 尤其适合于文本自动分类 挖掘系统的应用。 3.4 模式质量的评价
后期处理中的一个重要的环节是对模型进行质量评价。 在机器学习基础上进行的数据挖掘使我们得到了隐含的、先前 未 有 的 、潜 在 的 知 识 、规 则 和 信 息 。 但 这 些 信 息 是 否 是 有 价 值 的 或是在某种意义下满足用户目标, 这就需要通过模式质量评价 来做出评价。
文本特征指的是关于文本的原数据。文本特征可分为描述 性 特 征 和 语 义 性 特 征 。描 述 性 特 征 包 括 文 本 的 名 称 、日 期 、大 小 、 类型等 ; 语义性特征包括文本的作者、标题、机构、内容等。描述 性特征易于获得, 而语义性特征则较难获得。 3.2 特征集的缩减
当文档转化为一种类似于关系数据库中记录的较规整且能 反映文档内容特征的表示( 文档特征向量) 后, 会发现一个不合 人意的地方: 文本特征向量具有惊人的维数。使得特征集的缩减 成文文本数据挖掘中必不可少的一步。 3.2.1 潜在语义标引( latent semantic indexing) 技术
潜 在 语 义 标 引 ( latent semantic indexing) 方 法 : 利 用 矩 阵 理 论 中 的" 奇 异 値 分 解 ( singular value decomposition , SVD) " 技 术 , 将词频矩阵转化为奇异矩阵( K ×K) [5]。
潜在语义标引方法基本步骤: 1).建立词频矩阵, frequency matrix; 2).计算 frequency matrix 的奇异値分解, 分解 frequency ma- trix 成 3 个 矩 阵 U, S, V。U 和 V 是 正 交 矩 阵 ( UTU=I) , S 是 奇 异 値的对角矩阵( K ×K) ; 3).对于每一个文 字 檔 d, 用 排 除 了 SVD 中 消 除 后 的 词 的 新 的向量替换原有的向量 p; 4).保存所有向量集合, 用高级多维索引技术为其创建索引; 5).用 转 换 后 的 文 字 檔 向 量 进 行 相 似 度 计 算 。 3.2.2 语义自动标注的方法 以字义为词义; 词=字+…+字; 利用检索上下文中出现的相 关词的方法来确定多义词的义项; 利用上下文搭配关系来确定 多义词的词义; 用最大可能义项来消解多义。 3.3 学习与知识模式的提取 完成文档特征向量维数的缩减后, 便可利用机器学习的各 种方法来提取面向量特定应用目的的知识模式。 3.3.1 分词及非用词处理技术 分词就是在中文文件的词与词之间加上空格。非用词又称 停用词, 是在文件中其辅助作用的词。非用词又分为虚词和实
据挖掘相差很大。Web 文本数据挖掘的主要过程是对大量文本 资 料 的 内 容 进 行 特 征 的 建 立 、特 征 集 的 缩 减 、学 习 与 知 识 模 式 的 提 取 、模 型 质 量 的 评 价 、知 识 模 式 。
Web 文本挖掘的一般处理过程可用图 2 来概括描述。
图 2 web 文本挖掘的一般处理过程 3.1 文本特征的建立
对 Internet 上 的 文 本 数 据 进 行 文 本 挖 掘 可 以 看 作 是 一 种 机 器学习的过程。在机器学习中学习的结果是某种知识模型 M, 机 器学习的一个重要组成部分便是对产生的模型 M 进行评估。对 所获取的知识模式进行质量评价, 若评价的结果满足一定的要 求, 则存储知识模式, 否则返回到以前的某个环节分析改进后进 行 新 一 轮 的 挖 掘 工 作 [7]。
文本挖掘( TM , Text Mining) 是近几年来数据挖掘领域的一
个新兴分支, 其基本思想是首先利用文本切分技术, 抽取文本特
征, 将文本数据转化为能描述文本内容的结构化数据, 然后利用
聚 类 、分 类 技 术 和 关 联 分 析 等 数 据 挖 掘 技 术 , 形 成 结 构 化 文 本 ,