Web文本挖掘中数据预处理技术研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
值, 它相对于整个文本集的 CHI 值是其相对于 所有
现 类的 CHI 值的综合,我们取加权平均的综合 方式,则
代 其评价函数为:
计
m
算
Σ χ2(t)= p(ci)χ2(t,ci)
i=1
机
(4)特征选择方法分析
(总
其他常见特征选择方法还有期望交 叉 熵(Expect
第 Cross Entropy)、文本证据权(the Weight of Evidence for
在文本集中出现的范围越广,说明它区分文本属性的
能力越低;另一方面,它在某一特定的文本中出现的
频度越高,说明它在区分该文本内容属性方面的能力
越强。
2.2 中文分词
从文本的特征表示可以看到, 若采用 VSM 形式
化表示文本,就要把文本划分为一个个词条。 英文文
本中的单词由空格分隔开,切分时只要把单词的各种
提出的,文本挖掘中常用的一种文本表示模型,基本
思想是将文本看作特征词的集合,并使用特征词的权
向量表示文本。 其优点是将文本内容转换成易为数学
处理的向量方式, 使得各种相似运算和排序成为可
能,因而得到广泛的应用,取得了良好效果。
下面介绍向量空间模型中的几个基本概念:
①特征词。 特征词是一组从文本中提取出来的可
原始特征空间的性质,只是从原始特征空间中选择了 机
一部分重要的特征,组成了一个新的低维空间。
(总
针对文本特征选择,国内外的研究学者已经提出 第
了很多方法。一种主要的方法就是采用某种评估函数 三
○
对每个特征词进行计算,然后按照计算结果的高低排
列,数值大于预先设定的阈值的特征词被选取,即评
三 期
)
M O D E R N C OM P U T E R 2009.3 趽趧
以代表文本内容的关键词,根据特征词在文本中的重
要程度,给每个特征词赋予一个权值;
②词汇表。 文本集合中的所有特征词构成一个词
汇表。 若一个词汇表包含 n 个特征词, 分别为 t1,t2, … ,tn,那么该词汇表可定义为一个 n 维空间,文本可 以表示为这个空间中的 n 维向量,向量在每一维上的
分量为该维对应的特征词在文本中的权值。
三 Text)、单词权(Term Strength)等,这里就不一一赘述。
在上述众多方法中, 有实验结果表明 χ2 统计方
三 期
法是效果较好的特征选择方法。
)
趨趭 M O D E R N C OM P U T E R 2009.3
由于评估函数的构造不是特别复杂,适用范围又 很广泛,所以越来越多的人们喜欢使用构造评估函数 来进行特征选择。
机 分类、文本聚类、关联分析等。Web 文本挖掘的一般处
(总 理过程如图 1 所示。
第
三
wenku.baidu.com
HTML
Stemming
!
"
图 1 Web 文本挖掘的一般流程
2 数据预处理技术
2.1 特征表示 特征表示是指以一定特征项(如词条或描述)来代
表文档,在文本分类或聚类时只需对这些特征项进行 处理,从而实现对非结构化的文本的处理,这是一个 非结构化向结构化转化的处理步骤。
(Visualizations)等形式)的非平凡过程。 如果将 D 看作
输入,将 K 看作输出的话,那么 Web 文本挖掘的过程
就是从输入到输出的一个映射 ξ:D→K。
现 1.2 Web 文本挖掘的一般流程
代
计
Web 文 本 挖 掘 的 主 要 处 理 过 程 是 对 大 量 的
算 HTML 文 档 集 合 的 内 容 进 行 预 处 理 、特 征 提 取 、文 本
i=1
i=1
m
Σ p(t) p(ci|t)logp(ci|t) i=1
其 中 m 为 类 的 个 数 ,ci 代 表 一 个 类 ,t 为 一 个 词 语,p(t)代表 词语 t 出 现 的 概 率 ,p(ci|t)和 p(ci|t)分 别 代表词语 t 出现与否的条件下类 ci 出现的概率。
(2)互信息(Mutual Information,MI)
②特征词的倒排文本频率。 倒排文本频率为该特
征词在文本集合各个文本中分布情况的量化,特征词
ti 的倒排文本频率 idfi 定义为:
○ ○ idfi=log
N +0.01 ni
(1)
其中 N 为文本集合中的文本数量,ni 为出现特征
词 ti 的文本数量。
综合以上两个因素,可以得到特征词 ti 在文本 Dj
1 Web 文本挖掘
1.1 Web 文本挖掘
Web 文本挖掘是指借鉴数据挖掘的基本思想和
理论方法,从大量非结构化、异构的 Web 文档的集合
D 中发现有效的、新颖的、潜在可用的及最终可理解
的 知 识 K ( 包 括 概 念 (Concepts)、 模 式 (Patterns)、 规 则
(Rules)、 规 律 (Regularities)、 约 束 (Constrains) 及 可 视 化
(2)对中文文本进行分词处理; (3)文 本 的 表 示 , 即 特 征 的 建 立 , 也 就 是 获 得 特 征 词,并计算其权值,获得初始特征向量; (4)进行特征选择,获得最终特征词向量。
3 结语
Web 文本的数据预处理是 Web 文本挖掘工作的 基础,其结果直接影响到挖掘(文本分类、文本聚类等) 的质量。 本文讨论了 Web 文本的数据预处理的关键 技术, 在将来的研究中我们还需要根据 Web 文本自 身的特点对各关键技术进行改进,以便更好地进行后 续的文本分类、文本聚类、关联分析、趋势预测等挖掘 处理工作。
需要对特征空间进行降维处理。
主要有两种降维方法:特征选择和特征抽取。 这
里我们讨论特征选择。
现
特征选择就 是 从 特 征 集 T={t1,… ,ts}中 选 择 一 个 代
真子集 T '={t1,…,ts'}。 其中 s 为原始特征集的大小,为 计
选择后的特征集大小, s' 远小于 s。 特征选择没有改变 算
(1)文本特征的定义 文本特征是指关于文本的元数据,分为描述性特 征(例如文本的名称、日期、大小、类型等)以及语义性 特征(例如文本的标题、内容等)。 描述性特征易于获 得,而语义性特征则较难获得。 自然语言理解的研究 例如中文分词技术的发展,对于语义性特征的获得具 有重要的意义。 一个有效的文本特征集, 一般必须具备完全性、 区分性和精练性等特点。 (2)向量空间模型 特征表示模型有多种, 常用的有布尔逻辑模型、 概率型、向量空间模型(Vector Space Model, VSM)等。 这里我们讨论近年来应用较多效果较好的向量空间
一种理想的分词方法,知识分词利用有关词、句子等
的句法和语义信息或者从大量语料中找出汉字组词
的结合特点来进行评价,以期找到最贴近于原句语义
的分词结果。
2.3 特征选择
Web 文本的数据量非常大,用来表示文本的特征
向量的维数很大,可能会达到几万维,如此高维的特
征空间会使一些挖掘算法无法进行或效率很低,因此
Web 文本挖掘中数据预处Á理技术研Á究 研究与开发 胡 静 , 蒋外文 , 朱 华
(中南大学信息科学与工程学院,长沙 410083)
摘 要: 数据预处理是将原始的 Web 文档转化为适合进行数据挖掘的 中 间 表示 形 式 ,在 Web 文 本挖掘过程中起着至关重要的作用。 介绍 Web 文本挖掘的概念及 Web 文本挖掘的一般 流程 ,对 Web 文 本 挖 掘中 的 特 征表 示 、中 文分 词 、特 征 选 择 等 数 据 预 处 理 关 键 技 术 进 行 详尽的分析。
三 收稿日期:2008-12-25 修稿日期:2009-02-05 期 作者简介:胡静(1978-),女,湖南湘阴人,硕士, 研究方向为数据库技术、数据挖掘 )
趧趻 M O D E R N C OM P U T E R 2009.3
○
研究与开发
模型。
向量空间模型是 60 年代末由 Gerard Salton 等人
基于规则的分词方法,这种方法又叫做机械分词
方法,它是按照一定的策略将待分析的汉字串与一个
“充分大的”机器词典中的词条进行匹配,若在词典中
找到某个字符串,则匹配 成功(识别出一个词)。 常用的
方法:最小匹配算法、正向(逆向)最大匹配法、逐字匹
配算法、神经网络法、联想-回溯法、基于 N-最短路径
分词算法,以及它们的相互组合,例如,可以将正向最
它是统计语言模型中文字相关性的一个标准测试
值, 根据语言的出现情况来衡量一个词语对一个类的
重要程度。 一个词语对一个类的 MI 值的评价函数为:
MI(t,ci)=logp(t,ci)/(p(t)×p(ci))=logp(t,ci)-logp(t) 互信息有一个很大的缺点就是容易受到一个词
语边缘概率的影响。 例如,如果两个词语具有相同的
研究与开发
估函数法。 下面介绍几种在实际中应用比较多的评估
方法。
(1)信息增益(Information Gain, IG)
在机器学习中,信息增益经常被用来作为衡量属
性值的标准。 信息增益通过文本特征项在文本中出现
与不出现的情况来推算该特征项的信息量。 其评价函
数为:
m
m
Σ Σ IG(t)=- p(ci)logp(ci)+p(t) p(ci|t)logp(ci|t)+
大匹配方法和逆向最大匹配方法结合起来构成双向
匹配法等。 目前机械式分词占主流地位的是正向最大
匹配法和逆向最大匹配法。
基于统计的分词方法,是基于(两个或多个)汉字
同时出现的概率,通过对语料库(经过处理的大量领
域文本的集合) 中的文本进行有监督或无监督的学
习,可以获取该类文本的某些整体特征或规律。
基于理解分词,又称之为知识分词,知识分词是
关键词: Web 文本挖掘; 向量空间模型; 中文分词; 特征选择
0 引言
随着Internet 的迅速发展及 Web 的全球普及,Internet 已 经 成 为 世 界 上 最 大 的 信 息 积 聚 地 。 这 其 中 80%的信息是以文本的形式存放的,包括 Web 页面、 小说、电子邮件、新闻和广告等,它们构成了一个异常 庞大的具有异构性、 开放性的分布式数据库。 如何 快速地、有效地从 Web 上获取有用的知识,已经成为 当 今 热 门 的 研 究 方 向 , 同 时 Web 文 本 挖 掘 成 为 了 Web 数据挖掘中的重要研究领域。
2.4 数据预处理的一般过程
综上所述, 文本挖掘中数据预处理的功能是:从 Web 页面中提取文本信息,并转化为结构化的存储结 构。 其一般过程包括如下步骤:
(1)去 除 网 页 内 容 中 的 音 频 、 视 频 、 图 片 等 其 他 非 文本信息,还有各种网页本身的标记语言,最后仅剩 下网页中的文字内容;
形式变化(例如现在分词、过去分词等)还原为原型即
可,实现相对简单。 中文与英文不同,句子中各词条之
间 没 有 固 定 的 分 隔 符(空 格),进 行 中 文 文 本 的 词 频 统
计前,首先需要对中文文本进行分词处理。
中文自动分词方法有很多,主要可以分为 3 个方
面:基于规则、基于统计和基于理解的分词方法。
中的权 wij 的初步定义:
wij=tfi·j idfi
(2)
③特征权值的归一化。 为降低个别高频特征词对
其他低频特征词的抑制作用,对个特征词的权值进行
归一化,得到特征词在文本中的权的定义为:
wij=
tfi·j idfi
n
姨Σ 2 (tfi·j idfi) i=1
TF-IDF 公式反映了这样一个事实: 当一个词语
χ2(t,c)=
N×(p(t,c)×p
(
軃t
,c軃
)-p(t,c軃
)×p
(
軃t
2
,c))
p(t)×p(軃t )×p(c)×p(c軃 )
其中 N 代表所有文本总数,p(t,c)代表一个文本
既包含词语 t 同时又属于类 c 的概率,代表一个文本
包含词语 t 同时但不属于类 c 的概率,其余类推。 这
个 公 式 计 算 的 是 一 个 词 语 相 对 于 某 一 个 类 的 CHI
向 量 空 间 模 型 将 文 本 表 示 为 特 征 向 量 (w1,w2, …,wn),其中 wi 为特征词 ti 的权值。
(3)权值计算
特征词的权值要最大限度地区分不同的文本,权
值的定义方法也有很多,这里介绍常用的特征权值计
算方法 TF-IDF,它主要由以下因素决定:
①特征词的词频(Term Frequency,TF)。 特征词 ti 在 文 本 中 Di 的 词 频 tfij 为 特 征 词 ti 在 文 本 Di 中 出 现 的频率;
条件概率 p(t|ci),那么出现次数少的词语会比出现次 数多的词语得到更大的 MI 值。
(3)χ2 统计法(CHI)
它衡量的是一个词语与一个类之间的相关程度,
它基于如下假设:在指定类别 C 的文本中出现频率高
的词语和在其他类的文本中出现频率高的词语,都对
判别该文本是否属于类别 C 有帮助。 其评价函数为: