数据挖掘与知识发现(讲稿12---文本挖掘)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊第12章文本数据挖掘与Web挖掘技术

第1节文本挖掘概述

1.1 文本挖掘的出现

在现实世界中，我们面对的数据大都是文本数据，这些数据是由各种数据源（如新闻文章、研究论文、书籍、数字图书馆、电子邮件和Web页面等）的大量文档组成。所以，随着文档信息量的飞速增长，文本数据的数据量也急剧地增长。

文本数据是所谓的半结构化数据（Semi-Structure Data），它既不是完全无结构的也不是完全结构化的。如，文档可能包含结构字段，比如：标题、作者、出版日期、长度、分类等，也可能包含大量的非结构化的文本，如摘要和内容。

文本挖掘（Text Mining），国外有人称之为文本数据挖掘（Text Data Mining）和文本分析（Text Analysis）。文本挖掘一词大约出现于1998年4月在欧洲举行的第十届机器学习会议上，组织者Kodratoff明确地定义了文本挖掘的概念，并分清它与“信息检索”的不同点和共同点。Kodratoff认为，文本挖掘的目的是从文档集合中搜寻知识，并不试图改进自然语言理解，并不要求对自然语言的理解达到多高水平，而只是想利用该领域的成果，试图在一定的理解水平上尽可能多地提取知识。因此，文本挖掘需要数据挖掘、语言学、数据库以及文本标引和理解方面的专家参与。

我国于1998年在国家重点基础研究发展规划（“973计划”）首批实施项目中，包括了文本挖掘的内容。

1.2 文本挖掘的基本概念

1、概念

文本挖掘是一个从大量文本数据中提取以前未知的、可理解的、可操作的知识的过程。文本数据包括：技术报告、文档集、新闻、电子邮件、网页、用户手册等。

文本挖掘对单个文档或文档集（如，Web搜索中返回的结果集）进行分析，从中提取概念，并按照指定的方案组织、概括文档，发现文档集中重要的主题。它除了从文本中提取关键词外，还要提取事实、作者的意图、期望和主张等。这

┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊些知识对许多，如市场营销、趋势分析、需求处理等，都是很有用的。

2、任务

主要任务有：

（1）文本标引和短语提取，即在读取大量的非结构化文本时，应用自然语言处理技术提取文本，集中所有相关的短语。提取时要处理同义词和

词义模糊现象。可以形象地把文本挖掘看作是一支荧光笔，它通读文

本时高亮度显示有关的短语，这些短语放在一起就可以得到对文本的一

个较好的理解。

（2）概念提取（聚类），即对这些短语之间的关系，建立一个“词汇网”；

将相关短语分组，并增强这些组中最重要的特征；最后得到的模式反映

了该文本集中的主要概念。然后，通过提取出的概念集发现未知的知识。

（3）可视化显示和导航。对挖掘得来的信息（词频、相关概率、时事性话题、地域依赖信息、时间序列等），可以从多个视角出发进行分析。

3、文本挖掘与数据挖掘

相似点在于：两者都处理大量的数据，都有归属到知识管理的知识发现领域中。

差别在于：许多经典的数据挖掘算法，如数值预测、决策树等都不太适用于文本挖掘，因为它们依赖于结构化的数据。而像概念关系分析等工作则是文本挖掘所独有的，如表所示。

1.3 文本挖掘与信息检索

信息检索是文本挖掘相关的一个概念，但它与文本挖掘又是不同的两个概念。

信息检索是指从大量的文档集合C中，找到与给定的查询请求q相关的、恰当

┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊数目的文档子集S的过程。区别主要表现在如下几个方面：

（1）方法论不同

信息检索是目标驱动的，用户需要明确提出查询要求；而文本挖掘结果独立于用户的信息需求，是用户所无法预知的。

（2）着眼点不同

信息检索着重于文档中字与词和链接；而文本挖掘在于理解文本的内容和结构。

（3）目的不同

信息检索的目的在于帮助用户发现资源，即从大量的文本中找到满足其查询请求的文本子集；而文本挖掘是为了揭示文本中隐含的知识。

（4）评价方法不同

信息检索用查准率（Precision, 检索到的文档中的相关文档占全部检索到的文档的百分比）和查全率（Recall, 即被检索出的文档中的相关文档占全部相关文档的百分比）来评价其性能，要求尽可能多的检索出相关文档，同时不相关的文档尽可能少。而文本挖掘采用收益（Gain）、置信度（Certainty）、简洁性（Simplicity）等来衡量所发现知识的有效性、可用性和可理解性。

（5）使用场合不同

有时信息检索系统返回太多的结果以致用户无法一一浏览，有时用户没有明确的信息需求，有时用户希望发现文档集合中所具有的结构、趋势、含义，在这些场合下，就需要使用挖掘技术。

尽管文本挖掘是比信息检索层次更高的技术，但它并不是用来取代信息检索技术的，二者是相辅相成的。一方面，这两种技术各有所长，有各自适用的场合；另一方面，可以利用文本挖掘的研究成果来提高信息检索的精度和效率，改善检索结果的组织，使信息检索系统发展到一个新的水平。

第2节文本特征表示与提取

2.1 文本特征的表示

与数据库中的结构化数据相比，文档具有有限的结构，或者根本就没有结构。即使具有一些结构，也是着重于格式，而非文档内容。不同类型的文档结构也不一致。

┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊此外，文档的内容是人类所使用的自然语言，计算机很难处理其语义。文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理，抽取其特征的元数据。这些特征可以用结构化的形式保存，作为文档的中间表示形式。

文本的特征指的是关于文本的元数据，分为：

（1）描述性特征，如文本的名称、日期、大小、类型等；

（2）语义性特征，如文本的作者、机构、标题、内容等；

一般，描述性特征易于获得，而语义性特征则较难得到。W3C(中国万维网联盟)近年来制定的XML（Extensible Markup Language, 可扩展标记语言）、RDF（Resource Description Framework, 一种用于描述Web资源的标记语言）等规范提供了对文档资源进行描述的语言和框架。在此基础上，可以从半结构化的文档中抽取作者、机构等特征。对于内容这个难以表示的特征，首先要找到一种能够被计算机所处理的表示方法。

矢量空间模型（VSM）是近年来应用较多且效果较好的表示文本特征的方法。在该模型中，文档空间被看作是由一组正交词条矢量所张成的矢量空间，每个文档d表示为其中的一个范化特征矢量：

))

(

;

);

(

;

);

(

)

(

其中，

t为词条项，)

为

t在d中的权值。i t可以是d中出现的所有单词，也可以是d中出现的所有短条，从而提高内容特征表示的准确性。)

一般被定义为

t 在d中出现的频率)

的函数，即))

(

)

=。常用的ϕ有：（1）布尔函数

⎪⎩

⎪

⎨

⎧

)

(

)

(

（2）平方根函数

)

（3）对数函数

)

(

l o g(+

（4）TFIDF函数

)

l o g(

)

(

t n

⨯