学习资料:文本数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

学习资料:文本数据挖掘(Test Mining)

在当今世界,一个人或一个组织所获得的文本信息集合十分巨大,而且文本信息集合还在不断地更新和增加,信息检索等技术已不能适应当今文本信息处理的需要,因而,人们开始使用文本挖掘技术来解决这一难题。

1、定义

文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支,由机器学习、数理统计、自然语言处理等多种学科交叉形成。

2、功能

文本挖掘可以对大量文档集合的内容进行总结、分类、聚类、关联分析等。

(1)文本总结

文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行。

(2)文本分类与聚类

文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。利用文本分类技术可以对大量文档进行快速、有效的自动分类。

文本聚类与文本分类的不同之处在于,聚类没有预先定义好主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。

(3)关联分析

关联分析是指从文档集合中找出不同词语之间的关系。

3、典型应用方法——共词分析

共词分析法主要是对一对词两两统计其在同一篇文献中出现的次数, 以此为基础对这些词进行分层聚类, 揭示出这些词之间的亲疏关系, 进而分析它们所代表的学科和主题的结构变化。

其思想来源于文献计量学的引文耦合与共被引概念, 其中, 共被引指当两篇文献同时被后来的其他文献引用时, 则这两篇文献被称作共被引, 表明它们在研究主题的概念、理论或方法上是相关的。两篇文献共被引的次数越多, 它们的关系就越密切, 由此揭示文献之中的亲疏关系。

同理, 当一对能够表征某一学科领域研究主题或研究方向的专业术语( 一般为主题词或关键词) 在一篇文献中同时出现, 表明这两个词之间存在一定的关系, 同时出现的次数越多, 表明它们的关系越密切、距离越近。

共词分析通常可以分为3个步骤。

(1)高频词的选定

在选定数据库中, 主题词或关键词出现频率的高低反映了某一领域研究的关注度和集中度高低,关于某一问题的研究越多, 相应的主题词或关键词出现的频率越高, 反之亦然。将所有主题词或关键词按出现频率的高低顺序予以排列, 选取其中出现频率较高的词汇作为分析对象。

(2)共词矩阵的构建

在选定的数据库中, 两两统计高频词在同一篇文献中出现的频次, 由此形成共词频次。据此形成共词矩阵( 包括相关矩阵、相似矩阵和相异矩阵) , 以便下一步使用。

(3)多元统计方法的选取

根据不同的研究主题, 采取相应的统计方法揭示共词矩阵中的信息。常用的方法包括因子分析、聚类分析和多维尺度分析等。

4、应用领域

科技情报、科学研究(生物医学等)、商业。

5、挖掘工具

(1)IBM DB2 Intelligent Miner

(2)SAS Text Miner

(3)SPSS Text Mining

6、局限

(1)无法解释“为什么”,只能说明“怎么样”。

(2)共词分析仅能在文献中找到被人们关注的主题,往往是在趋势形成之后,而不能反映出处于生长之中的, 位于关注焦点边缘的带有苗头性质的主题。如果降低截取高频主题词的阈值, 包容更多的主题词,会出现一些有苗头的东西和有倾向性的主题, 但这样又往往影响聚类的效果。

相关文档
最新文档