文本挖掘技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本挖掘技术研究
作者:林海文
来源:《电脑知识与技术》2008年第34期
摘要:文章报告了文本挖掘技术的现状、文本挖掘的过程、文本挖掘研究的课题,最后对文本挖掘的前景做了展望。
关键词:文本挖掘;文档分类;文档聚类;自动文摘
中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)34-1711-02
The Research of Text Mining Technique
LIN Hai-wen
(Yang-En University, Quanzhou 362014, China)
Abstrct: The article reports the actuality、the process and the research-aspects of the text mining technique. At last, gives an expectation for the text mining.
Key words: text mining; document classify; document clustering; auto-summary
1 引言
面对浩如烟海的文本信息,人们迫切需要研究出方便有效的工具去从大规模文本信息资源中提取符合需要的、简洁的、精炼的、可理解的知识,文本挖掘(Text Ming,简称TM)因此产生。
2 正文
文本挖掘即文本数据库中的知识发现,是从大量文本的集合或语料库中发现隐含的、令人感兴趣的、有潜在使用价值的模式和知识[1]。
定义1 文本挖掘是指从大量文本集合Doc中发现隐含的模式P。
如果将Doc看作输入,P 看作输出,那么文本挖掘的过程实质上就是从输入到输出的一个映射:Doc→P。
2.1 国内外研究现状
下面列出一些著名的国外文本挖掘工具:
1) IBM的文本智能挖掘机[2]。
其主要功能是特征提取、文档聚集、文档分类和检索,支持16种语言的多种格式文本的检索,采用深层次的文本分析和索引方法,支持全文搜索和索引搜索,搜索条件可以是自然语言和布尔逻辑条件,是Client/Server结构,支持大量并发用户做检索任务,联机更新索引。
2) Autonomy公司的Concept Agents,经过训练以后,它能自动从文本中抽取概念[3]。
3) TelTech公司的TelTech。
提供专家服务,专业文献检索服务,产品与厂商检索服务,TelTech成功的关键是建立了高性能的知识结构[4]。
国内情况:
表1为部分科研单位与大学对文本挖掘的研究情况。
2.2 文本挖掘过程
文本挖掘的过程文本挖掘的主要处理过程是对大量文档集合的内容进行特征集的建立、特征集的缩减、学习和知识模式的提取、模式质量评价等。
·特征集的建立:由于处理的是非结构化的文本,使得现有的数据挖掘技术无法直接应用,因此要从文本中提取适当的代表其特征的元数据(特征项),将这些特征用结构化的形式保存起来,从而实现对非结构化的文本处理。
·特征集的缩减:自然语言文本集中往往包含大量的词汇,如果把这些词都作为特征,其特征维数会相当高,这些特征对将要进行的分类学习未必全是重要、有益的,而且高维的特征会大大增加机器学习的时间,因此需要去掉一些冗余词汇,以降低维数。
·学习和知识模式的提取:在进行完特征集的缩减后,就可以利用机器学习的各种方法来实现面向特定应用目的的知识模式,通常是进行文本分类或文本的聚类等。
·模式质量评价:为了客观地评价文本挖掘的效果,经研究提出了很多评测方法, 比较常用的有准确率(P- Precision)、召回率(RRecall)。
准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。
查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率。
2.2.1 文本挖掘常用技术
从文本挖掘技术的研究和应用状况来看,从语义角度来实现文本挖掘的还很少,目前研究和应用最多的文本挖掘技术是文档分类、文档聚类和自动文摘[5],是挖掘工作最重要的部分,处在挖掘过程的“学习和知识提取”阶段。
1) 文档分类
文档分类是按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。
这样用户不但能够方便地浏览文档,而且可以限制搜索范围来使文档的搜索更容易、快捷。
文档分类一般采用统计方法或机器学习来实现。
常用的方法有:朴素贝叶斯法(NB),K-最近邻法(K-NN)、支持向量机 (SVM)、向量空间模型(VSM)、线性最小二乘方估计法(LLSF)等。
2) 文档聚类
文档聚类的目标和文档分类是一样的,只是实现的方法不同。
文档聚类是无教师的机器学习,在文档归类之前没有定义好的类可供选择。
在文档聚类时,将所有类型接近的文档归为一类,使类型相同的文档尽量归为一类,类型不相同的尽量隔离开来,聚类的标准可以是文本的属性,也可以是文本的内容。
聚类的方法通常有:K-最近邻参照聚类法、简单贝叶斯聚类法、层次聚类法、平面划分法(k-means算法)、分级聚类法、基于概念的文本聚类等。
3) 自动文摘
自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文,其目的是尽量减少用户阅读的文本量。
2.2.2 文本挖掘系统评估方法
系统评估处在挖掘过程的“模式质量评价”阶段,比较公认的评估办法和标准如下:
1) 查全率和查准率
查准率(precision)=■
查全率(recall)=■
2) 冗余度和放射性
冗余度表示信息抽取中冗余的程度[6]。
放射性是一个比较模糊的概念,它表示一个系统在抽取事实不断增多的时候产生错误的趋势。
大家都希望系统有着最低的冗余度和放射性。
3) 双目失明测试[7]
先用机器生成一组输出结果,再混合人类专家用作的相同形式的输出结果。
这种混合后的输出集再交给其他的一些人类专家,让他们给予其准确性上的评估。
文本挖掘面临许多新的研究课题:
1) 文本的表示
需要对文本进行预处理,对文本进行特征提取,从而把文本表示为计算机可读的一种中间形式。
[8]
2) 跨语言问题
文本挖掘功能要考虑到多种语言之间的语义转换,需要一个语言模型及系统的方法,这将构成跨语言文本挖掘的重要部分。
[9]
3) 大规模文本集合
要对文本集合进行处理,必须有快速高效的文本挖掘算法。
4) 模式的理解和可视化显示
模式的可理解性很重要的,提高可理解性的解决方法通常包括以图形方式显示结果,提供相对少量的规则,或者生成自然语言以及利用可视化技术等。
5) 算法运行中参数的设定和调节
让算法在运行过程中自动选择相对较好的参数值和自行调节参数的取值,是很多算法能否被广泛使用的一个关键问题。
6) 算法的选择
各种算法各有其特点,如何从中选择一个适合于具体应用的算法是一个尚待研究的问题。
7) 领域知识集成
领域知识很可以提高文本分析效率,有助于取得更紧凑的表示形式等,因此,可以考虑把领域知识集成到文本挖掘系统中。
8) 中文文本分词技术
在中文中,词与词之间没有分隔符,一个句子是由一串连续的汉字组成,加之汉语中的词具有不同的长度,相同的字可出现在许多不同的词中,还有许多词是由单个字组成,这使得中文分词是一项很难的工作,需要快速有效的技术。
从文本挖掘的现实来看,虽然距离语义层次的理解和知识挖掘的理想还很遥远,但是已经在文本搜索、剔出重复、文档聚类分析、自动分类和文摘方面取得了实用的效果。
不要企望短时间内对文本挖掘技术在语义层面有很大的突破,因而不要对其理解力和智能化有过高的奢望。
特别是在短时间内,理解、想象和含义判断依然是人类的专利和专长。
不要奢望文本挖掘很快越过语义鸿沟, 也不要因为语义鸿沟的存在而看不到其重要的应用意义和巨大的商业价值。
参考文献:
[1] Feldman R,Dagan I.KDT-Knowledge Discovery in Textual Databases[C]//Proceedings of the 1st Annual Conference on Knowledge Discovery and Data Mining,1995:112-117.
[2] 蒋良孝,蔡之华.文本挖掘及其应用[J].现代计算机,2003(2),31.
[3] /ipower/erp/krm/krm010417004.htm[EB/OL].
[4] Expert Advisory nettwork[EB/OL]./capabilities/advisory-network/advisory-network.html.
[5] 薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,(04):59-63.
[6] Lehnert W.A Performance Evaluation of Text Analysis Technologies[J].AI
Magazine,1991:81-94.
[7] Ishida T.ICE Contact[EB/OL].http://ice.kuis.kyoto-u.ac.jp/ice/contact.htm,2004.
[8] 曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006(3):134-135.
[9] 王进,陈恩红,张振亚,王煦法.基于本体的跨语言信息检索模型[J].中文信息学报,2004(3).。