中文文本聚类分析和实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

独创蛙说甥
本^邙煎声明:所量交的论文是我个人在导师指导一卜H进行的研究l“作及取褥研究成荣。

尽我所知。

除了Z中特别加以标注承{致谢的地方外,论文中不包含其他人已经发表戚撰‘写的研究成果,也不包禽为获得北京邮电夫学或其他教育机构能学位或证:强所使糟过的材辑。

与我一间工作静阉志对本研究所做的任何羹献均融在论文中做了明确的说明并袭示了谢意。

签名:猛窒整日期!型i幸18竺!
关予论文使j_}l技校麓谎瞑
本人完全了解北京邮电犬学有关保留、使瑚学位论文的规定,即:学校有权保留送交论文的复印件,允许论文渡褒翔和借耀;学校可以公葶嚣论文麴全部袋部分内窬,可以采明影、缩印或其他复制手段爆存论文。

(僳密的论文在解密后廊遵循此规定)
虢醴整.一名:斜厶
一I-
本文就文本自动聚类技术的发展及现状进行了系统的回顾,然后,针对社科领域的文本聚类进行了较为深入的探讨与研究,实现了两个实验系统。

本文的工作重点足:
1.采用了ISODATA聚类方案,并与KNN方案进行比较,在此基础上实现了两种不同聚类方法的实验系统。

2.对于文本聚类系统特征抽取的维数选取问题进行了实验和探讨,给出了比较合理的取值区间。

3.对于文本聚类系统中语料库质量与文本聚类效果的关系,进行了实验研究,并对实验结果给出了合理的解释。

4.参照文本分类,尝试了基于查全率和查准率的评价方法;参照数据聚类,尝试了基于“核”的评价方法。

5.对于两种不同的聚类方法在运行时间、聚类效果、聚类评价等方面进行了探讨。

6.对于KNN聚类的最佳K值选择进行了实验研究和分析。

权关键词:文本自动分类,文本聚类,文本预处理,文本表示,特征抽取,
重评价,ISODATA聚类算法,KNN算法
!!塞墅皇查堂堡主兰焦笙苎主壅苎查塞鲞塑婴窒量壅堡
ABSTRACT
Inthisthesis,thedevelopmentandstatusquoofAutomaticTextClusteringis
systematicallyreviewedandwithspecificdomainofSocialScienceasitsresearchemphasis,someconcemedproblemsarestudied.
1)InthisthesisISODATAmethodisgiventhatcomparedwithK—meansttotakethetaskoftextcluster.
2)KeystepsofAutomaticTextClusteringsystemrealizationtechniques.suchastextpreprocessing,textrepresentation,featureselectionandweighting,arediscussed.Withthebuildingprocessasthemainthread,analysisofexistingmethodsisgiven.
3)Asummarizationofreviewingmethodsandsystemperformanceindexareprovided.Alsothenecessityofsuchreviewandtheabilityofthoseindexestoreflectthesystemperformancearediscussed.
4)ChapterFourshoWanautomatictextcategorizationsystemthathasbeenbuiltonthetheoryofVectorSpaceModel(vSM).WithSocialScienceasitsspecificdomain,keystepsandrealizationprocessofthesystemaregiven.AdvancementofthemethodiSsetforth.Importanttestsandcorrespondingtestresultsareshownanddiscussed.
5)AfeWfactorssuchastime,performance,etc'aluationwhicheffectthesystemarediscussedcomparedKNNwithISODATA.
6)Atlastadvantagesandshortcomingsoftherealizedsystemisdiscussedandsomeimportantdirectionsforfutureresearcharegiven.
Keywords:AutomaticTextCategorization,TextClustering,ISODATA,TextPreprocessing,TextRepresentation,FeatureSelection,Weighting

1.绪论:
1.1.问题的提出
随着科学技术在深度和广度上的不断发展,科学文献在世界各地相继出现了许多引人注目的特点:在出版种类、出版数量、出版速度各方面飞速增长;文献的分布极其分散;文献语种迅速增多;各种文献之间彼此交叉、重复日益严重;文献新陈代谢越来越快。

与此同时,在科学领域,另一种趋势也日益明显,即:传统的学科界限不断被打破,学科越来越多,越来越细,从而导致对于文献信息需求的不断深入和集中。

这两种趋势使得庞大文献资料与特定用户需求之问的矛盾日益尖锐,文献组织的问题在这样的环境F应运而生。

随着计算机技术和互联网的应用越来越广泛,信息已经渗入到社会的各个角落。

越来越多的个人或学术团体将自己研究领域的成果都放在了internet网站上。

同时,各种娱乐、商业、文化等非学术页面更是多如牛毛。

信息急剧丰富而经过加工的知识信息相对匮乏,据估计,web已经发展成为拥有上亿页面的分布式信息空间,而且这个数字仍在高速增加,在这些大量、异质的Web信息资源中,蕴含着具有巨大潜在价值的知识。

人们迫切的需要从Web上快速、有效的发现资源和知识的工具。

综合上述的原因,我们感到对于文本和知识的分类需求越来越紧迫,与数据库中结构化的信息相比,非结构化的文本信息更加丰富与繁杂。

聚类分析作为一种数据挖掘的重要手段,在文本挖掘中也扮演着非常重要的角色。

本文对文本聚类问题进行了研究和试验,获得了一些有益的结果。

1.2.与文本分类的区别
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。

这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。

利用文本分类技术可以对大量的文档进行快速、有效地自动分类。

目前,文本分类的算法有很多种,比较常用的有TFIDF和Na'fveBayes等方法。

文本聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档的内容相似度尽可能大,而不同簇间文档的内容相似度尽可能的小。

Hearst等人的研究已经证明了“聚类假设”,即与用户查询相关的文档通常会聚类的比
———韭塞堂皇查璺堡兰笺焦丝兰—一±塞塞查鲞鲞笪婴窒望塞里较近,而远离与用户查询不相关的文档比较分散。

在这个基础上,我们比较容易找到与用户关心话题相近酶内容,根据需要适当扩大瘸户豹获取蒎潮。

自动聚类与自动分类的关系非常密切,在算法和思想上髑者存在共通之处。

出于现在聚类的发展尚不完善,本文在特征值表示、聚类结果评价等各个方面都以分类为参照标准进行。

1.3.历史回顾
从发展现状看,对基于内容翰文本自动聚类的研究尚较少,国内的研究者如山西大学等对数字鞠离教继息源微了一赡职究,也取得了一撩成绩,但是对于j#绦稳化粒文本,实现的并不多。

GSalton等曾对自动聚类进行了比较深入的研究【26]。

自幼聚类研究中最重要的概念是文献间豹距离(相似性),一般可采用欧氏距离法、数量积法、相关系数法、豢数摆戳系数法、夹恁余弦法、最大最小法等怼其定义,在此基础上鑫动聚类浆主要算法主要有:数值矢量法,图分类和逐步聚类法。

数值矢量法包括单遍聚类法,小中取大躐离分类法,岛上而下的类剐精化法和密度测试法;图分类包括完全予图分类法和萃链法;逐多聚类法包摆系统聚类法,ISODATA模糊聚类法和剥阕最大挝终摸糊聚类锋。

所有的聚类算法都需考虑以下三方面因素:聚类时间、次序独立性与重叠度【13】。

聚类算法蘩娄对翔次序独立性重叠凌
单遍聚粪法O(n1ogn)不有
不没有
小中取太距离分类法
0(n)~0(n’)
自上而下的类荆精化法0(13.10gn)不胄
不有
密度粼试法
o(n2/logn)~O(n2)
是有
完全予嚣势粪法
O《k8)k为常数
是有
革链法
otn2)~O《n21。

gn2>
与以后采用有
基于莓价关系豹聚类
o(g“3X{≤k≤1)
的分类法有关
是没肖
模糊黧类
O(n3)
———韭塞!!旦盔型堂垡笙壅
主苎苎查窭鲞塑竺壅兰壅翌
从上表不难发现,现有的聚类算法或是时间复杂度不满足要求(如完全子图分类法、ISODATA模糊聚类法、基于等价关系的聚类等),或次序独立性不满足要求(如单遍聚类法、自上而下的类别精化法、小中取大距离分类法等),或重叠度不满足要求f单链法、完全子图分类法等)。

由于上述原因的存在及文献的多样性、复杂性及待分类对象的广泛性使得上述算法大多仅限于理论上的探讨,很少投入实际应用,因而本文试图从应用的角度对文本聚类进行大胆的尝试,进行了KNN和ISODATA的实现与比较,并对性能的提高进行了探讨。

从国内的发展状况来说,之所以没有研制出能够投入实用的自动分类系统大致是由于以下问题的存在[14]:
(1)目前分类系统的信息源是:题名+文摘。

其依据是以下的统计规律:社会科学文献题名与内容的符合率为84%,自然科学的符合率为89.3%。

不难看出,依据题名进行分类将有百分之十几的文献将被误分;(2)分词算法的不足。

(3)分类主题词表的不足。

;(4)分类法本身的缺陷。

(5)程序本身的不足。

(6)知识库规模小。

在自然语言理解领域,我国有几所大学对于文本的处理如摘要、分类、分词等进行了研究,如哈尔滨工业大学、东北大学、山西大学、上海交通大学等。

并且已经取得了初步的成果,但对于文本聚类,大多处于理论探讨的阶段,很少有具体的系统实现,因此,本文在尽可能避免分类上述局限的基础上进行了大胆的尝试。

1.4.本文的选题及关键点
在文本聚类中,最关键的问题在于特征词的选取及其特征的权重分配,在本文中考虑了并实现了利用词频法和语言信息相结合的方法,即既考虑了基于规则的方法,也考虑到基于统计的方法,也就是文本库本身对于分类和聚类结果的影响。

本文采用了词作为特征项对文本进行向量化,对于特征值的确定方法采用了根据词频和文本长度相结合的方法。

对于特征值的不同维数迸行了多种选择,给出并分析了实验结果,在聚类方法的选取上本文试图同时应用两个方法(KNN、ISODATA)来进行文本聚类的实现。

在文本表示中讨论了词对于文本聚类技术的影响,也就是义类词典的使用与否,对于聚类的效果影响。

因此本文欲从自然语言理解的角度探讨词汇词义与概念,与类别判
北京邮电大学硕士学位论文中文文本聚类的研究与实现
定之间的关系,探讨义类词典对计算机进行基于人类概念的类别判定的作用;现有的通道统计学习实现文本聚类系统静方法有多稀,作者采稻了其中一种鞍蔻鬻稿懿方法,繇趣量空间法(VSM)。

VSM实际上是~葶中文档表示洪,它将任意文档表示成空间向量的形式,向量的每~维都对应文档中出现的词祭,而每一维本身则浚示了其对应的词条在该篇文档中静权薰,袄熏代表了一个诩褶对予这篇文档静蓬要纛凌,毽反映了该谲反映文档内容的能力。

在实现两种聚类方法的基础E,作者采取了首先通过KNN聚类得到聚类缩果,在采用“核”静方法评估聚类结采静蔺时,得蓟不同类蠲最小豹类阕距离和闾类枣最大懿类内分数度。

根据这个数嫩级,对于ISODATA算法进行初始化,掇然这~新的机制从人为地评价聚全率和聚准率上未能显著提高KNN的性能,但是对于聚类的另一种评价方法….基予核的评倍,它选远伉于KNN算法。

作者针对暴体情猛进行了分橱,给予了合理的解释;另终,在系统实现的基础上,作者通过系统进行了一系列试验,首先验诞了文本集规模及特征向量维数对聚类器性能的影响;然后分析比较了两种不同聚类方案的结栗,最后从系统性能捷高静角度讨论了一些ISODATA方法静不足之箍积磷麓豹改进。

’.5。

本文的结构设计
零文稳第二章会绥了文本聚类豹嘏关技术;第三拳对予文本聚类中的莲于关键点避行了探讨和斓述;第四章用两种不同的方法对文本聚类系统进行了设计和实现,并对其中特征维数、语料库本身、不同聚类算法等对聚类的影响谶行了探讨,黻两种评价方法迸行了分轿:第五举对系统遴嚣了评臻势对寒寒魏王传遴铃了曩耀。

———些塞些皇查堂堡圭羔熊篷生一生苎苎查墨鲞塑型塞兰窭墨2。

第二章:文本聚类的栩关技术
2.1.自然语宵理解技术
自然语言理解魑人工钢能发展早期较活跃的研究领域之一,同时也怒新一代计算瓿豹必螽特征之一。

2。

{.{。

羯然港富理瓣瓣含义;
扶微戏上漤,是然语专理解楚一静从叁然诿言到计算极系统蠹部形式憋~秘映射。

从宏观讲,自然语言理解是指计算机能够执行人类所期望的某些语言功能【33】。

例如,潮答有荧提问,提取材料摘要,不丽词谬叙述,不同语言翻译等。

广义兹“语言”是{壬键一秘蠢结搀豹符号系统【33】。

人类的语寓、手势、体态,极器的指令、命令、程序,排版时的格式说明,公路上的交通图标……都属于这种广义的“语言”。

狭义戆“添言”攒人类在其挫会生瀵中发鼹逛来瓣震来匿糖交嚣戆声音簿譬系绞【33]。

现已发现数千种不同的自然语言。

“自然语言理解”指的就怒使计算机来按照这种语言所表达的意义作出稽应的反应的机制。

2.1.2.自然语宙理解的层次划分
语言学土对语言有这样静层次划分:第一艨次是语音稻文字,帮基本语言信弩魏构成:第二层次楚词法秘句法(会穆“语法”),即语言基本运用单位的构成和缎会的形式规律;第三层次是语义,即语言所要表达的概念结构;第四层次是语用,即诺言与语言使用环境的相誊作用。

一般说来,入和计算视打交道,黼前是采用键盘输入字符的方式,毽语啻麴文字方式巍予浯毒窝文字的谈别灼进展也蠢经舞始进入实用的水平;囱然语言理解的关键,仍然是文字进入计算机以后的词法和句法分析、语义分析和语用分析。

现在已经有~些计算机程净能在受限翻的领域内“懂褥”英语等自然语言,眈蟊根据数据疼里黪信塞瑟答瓣蘧或魅理事务,按照盎然谖吉静念令敲一些麓罄的事愤等等e要实现不限领域的自然语言理解,目前在技术上还筒临很艰巨的挑战。

首先,自然语言是极其复杂的符号系统。

~个人尽管可以对自己的母语运用自如,经帮无法把爨己母落弱毒毒戏援律、意义翁表达鬏律亵谗言使题豹援德用计舞规可以接受

北京邮电大学硕士学位论文中文文本聚类的研究与实现
的方式彻底说清楚。

传统的语言学是在没有计算机参照的条件下发展起来的,虽然为自然语言琏解积累了塞贵的瑟富,稳那是讲给久豹,卖正要诖添言学戋拜识交藏计冀穰上可操{乍的,绝不是那么简单。

这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设才可能实现。

葵次,蟊然语富的各个层次上都含有巨大瓣不确定往。

在语紊帮文字层次上,有一字多套、一毒多字的润题;在词法和句法层次上,有词类词性、词边界、句法结构的不确定性问题;在语义和语用层次上,也有大量的因种种原因造成的内涵、外延、指代、言外之义的不确定髂。

语裔学上稳这婆不确定性秘徽“菠义”。

菠义一般不能通:i霆发生歧义鲍逶言单位囊身获褥瓣决,薅必须借助予更太的语言单位乃楚非语言的环境背景因素和常识来解决。

使计算机获得同样强大的能力,怒从事自然语吉理解的学者梦寐以求的目标。

2.1.3.小结;
鑫然语言莲解实际上~耱密语言学、逻辑学、生瀵学、一按理学、计羹极科学帮数学等扭关学科发展和综合面形成舶-1"3交叉学科。

例如,语言学家致力于制定语言的规则;逻辑学家着敷研究诺言中的逻辑和推理方法;人工智能工作者则主要研究如何让计算机识尉、理解人类懿蠢然语蠢。

在本文中,主要采用对于自然语言理解的统计的方法在词的层次上即词频法来表示文本的特征,采用反文本词数的方法来均衡权踅的值。

至予义类词典的使用和消除“妓义”,其难度和工作藿可戳当{乍一个耨瓣课题采弩}究,嚣蔫恣没奢疆一令系统簸够完全的排除歧义,本文只在这方面与文本聚类相结合作了理论上的探讨。

2.2。

语料摩技本
对予汉港语料簿熬处理,可以设怒寿以下几个阶段,如图2.1所示。

这样,经过不同阶段的处理,语料库所携带的各类信息也不断增加,最终将成为一个名副其实的语言知识库。

这样的知识库可以为汉语统计分析、汉语纛解、橇器翻译帮交本挖掘瓣供重簧豹资滚窝鸯力獒支跨。

———些塞塑皇查兰篁主兰竺笙兰!一生苎苎查壅鲞竺墅塞量壅翌
图2.1汉语语料的加工顺序【28]
本文的两个算法都只需要进行分词的预处理,所以本节对分词预处理作一下说明。

中文自然语言处理与英文语言处理存在着一个较大的差异,即英文文章中的词是独立的,词与词之间有空格作为划分,而中文篇章中词与词之间是连续的,因此中文自然语言处理一个必不可少的步骤就是分词。

我国研究者提出了多种汉语分词算法,这些分词算法从总体上可分为两类:一是机械分词,特点是易于实现,但是精度不高。

主要有最大匹配法、逆向最大匹配法、逐词遍历匹配法、设立切分标志法等。

二是智能分词,也称知识分词,使用多种知识和规则来提高分词的精度,因此,它精度高,但是难以实现,而且分词速度明显地比机械分词慢。

自动分词的缺陷,例如歧义切分,错误的分词显然会影响后续知识获取的正确处理,但是本文并没有计划对自动分词进行研究,因为现有的分词方法歧义切分的可能性已经比较低。

本文面向特定领域的,不可避免地会遇到很多专业术语,能否正确地切分出该领域的专业术语将直接影响到结果。

在研究中发现,特定领域的专业术语有许多由单个词组成的合成词组,例如,“中国共产党”、“中国”、“共产党”都是可独立存在的词汇。

在自动分词过程中,如果它们都存在于分词词典中,则通过最大分词可以切分出词组和最长词,通过最小分词可以切分出单个的词和最短词。

再如“中国共产党”,若采用最大匹配分词法,就被切分为一个复合名词,即“中国共产党”;若采用最小匹配分词法,就可能被切分为“中国”、“共产党”两个词。

不同的划分将影响到后期词汇统计量的计算,进一步将影响到知识获取的结果。

对于采用何种分词方法,北邮智能中心曾经有所探讨,即采用最大分词和最小分词对于文本的分类系统是没有影响的(2001年中文文本分类的研究与实现张莉),考虑到分类与聚类在文本的预处理方面相通甚至相同之处,本文认同分类研究者的成果,因此没有把分词作为考查重点。

北京邮电大学硕士学位论文中文文本聚类的研究与实现2.3.机器学习技术
机器学习是人工智能中的十分重要的研究领域,从20世纪50年代就开始研究。

机器学习就是机器自己获取知识。

具体来讲,机器学习主要有这几层意思【29】:1)人类已有知识的获取(这类似于人类书本知识学习);
2)对客观规律的发现(这类似于人类的科学发现);
3)对自身行为的修正(这类似于人类技能训练和对环境的适应)。

在文本聚类中,借鉴了对自身行为的修正学习的方法,即对于初始聚类中心通过迭代不断地进行修正,随着样本量的增加和文本内容差别的变化情况进行调整。

2。

4.模式识别
模式识别诞生于20世纪20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在60年代初迅速发展成为-I'q学科。

它是利用计算机对物体、图像、语音、字符等信息模式进行自动识别的科学。

2.4.1.模式识别过程
模式识别过程一般包括对待事物进行样本采集、数据获取、特征的提取、特征空间的压缩以及分类识别的准则等。

首先将已知的模式样本进行数值化,送入计算机,然后将这些数据进行分析,去掉对分类无效或者可能引起混淆的那些特征,尽量保留对分类判别有效的数值特征,即进行特征选择。

特征过多或不明显时,需要采用变换技术,得出数量上比原来少的综合性特征,即进行特征空间压缩(特征提取),然后再按设想的分类判别的数学模型进行分类,并将分类结果与已知类别的输入模式进行对比,不断修正,制定出错误率最小的判别准则。

———韭塞塑鱼查兰堡主兰堡逢苎——一生苎苎查窭耋盟婴壅皇塞里三塑兰H蕃烈罾黼H…类卜识嬲黜
学习
训练模式样本的L.1训练模式样本特征Il制定分类
特征数据输入广_1选择特征空间压缩广1顸别注ij
l改进分类Il错误率监
l识别准则r’_1测
2-1模式识别的过程[2]
2.4_2.模式识别的分类
模式识别常用的办法有统计决策法与句法方法,监督分类与非监督分类法,参数法与非参数法等。

1)统计决策与句法分析
统计决策法利用概率统计的方法进行模式识别。

它先对已知样本模式进行学习,通过学样本特征建立起判别函数。

当给定某一待分类模式特征后,看它落在特征超平面上判别函数的哪一侧,就可以判别它是属于哪个类别了。

句法分析是把模式分解成若干个简单元素,然后再用特殊文法规则描述这些元素之间的结构关系[2]。

不同的模式对应着不同的结构。

例如图2.2所示的图片,现在对图片的结构作一描述。

这种描述可采用树结构来实现,如图2.3所示。

事实上,这种描述使用了形式语言的技巧。

图2—2结构法示例
———韭室壁皇奎兰堡兰兰垡堕一一生奎壅奎塞鲞塑翌塞皇窒翌
物A
面x面y面z
图2-3图片的树结构概述
句法方法适合于结构明显、噪声很少的模式识别。

对于文本来讲,适用于类别间区分较大、类内性质较集中的文本集。

2)监督和非监督分类
所谓的分类问题就是把特征空间分割成对应于不同类别的互不相容的区域,每一个区域对应于一个特定的模式类,而不同的类别之间的界面用“判别函数”来描述[2】。

对于监督分类,首先要做的是进行学习,根据样本的特征向量来确定判别函数,只有在判别函数确定之后,才能够用它对未知模式进行分类。

同时,要知道待分类模式足够的先验知识。

在缺乏待分类模式的先验知识的情况下,就要采用非监督分类,即聚类分析。

聚类分析方法是用数学的方法分析各特征向量之间的距离以及分散程度。

有些特征向量可能聚集成若干个群,可以按各个群之间的距离远近进行分类。

聚类分析有两种基本方法,其一是分级聚类方法,其二是扁平聚类方法。

无论采用哪种方法,重要的是选取合适的聚类准则和类间相似性的测度。

聚类准则应是使类间相似度尽量小,而类内相似度尽量大。

类间相似性的测度一般定义为两类样本之间的最小、最大距离或两类样本距离的某种统计量,有时还要考虑样本之间的近邻关系。

31参数与非参数法
参数法也称为参数估计法。

它是当模式样本的类概率密度函数的近似表达式的情况下使用的一种模式识别方法。

例如,在多数情况下,类概率密度函数常常用正态分布来近似,即用正态分布的均值和协方差矩阵作为估计计算判别函数的参数。

如果样本的数目太少,难以估计出概率密度函数,这是就要使用非参数估计法。

相关文档
最新文档