文本信息分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本信息分析
1.中文文本信息过滤技术研究
1.1文本过滤技术
文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。
1.1.1文本信息过滤技术发展
1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982年,Dernzing 首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。
20世纪90年代以来,著名的文本检索会议TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文本过滤的项目;从1997年TREC-6开始,文本过滤主要任务确定下来;TREC-7又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。
随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。
1.1.2中文本过滤技术
中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了TREC 评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。
然而,基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大,对于文本信息的预处理方法不同,因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验[2]。
1.2中文文本过滤的关键技术
文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时,利用反馈改进需求模型。文本过滤系统的一般模型如图1所示:
1.2.1中文分词
中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程[3]。自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。
中文自动分词已经研究了20多年,但是目前仍然是制约中文信息处理的瓶颈[4]。汉语除了连续书写之外,汉语词汇没有形态变化,也没有各种词的变格,缺乏自然的分割信息。汉语语法的研究多源于印欧语法的研究,分析结果对分词有用的信息较少;汉语的词序义极为灵活,相对的语法限制也较少。在词汇数量上,一般的印欧语种的词汇最多为几十万词,而汉语的词汇高达几百万乃至上千万。一个汉字序列可能有几种不同的切分结果,产生歧义现象。这些都给自动分词造成了极大的困难。宏观上,主要存在语言学和计算机科学等两方面的困难。
汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类。
(1)机械分词法:主要有最大匹配法(MM法)、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法等。
(2)语义分词法:语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。
(3)人工智能法,又称理解分词法,如专家系统法、神经网络方法等。
1.2.2 过滤模型
信息过滤系统的性能,关键在于模型的完善程度如何。目前描述文本信息的模型有很多种,有布尔模型、向量空间模型、概率推理模型、潜在语义搜索模型、基于模糊集合的信息过滤模型。
其中,向量空间模型(VSM)的最大优点在于它在知识表示方法上的巨大优势:文本被形式化为多维空间中的向量,把对文本内容的处理简化为向量空间中的向量运算,大大降低了问题的复杂度,提高了文本处理的速度和效率。
在一个向量空间模型构造的信息过滤系统中,用字项来标识文档。一个包含不健康信息的文档D用一个m维向量来表示,其中m是能够用来表示文档内容的字项的总数。给每一个字项赋予一个权值用来表明它的重要程度。该文档D的向量表示为D={w1w2…wm},其
中wm表示第m个字项的权值。在进行信息过滤的过程中,首先对请求的页面数据进行加工将其看成是一个由n个词组成的向量P,然后比较向量P和向量D的相似程度。通常使用的方法是取两个向量的余弦值,根据它们夹角的大小来判断相似程度。最后根据相似程度来决定是否要过滤掉该页面。
也正因为把文本以向量的形式定义到数域中,VSM模型大大提高了文本处理的速度和效率,因此在文本过滤领域VSM是被广泛采用的文本表示模型[5]。向量空间模型也有明显的缺点:它是一种忽略了特征项之间顺序的词代文本表示模型,虽然带来了计算和处理上的便利,但却损失了大量的文本结构和语义信息;另外向量空间模型是建立在所有项两两正交这一假设的基础上的,没有考虑特征项之间的相关性,对于有着丰富语义的自然语言来说,这种假设过于严格,不能很好地反映自然语言的特征。总之,用简单的初等运算来代替语义,误差势必存在。
1.2.3 特征选择
特征选择(Feature Selection)的基本思想通常是构造一个评价函数,对特征集的每个特征进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,组成一个新的低维空间。
特征选择具有降低向量空间维数、简化计算、防止过分拟合以及去除噪声等作用,特征提取的好坏将直接影响着文本过滤的准确率。常用的特征选择方法有:文档频率、信息增益、互信息、x 统计量、期望交叉熵、文本证据权和几率比等。采用国家“八六三”计划中文文本语料库和Rocchio 分类器对常用的特征选择算法进行评估,结论是几率比OR(OR,Odds Ratio)方法最好[8]。几率比(OR,Odds Ratio):
其中,pos表示正例集的情况,neg表示负例集的情况。几率比只关心目标类值,这使得几率比特别适用于二元分类器。在二元分类器中,希望能识别出尽可能多的正类,而不关心识别出负类。而实际的训练集中负类往往占90%以上的比重,这时几率比对于其它评估函数来说有其独特的优势。
1.3文本过滤的评估标准
为了衡量信息过滤系统效果,需要一套性能标准。一个完善的评价系统需要考虑的不仅仅是信息内容,还包括社会因素、用户兴趣等方面,所以至今还没有一套完美的评测方法。通常,信息过滤系统效果的评估借鉴信息检索的做法。
得益于信息检索评估的长期经验,具体的方法大致可以分为三种:试验评估,仿真评估和分析评估。信息检索标准的评估对信息过滤效果的评估有一定的参考价值,但是不能完全套用。目前大部分过滤效果还是由查全率(Recall Ratio)和准确率(Precision Ratio)来衡量的,准确率和查全率被广泛应用于仿真试验。然而,由于查全率的计算必须以整个数据集为基础,而整个数据集是未知的,所以它不可能应用于那些已经将无关数据忽略掉的真实过滤系统的实验。除了采用在信息检索中常用的查全率和准确率指标外,批过滤和自适应过滤子任务还采用Utility 和 F 值来评价,而分流子任务则根据平均非插值准确率(average un-interpolated precision)评价[9]。
下面就常见的几种评估标准进行比较说明
( 1 )查全率,指系统在执行某一检索时,检出相关文档的能力,它等于检出满足用