一种OA系统主题词提取算法设计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种OA系统主题词提取算法设计
林钦
【摘要】Designed a extraction algorithm of the keywords in the OA system, the algorithm includes several steps：the sentence clustering, the represent sentence extraction, the word segmentation for the represent sentence and the keywords extraction. Used the level coagulation as a single sentence clustering algorithm, studied the characteristics of the official document, designed the represent sentence extraction algorithm, according to the characteristic of the documents that it is single, created the library and the rule library of extracting keywords, improved the mechanical syncopation algorithm, designed a syncopation algorithm for the represent sentence, and achieved the goal of. that the keywords were automatically generated for the documents＇ search.%设计了一种用于OA 系统主题词提取算法，该算法包括单句聚类、抽取代表句、代表句分词和主题词提取几个步骤。

采用层次凝聚法作为单句聚类算法，研究公文句子的特点，设计了代表句抽取算法，根据公文群体较为单一的特点，建立主题词词库以及主题词提取规则库，对机械分词法进行改进，设计了代表句的分词算法，实现了公文搜索主题词的自动生成。

【期刊名称】《齐齐哈尔大学学报（自然科学版）》
【年(卷),期】2012(028)004
【总页数】5页(P61-65)
【关键词】OA;单句聚类;代表句;主题词
【作者】林钦
【作者单位】福建江夏学院电子信息科学系,福建福州350108
【正文语种】中文
【中图分类】TP391
一般Oa系统中提供按标题、日期、文号以及公文主题词的方式搜索公文，在实际应用中，这些方式往往还满足不了用户的全部需求。

因为公文主题词是根据国务院公文主题词表中提取出来了，有的时候并不能够反映一篇公文的真正主题思想，而用户有的时候需要根据主题思想来检索公文，如果只是根据公文主题词，有的公文就检索不到。

例如：一篇公文里阐述的是有关知识产权的内容，但是公文里可能仅出现词语“盗版”、“光盘”等，并没出现词语“知识产权”，其公文主题词也
就不包含词语“知识产权”，这时，若用户想要检索“知识产权”相关的公文，就检索不到该公文。

为此，本文设计了一种为公文搜索使用的主题词的自动提取算法。

传统的主题词自动提取方法有“位置加权法”、“词频统计法”或者二者的结合或引申[1]。

传统的主题词自动提取方法存在以下缺点：（1）只是通过线性变化反映文献中词语的出现度，而词语的出现度与公文的主题思想之间的关系并非绝对的线性关系；（2）不同种类、不同目的的公文其位置的加权无法通过固化的公式进行描述，给计算机的实现带来一定的困难。

为了改进传统主题词提取方法，文献[2]提出了“成对比较法”自动生成主题词，
通三个步骤完成：（1）求出所有因素对目标的影响程度，并两两相比算出比值；（2）根据比值构造判断矩阵；（3）算出矩阵的主特征值和主特征向量，则其特
征向量便是所求的权向量。

虽然“成对比较法”较传统的主题词生成方法有较高的
提高，但因其需要进行3个步骤的计算并进行9种标度法的计算，运算速率不够
理想。

此外，在主题词的提取中，文章的不同段落以及段落关键句的权值与其它的句子不同，而该方法无区别对待。

文献[3]提出了使用贝叶斯分类法进行主题词抽取，经过试验其抽取结果略优于“成对比较法”，然而，该方法主要处理普通的文字性文本，对公文的结构性文本无法进行处理。

文献[4]提出了基于语义分析和理解的主题提取方法，它需要较成
熟的人工智能技术和具有较大样本空间的知识统计库，对公文进行一定规则的词语、句子及语法分析并使用预定制的分析模板，从公文中提取出最高权值的信息与模板进行比对，从而生成该公文的主题词。

该方法对特定范围公文的提取准确度及效率极高，但该方法不具备人工智能自学习能力，无法对知识统计库之外的公文进行精准的主题词提取。

由于本文研究对象为特定的公文文件，因此，采用SUmmON
法结合改进型贝叶斯分类法设计主题词自动提取功能。

主题词的提取需要分析公文的特点与主题思想。

一般而言，一份公文中会有诸多语句为某一个主题思想服务，因此，这些语句可通过某种方法确定为同一类型语句进行归并处理。

根据这个文字规律，设计主题词自动提取模型如图1所示。

在上述主题词提取模型中，单句聚类是一个重要环节，聚类算法的优劣直接影响聚类的结果，从而对主题词提取的效率与准确度产生较大的影响。

进行单句聚类，首先要进行单句的相似度计算。

任一篇公文依据标点符号进行分句后得到了N个自然语言句子，任一自然语言句子又由有限多个自然语言词语组成，使用向量空间模型（VSm）[5]对此进行表达，可以得到N维向量
其中：t11为第1句第1个词语，以此类推；ω11×D为t11在D中出现的频率，其公式为
其中：m为公文中所有词语数量；mij为tij出现数。

由此，可给出单句相似度计
算公式为
令则可用一个矩阵表示相似度对比结果为
根据式（3）可得，Skj=Sjk。

聚类的目标就是将公文划分为若干个文字块，每个文字块由若干个自然语言句子组成，组成文字块的句子其相似度尽可能大[6]。

Hearst 等人的研究已经证明了“聚类假设”，即与用户查询相关的文档通常会聚类得比较靠近，而远离与用户查询不相关的文档[7]。

目前，有多种文本聚类算法，大致可以分为两种类型：以G-HaC 等算法为代表的层次凝聚法[8]和以K-means等算法为代表的平面划分法[9]。

文献[10]介绍了将G-HaC和K-means集合起来的Buckshot方法和fractionation 方法。

通过多组数据的实验，层次凝聚法的准确性优于平面划分法，平面划分法的准确性很大程度上与分解策略有关且细分的结果受到初始分类的极大制约，但在时间复杂度上，平面划分法却优于层次凝聚法。

假设公文经过分句可得到x个自然语言句子，则层次凝聚法的时间复杂度为O （ x2），因为层次凝聚法需要进行句子间的两两对比。

相同条件下，平面划分法的时间复杂度为O（ xlog（x））。

本文所要研究的公文中自然句子数量较小，经过对1 300余篇公文的统计，经过分句得到的分句情况如表1所示。

在运行效率上，平面划分法较层次凝聚法的优势无法得到很好的体现，因此，采用聚类准确度较高的层次凝聚法。

聚类算法PDL：
PROCEDURE 聚类 INTERfaCE （Document aS公文, Judge aS Number） IS BEGIN:
对Document进行标点符号划分，划分结果记录数组D
循环数组D开始
对D中的值进行分词，结果记录二维数组DD
循环结束
循环数组DD开始
以二维数组第1维度为基准，对比第1维度不同的数组值内容，计算相似度
循环结束
循环开始
从相似度数组（矩阵）中取最大相似度的值
一篇公文经过单句聚类后生成了一些公文文字块，每一个公文文字块中皆包含了相似度比较大的自然语言句子。

这些相似度较大的自然语言句子反映了这篇公文表达的主旨的某一个部分，就本文针对的1 300余篇公文的统计结果而言，这些相似度较大的自然语言句子可以认为是公文中的重复语句，可从它们中间抽取出一个句子作为代表句。

经分析，将公文段落拟成三个集合：文章标题集、段落标题集和段落首句集，分别记为D1、D2、D3。

假设任一文字块中的任一自然语言句子S1，S1∈（D1∪D2∪D3），在S1所在的文字块中任取自然句子S2，若S2≠S1，且S2∉（D1∪D2∪D3），则S1为代表句。

若存在S1，S2同属于某一文字块，且S2≠S1，S1∈（D1∪D2∪D3）与S2∈（D1∪D2∪D3）同时成立，则对比S1，S2所在集合，按D1，D2，D3优先顺序选取代表句。

若存在S1，S2同属于某一文字块，且S2≠S1，S1∈（D1∪D2∪D3），S2∈（D1∪D2∪D3）同时成立，且S1，S2同属于D1，D2，D3中的一个集合，则分别计算S1，S2与该文字块中其余自然语言句子的相似度并分别求和，结果最大的一个为代表句，若两者结果相同，则随机抽取S1，S2中的一句为代表句。

对代表句进行分词，是主题词自动提取的一个重要步骤。

对自然语言句子的分词在众多自然语言处理技术中属于近几年受到国内外科技工作者重视的技术，它属于自动化语义理解的范畴，是能将自然语言语句中的单个词语正确分开的一种计算机人
工智能技术。

目前，中文文本自动分词方法主要包括：机械分词方法[11]、基于规则的分词方法[12]和基于统计（基于语料库）的分词方法[13]。

机械分词方法因其主要靠逐个比对进行，因此准确率较低。

而非机械的分词算法虽然有较好的分词准确度，但是算法的时间或空间复杂度较高，实用性上存在一定的问题。

汉语同英语的一个重要区别为：汉语的书写是以句子为单位，句子之间有标点符号隔开，因而汉语比较容易进行分句；但汉语句子中的词语是连续排列的，之间没有任何分隔符，因此，很难将句子中连续的词语进行有效划分。

除此之外，汉语具有较大的不确定性，很容易产生歧义。

比如句子“球拍卖完了”，既可以分词为“球/拍卖/完了”，也可以切分为“球拍/卖完了”。

目前，国内针
对汉语歧义方面的研究虽较多，但实用性较弱。

由于本文所涉及的公文对象较固定，基本无产生歧义的主题词，故不对歧义处理展开更多的研究。

采用了机械分词法中准确度较高的最大匹配法（mm，maximum matching method），并针对公文群体较为单一的特点对该算法进行了改进，通过建立主题词词库以及主题词自动提取规则库提高最大匹配法的准确度。

通过研究可知，在一个自然句子中可用作主题词的词语往往为该句的主语或谓语，通过收集大量已有公文建立主题词词库，即将这些公文中的主题词依据一定的顺序列入主题词库中。

进行分词时，仅将属于主题词库中的词语拆分出来，将原句子其它部分根据拆分位置分为若干个文字块，这样，既提高了分词的速度，又使得分词的准确性得到很好的保障，同时实现主题词的自动提取。

本文设计了公文中的单句聚类算法，在此基础上，设计了代表句抽取算法，并结合公文群体较为单一的特点，设计了代表句分词算法，实现主题词的自动提取，对电子政务建设有一定的参考价值。

【相关文献】
[1] Turney PD. Learning to extract keyphrases from text[R]. Technical Report ERB-1057, National Research Council, Institute for Information Technology，1999.
[2] Soumen Chakrabarti，Byron Dom，Piotr Indyk. Enhanced hypertext categorization using hyperlink[C]. Washington：Seattle：Proc of aCm SIGmOD'98，1998.
[3] Witten IH，Paynter GW，frank E，et al. KEa: Practical automatic keyphrase
extraction[C]. Proceedings of the fourth aCm conference on digital libraries，1999：254-255.
[4] mc Keown K，Radev D. Generating summaries of multiple news articles[J]. 95, 1995.
[5] Salton G，mcGill m J. Introduction to modern information retrieval[R]. 1983.
[6] 李聪，张勇，高智. 一种新的聚类算法[J]. 模式识别与人工智能，1999，12（2）：205-209.
[7] Hearst ma，Pedersen J. Reexamining the Cluster Hypothesis: Scatter/Gather on Retrieval Results[C]. Proc. of the 19th annual Int’1 acm/ Sigir Conf. Zurich, 1996：76-84. [8] Willet P. Recent Trends in Hierarchical Document Clustering: a Critical Review[J]. Information Processing and management，1988,24：577-597.
[9] Douglass R，David R，Jan O，et al. Scatter/Gather: a Cluster-based approach to BrowsingLarge Document Collections [C]. Proc. of the 15th annual Int’l acm/ Sigir Conf. Copenhagen，1992：318-329.
[10] Rocchio J J. Document Retrieval Systems Optimization and Evaluation[R]. Cambridge，ma：Harvard University，1996.
[11] Nigam K，Lafferty J，mcCallum a. Using maximum entropy for text classifica-tion[J]. IJCaI-99 Workshop on machine Learning for Information filtering，1999：61-67.
[12] Banham m R，Katsaggelos a K. Digital image restoration[J]. Signal Processing magazine，IEEE，1997，14（2）：24-41.
[13] Sebestinai f. machine learning in automated text categorization[J]. aCm Computin Surveys，2002，34（1）：1-47.。