大规模短文本的不完全聚类

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

形式: 短文本。称之为短文本是因为这些信息都是一些很短的文本, 一般字数都不超过 100。实际上, 在 T w itt er 风靡之前, 短文本就早已深入人们的网络生活中, 甚至可以说是与网民最贴近的信息形式。搜索引擎中与用户最相关的部分用户查询就是一种典型的短文本; 网络固话即时通讯软件中的聊天对话基本都属于短文本。除此之外, 聊天室对话、新闻标题、论坛标题和 SNS 状态信息等也都是短文本的栖息地。另外, 人们日常生活中的得力交流助手短信, 也是短文本的巨型源泉。
思想, 可以很大程度上解决聚类的性能问题。
2 背景知识
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。常用的文本聚类分析方法主要包括分割式聚类法、层次聚类法。本节对这两种常用的聚类算法加以介绍, 并对它们在短文本聚类中的应用进行相关分析。
2. 1 分割式聚类法
分割式聚类法的中心思想是: 通过不同的重分配策略不断优化已存在的类别。分割式聚类算法一般是迭代算法, 在迭代的每一步对类别进行优化。最典型的分割式算法是 K M eans 算法。
K Means 算法[ 7] 是目前在科学和工业领域应用最多最广泛的聚类算法, 它的算法流程如下:
步骤 1. 从所有数据对象中选取 K 个数据对象作为初始聚类中心; 步骤 2. 对其他数据对象, 根据其与聚类中心的距离, 分配给各个类别; 步骤 3. 根据分配结果, 取每个类别所有数据的平均值, 作为新的聚类中心; 步骤 4. 迭代运行步骤 2 和步骤 3, 直到所有的聚类中心不再发生变化。
56
中文信息学报
2011 年
doids 复杂度比 K M eans 还高, 对于处理短文本性能同样无法接受。
2. 2 层次聚类法
字难得一用, 它们就属于黑色区域的长尾。虽然长尾部分使用频率低, 但是由于长尾的长 , 长尾部分的面积甚至会大于灰色区域的面积。
层次聚类法[ 8] 可以分为从上至下( 分治) 和从下至上( 聚合) 两种方式。从上至下算法起初把所有点看成一个类别, 然后根据一定的标准分割类别, 直到满足停止条件。从下至上则与此相反, 算法起初把所有点分别看成一个类别, 之后根据一定标准把若干个类别合并为一个类别, 直到满足停止条件。层次聚类法的优点在于聚类结果可以用树状图直观表示, 非常适用于本身具有分层结构的数据集。它的缺点主要是需要人为给定停止条件, 并且它的时间与空间复杂度均为 O( n2) 。
1 引言ቤተ መጻሕፍቲ ባይዱ
聚类分析[ 1] ( 非监督学习) 是数据挖掘中的一个重要领域。它将大量具有相同属性的事物按照相似度分为各个组, 进而辅助人们从这些信息中抽取摘要或者发现新的规律。至今, 聚类分析已成功应用于文本摘要、生物基因识别、电子商务客户行为分析等众多方面、取得了很好效果。
随着这两年 T w it t er 带来的新一波内容风潮, 越来越多关注被投放到了一种早已广泛存在的信息
第 25 卷第 1 期 2011 年 1 月
中文信息学报 JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G
文章编号: 1003 0077( 2011) 01 0054 06
V ol. 25, No . 1 Jan., 2011
大规模短文本的不完全聚类
彭泽映1 , 俞晓明1 , 许洪波1, 刘春阳2
( 1. 中国科学院计算技术研究所, 北京 100190; 2. 国家计算机网络应急技术处理协调中心, 北京 100029)
摘要: 聚类分析是数据挖掘的一个重要手段, 人们可以通过聚类发现信息中潜在的热点或规律。至今, 已经有大
量聚类算法被研究和提出。随着互联网的日益普及, 查询日志、T w itter 等短文本信息逐渐在人们生活中起着越来
越重要的作用。这类短文本信息数量巨大, 通常可达到千万乃至亿级, 现有的聚类算法在对这类大规模短文本信
息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析, 发现了这类数据类别
所具有的长尾现象 , 并由此提出了不完全聚类思想, 可以有效地提高这类短文本信息的聚类性能。
Abstract: Clustering is an unsuperv ised classificat ion of patterns ( o bserv atio ns, data items, o r feature vecto rs) into gr oups ( clust ers) . So far, many cluster ing alg or ithms hav e been pro po sed. With the rapid development of inter net, sho rt tex ts such as quer y logs and T w itter messages play a mor e and mo re import ant r ole in our daily life. M ost ex ist ing clustering methods are har d to be applied in dealing with this kind o f info rmatio n due to the hug e scale of data. T his paper reveals the long tail distribution of this kind of infor mation, and proposes an incomplete cluster ing algorithm. T he ex perimental results sho w that the pro po sed metho d can cluster the sho rt tex ts effect ively and efficiently. Key words: shor t tex ts; clustering ; incomplet e cluster ing
a. 形式不规范, 趋向口语化。很多短文本都带有很多口语化内容和网络流行语, 还有一些使用变形字, 如我变额。
b. 短文本特征信息很少, 只有少量的字可以被分析使用。
c. 数量巨大, 通常至少是百万级的。 d. 实时性要求较高, 因为短文本是不断的产生的, 而且信息更新很快, 如 T w it t er 上的信息, 基本上每个小时都有热点话题产生。近几年来也有一些专门针对短文本的聚类算法被提出, 代表性工作有: Wang 等针对即时通信消息的聚类提出了 WR K means 算法[ 2] , H e 等提出了一种基于中文块的中文短文本聚类方法[ 3] , 黄永光等提出一种采用检索思想的短文本聚类算法[ 4] , 贺涛等提出一种基于免疫的中文网络短文本聚类算法[ 5] , 这些工作主要是针对上面提到的短文本的 a、 b 特征进行的研究, 在一定程度上提高了短文本聚类的效果, 但并没有在聚类性能上做太大改进。而实际应用中的短文本信息往往具有很大的数量, 这些信息在短时间内都可以达到上千万甚至过亿的量级。以 T w it t er 为例, T w it t er 每天产生的信息量可以达到 6 500 万条, 且这个数量仍在不断增加[ 6] 。已有的针对短文本的聚类方法在大规模数据上的处理性能往往达不到实际应用的要求。本文通过对实际应用中的短文本信息进行深入观察和实验分析, 发现这些大规模短文本的类别具有长尾现象 , 并据此提出一种新的不完全聚类的
K Means 算法具有流程简单直观、复杂度低, 效率高、算法易于并行等优点。但同时该算法也存在以下一些固有缺陷:
a) 需要预先给定聚类数目 K , K 的设定对算法结果影响较大;
b) 初始 K 个中心点的选择对算法准确度有较大影响;
c) 算法对 o ut liers 非常敏感。对于短文本聚类, 短文本类别数量巨大, 类簇的个数 K 难以预先给定, 更不用说 K 个初始中心点的选择。另外, 虽然 K M eans 聚类算法相比于其他聚类算法具有较高的效率, 但对于巨大数量的短文本, K M eans 迭代过程所需要的运行时间通常也是难以接受的。另一种常见的分割式聚类法是 K M edoids 算法。基本思路和 K M eans 是一样的, 不同的只是中心点的选择策略, K Medo ids 不是取所有点的平均值为中心点, 而是取到类别所有点距离和最小的样本点作为中心点, 这样 K M edoids 就可以用于处理 K Means 无法适用的 Cat ego ry 类型数据。K M e
关键词: 短文本; 聚类分析; 不完全聚类
中图分类号: T P391
文献标识码: A
Incomplete Clustering for Large Scale Short Texts
PENG Zeying1 , YU Xiaomin g1 , XU Hongbo1 , LIU Ch unyang2
( 1. Institute of Computing T echnolo g y, Chinese A cademy of Science, Beijing 100190, China; 2. N atio na l Computer N etwo rk Emerg ency R esponse T echnical T eam/ Coo rdinatio n Cent er of China, Beijing 100029, China)
层次聚类法的代表算法有: BIRCH 算法、 CU RE 算法、CH AMEL EON 算法等, 它们之间的区别基本就在于对不同的连接标准( linkage m et ric) 的选择。连接标准就是拆分类或合并类时的标准。最常用的三类连接标准是: Single link( 两个类别之间点的最小距离) 、Complete link( 两个类别之间点的最大距离) 、和 Averag e link ( 两个类别之间点的平均距离) 。
短文本在传递公开信息的同时携带了丰富的用
收稿日期: 2010 08 22 定稿日期: 2010 10 25 课题资助: 国家自然科学基金重点资助课题( 60933005, 60903139) ; 国家 973 资助课题( 2007CB311103) ; 国家 242 专项资助项目( 2009F108, 2009A 19, 2009A 91) 作者简介: 彭泽映( 1988 ! ) , 男, 硕士, 主要研究方向为信息检索与挖掘; 俞晓明( 1977 ! ) , 男, 高工, 主要研究方向为信息检索; 许洪波( 1975! ) , 男, 副研, 主要研究方向为网络信息挖掘。
应用场景三: 关键信息的提取。政府或组织采集的民意调查数据包含了民众对社会事件的看法、观点等舆情信息。情报工作者需要对大量短语消息进行采集和处理, 以发现可疑的对话和人, 通过监测公共开放聊天室的会话, 利用聚类技术可以自动提取与违法行为相关的对话或行为模式。
至今, 已有许多聚类算法被相继提出, 但常用的文本聚类算法如 K means 等在短文本聚类中效果不佳[ 2] 。主要是因为短文本一般具有以下特征:
1期
彭泽映等: 大规模短文本的不完全聚类
55
户信息, 从而成为一种新的具有极大价值的信息资源, 对于此类数据的聚类需求也凸现出来。
应用场景一: 网络热点信息的发现。通过对网络上的短文本信息进行聚类, 可以挖掘网络上的热点信息, 帮助用户更好地获取和理解网络信息。
应用场景二: 企业信息系统的改善。对即时通信数据进行分析和挖掘对于企业信息系统的组织和优化具有重要作用。