大规模短文本的不完全聚类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
形式: 短文本。称之为短文本是因为这些信息都是 一些很短的文本, 一般字数都不超过 100。实际上, 在 T w itt er 风靡之前, 短文本就早已深入人们的网 络生活中, 甚至可以说是与网民最贴近的信息形式。 搜索引擎中与用户最相关的部分用户查询就是一种 典型的短文本; 网络固话 即时通讯软件中的聊天 对话基本都属于短文本。除此之外, 聊天室对话、新 闻标题、论坛标题和 SNS 状态信息等也都是短文本 的栖息地。另外, 人们日常生活中的得力交流助手 短信, 也是短文本的巨型源泉。
思想, 可以很大程度上解决聚类的性能问题。
2 背景知识
聚类分析指将物理或抽象对象的集合分组成为 由类似的对象组成的多个类的分析过程。常用的文 本聚类分析方法主要包括分割式聚类法、层次聚类 法。本节对这两种常用的聚类算法加以介绍, 并对 它们在短文本聚类中的应用进行相关分析。
2. 1 分割式聚类法
分割式聚类法的中心思想是: 通过不同的重分 配策略不断优化已存在的类别。分割式聚类算法一 般是迭代算法, 在迭代的 每一步对类别进 行优化。 最典型的分割式算法是 K M eans 算法。
K Means 算法[ 7] 是 目前在科学和 工业领域应 用最多最广泛的聚类算法, 它的算法流程如下:
步骤 1. 从所有数据对 象中选 取 K 个 数据对 象作为 初 始聚类中心; 步骤 2. 对其 他数据 对象, 根据其 与聚类 中心的 距离, 分配给各个类别; 步骤 3. 根 据分 配结 果, 取 每个 类 别所 有 数 据的 平 均 值, 作为新的聚类中心; 步骤 4. 迭代运行步骤 2 和步骤 3, 直 到所有 的聚类 中 心不再发生变化。
56
中文信息学报
2011 年
doids 复杂度比 K M eans 还高, 对于处理短 文本性 能同样无法接受。
2. 2 层次聚类法
字难得一用, 它们就属于黑色区域的长尾。虽然长 尾部分使用频率低, 但是由于长尾的 长 , 长尾部分 的面积甚至会大于灰色区域的面积。
层次聚类法[ 8] 可以分为从上至下( 分治) 和从下 至上( 聚合) 两种方式。从上至下算法起初把所有点 看成一个类别, 然后根据一定的标准分割类别, 直到 满足停止条件。从下至上则与此相反, 算法起初把 所有点分别看成一个类别, 之后根据一定标准把若 干个类别合并为一个类别, 直到满足停止条件。层 次聚类法的优点在于聚类结果可以用树状图直观表 示, 非常适用于本身具有分层结构的数据集。它的 缺点主要是需要人为给定停止条件, 并且它的时间 与空间复杂度均为 O( n2) 。
1 引言ቤተ መጻሕፍቲ ባይዱ
聚类分析[ 1] ( 非监督学习) 是数据挖掘中的一个 重要领域。它将大量具有相同属性的事物按照相似 度分为各个组, 进而辅助人们从这些信息中抽取摘 要或者发现新的规律。至今, 聚类分析已成功应用 于文本摘要、生物基因识别、电子商务客户行为分析 等众多方面、取得了很好效果。
随着这两年 T w it t er 带来的新一波内容风潮, 越来越多关注被投放到了一种早已广泛存在的信息
第 25 卷 第 1 期 2011 年 1 月
中文信息学报 JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G
文章编号: 1003 0077( 2011) 01 0054 06
V ol. 25, No . 1 Jan., 2011
大规模短文本的不完全聚类
彭泽映1 , 俞晓明1 , 许洪波1, 刘春阳2
( 1. 中国科学院 计算技术研究所, 北京 100190; 2. 国家计算机网络应急技术处理 协调中心, 北京 100029)
摘 要: 聚类分析是数据挖掘的一个重要手段, 人们可以通过聚类发现信息中潜在的热点或规律。至今, 已经有大
量聚 类算法被研究和提出。随着互联网的日益普及, 查询日志、T w itter 等短文 本信息逐渐 在人们生 活中起着越 来
越重要的作用。这类短文本信息数量巨大, 通常可达 到千万乃 至亿级, 现 有的聚 类算法 在对这类 大规模 短文本 信
息进 行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行 实验分析, 发现了 这类数据类 别
所具有的 长尾现象 , 并由此提出了不完全聚类思想, 可以有效地提高这类短文本信息的聚类性能。
Abstract: Clustering is an unsuperv ised classificat ion of patterns ( o bserv atio ns, data items, o r feature vecto rs) into gr oups ( clust ers) . So far, many cluster ing alg or ithms hav e been pro po sed. With the rapid development of inter net, sho rt tex ts such as quer y logs and T w itter messages play a mor e and mo re import ant r ole in our daily life. M ost ex ist ing clustering methods are har d to be applied in dealing with this kind o f info rmatio n due to the hug e scale of data. T his paper reveals the long tail distribution of this kind of infor mation, and proposes an incomplete cluster ing algorithm. T he ex perimental results sho w that the pro po sed metho d can cluster the sho rt tex ts effect ively and efficiently. Key words: shor t tex ts; clustering ; incomplet e cluster ing
a. 形式不规范, 趋向口语化。很多短文本都带 有很多口语化内容和网络流行语, 还有一些使用变 形字, 如 我 变 额 。
b. 短文本特征信息很少, 只有少量的字可以被 分析使用。
c. 数量巨大, 通常至少是百万级的。 d. 实时性要求较高, 因为短文本是不断的产生 的, 而且信息更新很快, 如 T w it t er 上的信息, 基本 上每个小时都有热点话题产生。 近几年来也有一些专门针对短文本的聚类算法 被提出, 代表性工作有: Wang 等针对即时通信消息 的聚类提出了 WR K means 算法[ 2] , H e 等提出了一 种基于中文块的中文短文本聚类方法[ 3] , 黄永光等 提出一种采用检索思想的短文本聚类算法[ 4] , 贺涛 等提出 一种 基 于免 疫 的中 文网 络 短 文本 聚 类 算 法[ 5] , 这些工作主要是针对上面提到的短文本的 a、 b 特征进行的研究, 在一定程度上提高了短文本聚 类的效果, 但并没有在聚类性能上做太大改进。 而实际应用中的短文本信息往往具有很大的数 量, 这些信息在短时间内都可以达到上千万甚至过 亿的量级。以 T w it t er 为例, T w it t er 每天产生的信 息量可以达到 6 500 万条, 且这个数量仍在 不断增 加[ 6] 。已有的针对短文本的聚类方法在大规模数据 上的处理性能往往达不到实际应用的要求。 本文通过对实际应用中的短文本信息进行深入 观察和实验分析, 发现这些大规模短文本的类别具 有 长尾现象 , 并据此提出一种新的不完全聚类的
K Means 算法具有流程 简单直观、复杂 度低, 效率高、算法易于并行等优点。但同时该算法也存 在以下一些固有缺陷:
a) 需要预先给定聚类数目 K , K 的设定对算法 结果影响较大;
b) 初始 K 个中心点的选择对算法准确度有较 大影响;
c) 算法对 o ut liers 非常敏感。 对于短文本聚类, 短文本类别数量巨大, 类簇的 个数 K 难以预先 给定, 更不用说 K 个初始中心点 的选择。另外, 虽然 K M eans 聚类算法相比于其他 聚类算法具有较高的效率, 但对于巨大数量的短文 本, K M eans 迭代过程所需要的运行时间通常也是 难以接受的。 另一种常见的分 割式聚类法 是 K M edoids 算 法。基本思路和 K M eans 是一样的, 不同的只是中 心点的选择策略, K Medo ids 不是取所有点的平均 值为中心点, 而是取到类别所有点距离和最小的样 本点作为中心点, 这样 K M edoids 就可以用于处理 K Means 无法适用 的 Cat ego ry 类型数据。K M e
关键词: 短文本; 聚类分析; 不完全聚类
中图分类号: T P391
文献标识码: A
Incomplete Clustering for Large Scale Short Texts
PENG Zeying1 , YU Xiaomin g1 , XU Hongbo1 , LIU Ch unyang2
( 1. Institute of Computing T echnolo g y, Chinese A cademy of Science, Beijing 100190, China; 2. N atio na l Computer N etwo rk Emerg ency R esponse T echnical T eam/ Coo rdinatio n Cent er of China, Beijing 100029, China)
层次 聚 类 法 的 代 表 算 法 有: BIRCH 算 法、 CU RE 算法、CH AMEL EON 算法等, 它们之间的区 别基本就在于 对不同的连接标 准( linkage m et ric) 的选择。连接标准就是拆分类或合并类时的标准。 最常用的三类连接标准是: Single link( 两个类别之 间点的最小距离) 、Complete link( 两个类别之间点 的最大距离) 、和 Averag e link ( 两个类别之 间点的 平均距离) 。
短文本在传递公开信息的同时携带了丰富的用
收稿日期: 2010 08 22 定稿日期: 2010 10 25 课题资助: 国家自然科学基金重点资助课题( 60933005, 60903139) ; 国家 973 资助课题( 2007CB311103) ; 国家 242 专项 资 助项目( 2009F108, 2009A 19, 2009A 91) 作者简介: 彭泽映( 1988 ! ) , 男, 硕士, 主要研究方向为信息检索与挖掘; 俞晓明( 1977 ! ) , 男, 高工, 主要研 究方向为信 息 检索; 许洪波( 1975! ) , 男, 副研, 主要研 究方向为网络信息挖掘。
应用场景三: 关键信息的提取。政府或组织采 集的民意调查数据包含了民众对社会事件的看法、 观点等舆情信息。情报工作者需要对大量短语消息 进行采集和处理, 以发现可疑的对话和人, 通过监测 公共开放聊天室的会话, 利用聚类技术可以自动提 取与违法行为相关的对话或行为模式。
至今, 已有许多聚类算法被相继提出, 但常用的 文本聚类算法如 K means 等在短文本聚类 中效果 不佳[ 2] 。主要是因为短文本一般具有以下特征:
1期
彭泽映等: 大规模短文本的不完全聚类
55
户信息, 从而成为一种新的具有极大价值的信息资 源, 对于此类数据的聚类需求也凸现出来。
应用场景一: 网络热点信息的发现。通过对网 络上的短文本信息进行聚类, 可以挖掘网络上的热 点信息, 帮助用户更好地获取和理解网络信息。
应用场景二: 企业信息系统的改善。对即时通 信数据进行分析和挖掘对于企业信息系统的组织和 优化具有重要作用。