大规模短文本的不完全聚类
数据挖掘中的短文本聚类算法原理解析
数据挖掘中的短文本聚类算法原理解析数据挖掘是一门利用统计学、机器学习和人工智能等技术,从大量数据中发现有用信息的过程。
在数据挖掘的过程中,短文本聚类算法起到了重要的作用。
本文将对短文本聚类算法的原理进行解析。
一、短文本聚类算法的概述短文本聚类算法是一种将短文本数据分组的技术。
短文本通常指的是长度较短的文本,例如微博、短信等。
由于短文本的特点是信息量少、语义模糊,传统的文本聚类算法在处理短文本时往往效果不佳。
因此,短文本聚类算法应运而生。
二、短文本聚类算法的常用方法1. 基于词频的方法基于词频的短文本聚类算法是最简单的方法之一。
该方法首先对短文本进行分词,然后统计每个词在文本中出现的频率。
接着,根据词频的相似度进行聚类。
这种方法的优点是简单直观,但是忽略了词的语义信息。
2. 基于词向量的方法基于词向量的短文本聚类算法是目前应用较广泛的方法之一。
该方法利用词向量模型(如Word2Vec)将词转换为向量表示,然后根据向量的相似度进行聚类。
这种方法考虑了词的语义信息,能够更好地处理短文本数据。
3. 基于主题模型的方法基于主题模型的短文本聚类算法是一种将短文本转化为主题表示的方法。
主题模型是一种用于从文本中发现主题的统计模型,例如Latent Dirichlet Allocation (LDA)。
该方法将短文本表示为主题分布,然后根据主题分布的相似度进行聚类。
这种方法能够更好地挖掘短文本的语义信息。
三、短文本聚类算法的应用短文本聚类算法在各个领域都有广泛的应用。
例如,在社交媒体分析中,可以利用短文本聚类算法对大量的微博进行分类,从而了解用户的兴趣和情感。
在新闻推荐系统中,可以利用短文本聚类算法对新闻进行分类,从而为用户提供个性化的推荐。
在舆情分析中,可以利用短文本聚类算法对大量的评论进行聚类,从而了解用户对某一事件的态度和情感。
四、短文本聚类算法的挑战与改进短文本聚类算法面临着一些挑战,例如数据稀疏性、语义模糊性等。
一种适用于短消息文本的聚类算法
一种适用于短消息文本的聚类算法吴勇;徐峰【期刊名称】《计算机与现代化》【年(卷),期】2012(0)2【摘要】针对短消息文本聚类,设计基于频繁词集和Ant-Tree的混合聚类方法.该算法利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇,计算轮廓系数消除重叠文档,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出.而且聚类结果保留了描述信息和树状层级结构,提供了更广阔的应用.%As to short message text clustering, this paper designs a hybrid clustering algorithm combining by frequent term-sets and Ant-Tree algorithm. This algorithm takes the advantage of efficiency of processing text data based on the frequent term-sets clustering, produces the initial cluster, then eliminates the overlap text documents by calculating silhouette coefficient. Further refines the cluster by Ant-Tree. Thus gets the high quality clustering results. And the results that retain the description and tree structure can provide wider applications.【总页数】4页(P31-34)【作者】吴勇;徐峰【作者单位】湖南机电职业技术学院信息工程系,湖南长沙 410151;湖南机电职业技术学院信息工程系,湖南长沙 410151【正文语种】中文【中图分类】TP301.6【相关文献】1.一种适用于不规则分布数据的混合聚类算法 [J], 马志民;陈汉武;张军2.一种适用于高维非线性特征数据的聚类算法及应用 [J], 姜洪权;王岗;高建民;高智勇;高瑞琪;郭旗3.DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法 [J], 孙亮;赵芳;王永吉4.一种适用于混合型分类数据的聚类算法 [J], 林强;唐加山5.适用于大规模文本处理的动态密度聚类算法 [J], 李霞;蒋盛益;张倩生;朱靖因版权原因,仅展示原文概要,查看原文内容请购买。
基于词性特征的特征权重计算方法
基于词性特征的特征权重计算方法胡雯雯;高俊波;施志伟;刘志远【摘要】Because of the sparse and dynamic crisscross characteristics, the short text makes the weight of traditional weighted method difficult to use effectively. This paper presents a new feature weight calculation algorithm based on part of speech. This algorithm is the quantum particle swarm optimization algorithm introduced into translation decision model which can calculate the probability of a feature with certain part of speech. Then it is tested by the text clustering algorithm. The test results show that the improved feature weight calculation algorithm on the clustering accuracy is better than TF-IDF and QPSO algorithm.%短文本因其具有特征稀疏、动态交错等特点,令传统的权重加权计算方法难以得到有效使用.本文通过引入翻译决策模型,将某种词性出现的概率作为特征,提出一种新的基于词性特征的特征权重计算方法,并用文本聚类算法进行测试.测试结果表明:与TF-IDF、QPSO两种权重计算算法相比,改进的特征权重计算算法取得更好的聚类效果.【期刊名称】《计算机系统应用》【年(卷),期】2018(027)001【总页数】6页(P92-97)【关键词】翻译决策模型;TDQO算法;词性;聚类【作者】胡雯雯;高俊波;施志伟;刘志远【作者单位】上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306【正文语种】中文1 引言面对大规模短文本形式的数据,快速并准确地获取所需的关键信息以及提高聚类的效率、准确率一直都是人们关注的重点.但短文本固有的特点,使得传统的特征权重计算方法无法准确计算.因此,学者们采用不同的方法去解决这一缺陷,总体分为三个方面,一用特征子集评价方法从特征空间上改进,包括信息增益[1]、卡方检验(CHI-sqare,CHI)[2]、期望交叉熵(Expected Cross Entropy,ECE)[3]等,这些评价算法在给定阈值的情况下,通过计算文本集中每个特征项的权重值,选择特征项的权重值大于阈值的特征加入特征子集或选择权重值最大的特征项子集直到满足特征子集大小阈值.例如李凯齐,刁兴春等[4]提出一种改进的特征权重计算方法,通过引入信息论中信息增益的概念,实现对短文本特征分布具体维度的综合考虑,克服传统公式存在的不足.实验结果表明,改进后的特征权重计算算法在计算特征权重时更加有效.二在搜索空间策略上进行改进,包括顺序选择算法、遗传算法、粒子群算法等,这些算法通过搜索叠加的方式在实现特征空间降维的同时提高算法自身的准确率.例如杜坤,刘怀亮等[5]考虑特征项间的语义关联构造复杂网络并进行特征选择,定义类别相关系数并结合特征选择结果,提出一种改进的特征权重计算方法,并进行中文文本分类实验.实验结果表明,改进后的算法较TFIDF算法有更好的分类效果.三从特征属性上进行改进,包括词频[6]、特征在文本中的位置[7]、词共现分析等,以上特征属性作为影响因子加入实验中.例如李欣蓬等[8],提出双维度特征关系和特征位置对类别学习的影响,实验结果反映了词性对于特征权重的积极影响.多种实验表明从特征属性上改进特征权重要优于其他两种方法[9-11].其中于海燕等[12]提出一种基于词性嵌入的特征权重计算方法,从词性对情感分类的贡献度嵌入到 TF-IDF 算法中.Gang Wang,Zhu Zhang 等[13]提出基于词性情绪分类的PSO-RS算法,实验表明POS-RS情绪分类可以作为一个可行的方法,有可能被成功地应用于其他文本分类问题.这些研究表明词性对于特征权重上的改进能够提高后续验证实验的准确率,对于本文的研究有重大意义.本文从词性属性出发,提出一种新的基于词性特征的特征权重计算算法(Translation Decision Model Of Quantum-behaved Particle Swarm Optimization,TDQO).在特征选择阶段中将词性引入到翻译决策模型(Translation Decision Model,TD)中,以改进后的TDQO 算法对聚类的效率与准确性进行改善.2 传统的特征权重计算方法传统的特征权重计算方法有很多,例如TF算法、TF-IDF算法、PageRank算法等等.其中TF算法仅从文本词频的角度考虑,一方面考虑到了高词频所带来的高权重,另一方面却暴露其大量无意义词所产生的高冗余、高复杂度等缺点.另外PageRank算法是根据网页中的超链接链入的网页数来判断某个网页是否重要.本文语料为文本数据,为了使初始化的特征权重有较好的可信度,本文在计算初始权重计算方法上选择TF-IDF算法.2.1 TF-IDF算法TF-IDF算法在计算特征权重时考虑三点:词频(tf)、反文档频率(idf)以及归一化(normalization).其中词频tf表示特征在该文档中出现的频率;反文档频率表示特征在各个文档中的区分能力;归一化(normalization)用来防止偏向长文档.考虑三个条件,TF-IDF公式可以表示如下:其中tf(tk,di)表示特征tk在文档di中出现的频率.N表示为文档总数.m表示文档中的特征数.nk表示包含特征tk的文档数.2.2 TF-IDF算法的缺陷TFIDF认为一个特征出现的文档频率越小,则区分类别文档的能力越大.逆文本频度IDF在一定程度上抑制无意义特征,但在另一方面重要特征的凸显也造成无意义标注.而TFIDF的计算为IDF对于TF的权重调整,IDF本身无法有效区分重要特征及无意义特征分布,使得TFIDF计算特征权重的精度并不是很高.举例说明该算法的不足.假设总文档量为100篇.在 2000 特征词的文档中“亲情”,“友情”,“的”,“魅力”分别出现 30,90,100,5 次,“亲情”出现在 20 篇文档中,“友情”出现在90篇文档中,“的”出现在100篇文档中,“魅力”出现在 5 篇文档中.在其 TF,IDF,TF-IDF 数据如表1.从表1可以分析出“友情”与“的”权重最低,但是却表示两个极端,“的”对于特征来说是无意义的特征,只会增加特征冗余,而“友情”却是每篇文档的主题词,经文本聚类可以将文档归为一类.由此可见TF-IDF算法在特征的重要程度上无法准确判断.表1 特征在 TF,IDF,TF-IDF 上的表现特征 TF IDF TF-IDF亲情 0.015 0.6980.01047友情 0.045 0.0458 0.002061的0.05 0 0魅力 0.0025 1.301 0.003275 3 TDQO 特征权重改进算法TDQO算法在TF-IDF算法的基础上引入词性加权权重(TDF)以及特征词作为某种词性出现概率(PF),由此改进TF-IDF算法.其中TDF加权了词性特征权重,例如在文本中名词相对于动词、形容词更能代表一篇文档的主题特征,对于词性加权有效权衡了词性所带来的权重影响.而PF有效抑制大量某一种词性权重影响.3.1 词性加权权重词性加权公式如下:其中n为特征作为粒子的总群数,xi表示第i个特征粒子,j={1,2,3}表示某种词性.3.2 特征作为某种词性概率特征词为某种词性概率公式如下:其中tj表示特征t出现的词性特征.3.3 TDQO算法大多数的短文本在文本预处理阶段,通过词性筛选,保留下所需要的词性,李英[14]提出基于词性的特征预处理方法,在文本预处理环节过滤掉副词、叹词等贡献度很小的词性,只保留对分类贡献较大的名词、动词、缩略词等,实验证明这一方法有效的降低了文本空间的特征维度.特征权重计算为特征空间中的文本向量的每一维确定合适的数值,以表达对应特征在文本的重要程度.特征ti在文本di中的权重表示为wi,j=w(ti, di),文本 di 的权重向量表示为 wj=w(dj).在特征选择算法之后进行词性筛选,只保留名词、动词、形容词.一方面更好地通过词性将词频中较高的干扰词性过滤掉,另一方面可以通过观察哪些词性的词本身虽不具有特征属性,但对权重产生影响,比如标题中一些权重较高的词.本文在不同词性上进行不同程度的加权,得出一种基于词性的权重计算方法公式如下:其中PF*TDF表示为特征t在改进后的量子粒子群优化算法的最优词性加权总值.3.3.1 TDQO 算法流程TDQO算法在量子粒子群算法的基础上引入TD模型,它的范围搜索能力极大高于一般QPSO算法.以下介绍TDQO算法具体实现过程.(1)初始化粒子速度与位置.图1模块①为TDF的计算通过迭代不断判断局部极值pBest和全局极值gBest[15]来更新自己的速度及位置,最终找到最优解.粒子根据公式(5)(6)来优化自己的速度和位置,公式(7)为词性加权权重,即TDF.其中,i表示第 i个粒子,j为粒子的第 i维,t为进化代数,C1,C2 为加速方向常数,r1,r2 为[0,1]上均匀分布的随机数.(2)以 (0,1)随机函数赋值 Xi,并将其作为初始特征权重,Vi=2.0,初始化每个粒子,使用k-means 聚类算法,计算聚类准确率作为粒子的适应度值.粒子在迭代过程中,当前位置的适应度值大于局部或全局最优解的适应度值,则更新为粒子当前位置,否则继续迭代,最终输出计算的词性加权权重.(3)建立翻译决策模型,将每个特征作为粒子,并标注词性及对应的布尔值.图1模块②中TDQO算法中建立的TD模型是最大熵[16]模型的分支模型,也是PF计算的过程.其中TD模型函数的建立用来计算PF值,即特征作为某种词性出现概率.其公式如下:其中λi初始化为 0,fi(x,y)表示定义的特征函数,x 表示特征,y表示对应词性. (4)计算当前模型分布期望,计算最优估计,最终得到粒子作为词性权重的加权权重. TDQO算法流程图如图1.4 实验与分析使用爬虫工具在豆瓣小说上获取22篇小说书评,共计 24 450 条评论.经预处理剩有17 765 个词,通过TF-IDF计算初始权重,并设置阈值为0.01,过滤大量冗余特征.此时剩有2215个词作为后续对比实验的初始特征集,根据建模需要,需再次对词性进行降维,只保留名词、动词、形容词,最终特征选择的词剩有1816个.为了验证词性对文本的贡献度有助于提高聚类的准确率,本文通过TF-IDF算法、QPSO算法、TDQO算法进行对比实验.其中TF-IDF方法得到特征向量并直接进行聚类输出;QPSO算法中不标记词性,通过粒子迭代得到最优加权权重,其中粒子个数为39 952个,迭代次数为100次,得到未加权词性的特征权重,进而进行聚类输出;TDQO算法实验在QPSO算法实验的基础上,引入TD模型,加权计算特征作为某种词性出现的概率并聚类输出.实验环境为Windows 8 操作系统,2 GB 内存,利用 MATLAB 及 PYTHON 开发.图1 TDQO 算法流程图输入:TF-IDF算法权重数据标记粒子词性,粒子总数输出:改进后的特征权重加权,改进前后的F值(1)使用中国科学院计算技术研究所ICTCLAS2014分词器对原始语料进行分词处理;(2)使用TF-IDF算法对词频进行排序,选取词频在0.01以上的词作为新的特征集;此处是避免大量的非有效特征增加特征冗余;(3)对新的特征集进行词性筛选,只保留名词、动词、形容词;(4)引入TD模型的量子粒子群优化算法.通过TD模型建模函数得到特征作为词性出现的概率加权到粒子迭代中,当前位置的适应度值大于局部或全局最优解的适应度值,则更新为粒子当前位置,否则继续迭代,最终输出计算的词性最优加权权重;(5)将得到的加权后的数据经k-means聚类,通过修改k值,在不同类别中使用三种方法进行实验并得出结论.4.1 实验数据分析为验证提出方法的有效性,将TF-IDF算法、QPSO算法及TDQO算法三种方法进行聚类实验,以检验它们在文本挖掘中的表现.实验采用聚类领域常用的F-measure 作为指标来评价文档聚类方法的效果.F-measure[17]是一种结合了precision和recall的聚类评价指标.F-measure 的取值范围为[0,1].对应的检索粒子分布表如表2.表2 检测粒子分布相关不相关检索到的粒子 A B未检索到的粒子 C D在翻译决策模型建模中,将特征转化成随机粒子.根据文档粒子采用分散规则赋值,转化的粒子共39952个,与之相对应产生39952个初始权重,相同的特征在分散文档中的权重也会有所不同,因而在建模过程中,特征用集中的权重表示,并用TRUE和FALSE 标注.TRUE 的情况以二进制 1 代表,FALSE的情况以二进制0代表,粒子词性特征以三维向量表示,并转化成相应十进制,取值为 rand(2,4,6),同时量子粒子群算法仍然使用分散初始权重生成向量作为输入.初始化粒子速度与位置同步进行,设置位置xi=(0,1),速度 vi=2.0,迭代次数 MAXGEN=100,加速常数 C1,C2均为2.0. 为了验证在引入翻译决策模型的量子粒子群优化算法对聚类的准确度,将三种方法计算出特征权重构造特征向量,并进行聚类上的评价比较.其中聚类类别k=[3,7],实验数据 recall值及 F 值上的比较如表3、表4所示.表3 三种权重计算方法在聚类上 recall比较聚类类别实验方法TF-IDF算法QPSO算法 TDQO算法3 0.4286 0.5 0.6 4 0.5 0.5714 0.6667 5 0.5556 0.625 0.7143 6 0.5455 0.6 0.6667 7 0.5385 0.5833 0.6364表3、表4中的3种实验算法在聚类指标recall值及F-measure值上均表现出无论k取何值,TDQO算法始终要优于前两种算法.根据评价标准F值绘制成折线图如图2所示.表4 三种权重计算方法在聚类上 F-measure 比较实验方法聚类类别 TF-IDF算法QPSO算法 TDQO算法3 0.4615 0.5455 0.6667 4 0.5333 0.6154 0.7273 5 0.5882 0.6667 0.7692 6 0.5714 0.6316 0.7059 7 0.56 0.6087 0.6667图2 三种权重计算方法在F值走势图从图2折线趋势图可以明显看出,使用QPSO算法提高了聚类准确率,而本文提出的TDQO算法更加有效地提高了聚类准确率.当类别越大或越小时,QPSO算法准确率虽然与TF-IDF算法准确率很接近,但是整体准确率有所提高;当聚类类别数为5时,准确率提高最大(7.85%).TDQO算法在各个类别上的准确率均大大高于QPSO算法的准确率,这证明了不同的词性对于文本聚类的贡献度是有影响的.从整体上来看,当聚类类别从3开始,聚类效果呈上升趋势,当类别数超过5 时,普遍的呈下降趋势.所以聚类 k值为 5 时,聚类准确率达到最高.此时,将k设定5作为不变量,测试用三种不同方法在不同特征维度中的聚类效果.具体实验数据如图3-图5所示.图3 TF-IDF 算法在各维度上聚类效果从图3和图4可以看出共同点:在低特征维度上聚类分布改善不明显,在高特征维度上,聚类分布效果较好.区别在于 TF-IDF 算法在[1500,1800]高维度区间上的聚类效果要好于QPSO算法,而QPSO算法在[600,1000]区间上展现了较好的聚类效果. 从图5得出结论:随着特征维数的增大,聚类分布显著.与图3和图4比较来看,TDQO算法在[200,1800]区间的聚类分布依然表现出良好的聚类效果.本文提出的TDQO算法一方面提高聚类准确率,另一方面在不同特征维度也展现了较好的聚类效果,同时具有更广泛的应用范围.图4 QPSO 算法在各维度上聚类效果图5 TDQO 算法在各维度上聚类效果5 结束语目前短文本在特征权重计算的方法上很大程度上仍按照长文本的特征计算方法,然而短文本在特征属性上更具有贡献度,传统的方法会降低其准确率.本文在现有的特征权重计算方法的基础上,提出了TDQO算法[18].该算法引入某种词性作为特征出现时的概率,并将粒子作为特征在迭代中寻找最优权重配比.实验表明该算法在聚类中准确率有所提高,因此也证明了词性权重对于聚类结果是有影响的.另外,对于聚类类别k值的选取也会对实验结果有所影响.对于本文的算法依然还存在改进的地方,可以在实验的不同环节或者算法内部提高效率.参考文献【相关文献】1 Reineking T.Active classification using belief functions and information gain maximization. International Journal of Approximate Reasoning,2016,(72):43 –54.[doi:10.1016/j.ijar.2015.12.005]2 Rempala GA,Wesolowski J.Double asymptotics for the chisquare statistic.Statistics&Probability Letters,2016,(119):317–325.3 Zhong RX,Fu KY,Sumalee A,et al.A cross-entropy method and probabilistic sensitivity analysis framework for calibrating microscopic traffic models. Transportation Research Part C:Emerging Technologies,2016,(63):147 –169.[doi:10.1016/j.trc.2015.12.006]4 李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法.计算机工程,2011,37(1):16–18.5 杜坤,刘怀亮,郭路杰.结合复杂网络的特征权重改进算法研究.现代图书情报技术,2015,31(11):26–32.[doi:10.11925/infotech.1003-3513.2015.11.05]6 lbrahim A,Cowell PE,Varley RA.Word frequency predicts translation asymmetry.Journal of Memory and Language,2017,(95):49–67.[doi:10.1016/j.jml.2017.02.001]7 Kao CY.The effects of stimulus words ’ positions and properties on response words and creativity performance in the tasks of analogical sentence completion.Learning and Individual Differences,2016,(50):114–121.[doi:10.1016/j.lindif.2016.07.015]8 李欣蓬.双维度特征关系和特征位置对类别学习的影响[硕士学位论文].天津:天津师范大学,2009.9 黄文涛,徐凌宇,李严,等.基于柔性区间的多文本融合提取方法.计算机工程,2007,33(24):217–219.[doi:10.3969/j.issn.1000-3428.2007.24.076]10 吴光远,何丕廉,曹桂宏,等.基于向量空间模型的词共现研究及其在文本分类中的应用.计算机应用,2003,23(S1):138–140.11 许建潮,胡明.中文Web文本的特征获取与分类.计算机工程,2005,31(8):24–25,39.12 于海燕,陆慧娟,郑文斌.情感分类中基于词性嵌入的特征权重计算方法.计算机工程与应用,2016,53(22):121–125.13 Wang G,Zhang Z,Sun JS,et al.POS-RS:A random subspace method for sentiment classification based on partof-speech rmation Processing&Management,2015,51(4):458–479.14 李英.基于词性选择的文本预处理方法研究.情报科学,2009,27(5):717–719,738.15 Sun J,Xu WB,Feng B.A global search strategy of quantumbehaved particle swarm optimization.Proceedings of 2004 IEEE Conference on Cybernetics and Intelligent Systems.Singapore,Singapore.2004.111–115.16 Li R,Tao X,Tang L,et ing maximum entropy model for Chinese text categorization. Journal of Computer Research &Development,2005,42(1):578–587.17 常鹏,马辉.高效的短文本主题词抽取方法.计算机工程与应用,2011,47(20):126–128,154.[doi:10.3778/j.issn.1002-8331.2011.20.036]18 奚茂龙,盛歆漪,孙俊.基于多维问题的交叉算子量子粒子群优化算法.计算机应用,2015,35(3):680–684.[doi:10.11772/j.issn.1001-9081.2015.03.680]。
基于中文短信文本聚类的热点事件发现
基于中文短信文本聚类的热点事件发现刘金岭;王新功【摘要】With the rapid development of telecommunication industry, SMS text such as query logs and SMS text messages play an in-creasingly important role in our daily life, and there are hidden hot events in large size class of Chinese SMS text. Most existing clustering methods are hardto be applied in dealing with this kind of information due to the huge scale of data. Using SMS text cohesion in a given time period, the clustering of SMS text is sorted and isolated information and small set SMS text are removed in the clustering process. The experiments show that the clustering efficiency of the large size class for mass SMS text is very high.% 随着通信事业的快速发展,短信文本信息量非常巨大,乃至亿级,同时大类别短信文本中隐含着热点事件。
现有聚类算法对海量短信文本进行聚类分析显得力不从心。
利用短信文本在给定时间段中的内聚性,对待聚类的短信文本进行排序,并在聚类过程中清除孤立信息和小类别短信文本。
实验表明,对于海量短信文本的大类别聚类效率是非常高的。
一种适用于短消息文本的聚类算法
( 南机 电 职 业技 术 学 院 信 息 工 程 系 , 南 长沙 4 05 ) 湖 湖 1 1 1
摘要 : 针对短消息文本聚类 , 设计基 于频繁词集和 A t re的混合聚 类方 法。该算法利用基 于频繁词 集聚类算法处理文 n. e T
本数据 的效 率优 势, 生成初始聚簇 , 算轮廓 系数 消除重叠文档 , 计 在此基础上再通过 A t r n— e T e算法继续精 化, 最终得到 高
质 量 的 结 果 输 出 。 而且 聚 类结 果保 留 了描 述 信 息 和 树 状 层 级 结 构 , 提供 了更 广 阔 的应 用 。
关键词 : 频繁词集 ; n—re 法; At e算 T 轮廓 系数 ; 短消息 ;聚类
中 图 分 类 号 :P 0 . T 3 16 文 献标 识 码 : A d i 1 .9 9 ji n 10 — 7 .0 2 0 .0 o: 0 3 6/.s .0 62 5 2 1 .2 09 s 4
海 量 的短 消息数 据。 这 些数 据 蕴 含 着大 量有 价 值 的 信 息 , 这些 数 据 的挖 掘 应用 的重要性 日趋 显 著 。 对
本 文结合 频繁 词 集 挖 掘算 法 和 A t re聚 类 算 n— e T 法, 引进 轮 廓 系 数 , 计 适 合 短 文 本 混 合 聚 类 算 法 设
c u t r g rd c s te i i a s r h n e i n ts te o e p tx o u n s b a c l t g s h u t o f ce t F r e l se i ,p o u e h n t ldu t ,t e l n i e mia e h v da e td c me t y c u a i i o e t c e iin . u t r l n l e h
基于“文本对齐”进行短文本过滤算法的研究
{ c h a r s t r l 【 2 5 6 ] , s t r 2 1 2 5 6 ] ;
c o ns t c ha r r e pl a c e s t r , s e a r c h s t r ; c ha r pl , p2, p3;
好的提升 , 本文提出了一种“ 文本对齐 ” 算法思想。 编辑距离算法核心是基于字符序 列比对 的计算方法 ,算 法本身对 一些停用词和文本噪声 比较敏感 。 在数据收集阶段 , 采用了清华 同方 ( 知 网) 公司开发的 Ks p i d e r 短文本采集系统 采集 B BS帖子数据, 并存放到 K b a s e数据库 中。这些 大批量 的数据中不乏一些 h t ml 页面显示格式控制信 息, 在存放到数
码描述如下:
c h a r p 4 1 2 5 6 ] = ” \ 0 ” :
u n s i g n e d i n t f s l e n , i l , i 2 , i 3 ; / / f s l e n为待查找串的长度 ; s t r c p y ( s t r l , t e x t ) ;/ / 用s t r l 暂时存放要处理 的文本 ;
f o r ( i n t i = 0 ; i < NO O F R E C O R D; i + + ) ; { s e a r c h s t  ̄S y n o n y m y [ i ] . v a r i a t i o n ; / / 先 临时 保 存 同义 词 词
库的第 i 个词条的两个字段;
2 0 1 3 年 第 9 期
( 总第 1 3 1期 )
信 息 通 信
I NF 0RM ATI ON & C0M M UNI CAT u m .N o 1 3 1 )
stc算子法的案例
STC算法案例分析1. 背景STC(Short Text Clustering,短文本聚类)算法是一种用于处理短文本聚类问题的算法。
在实际应用中,短文本数据普遍存在,例如电子邮件的标题、社交媒体的评论等。
由于短文本的语义表达较为简洁,常常缺乏足够的信息来支持传统的聚类算法,因此传统的聚类算法在处理短文本数据时效果不佳。
STC算法针对短文本数据的特点,采用了一种基于语义主题的聚类思想,通过挖掘短文本之间的概念相似度实现聚类。
2. 案例2.1 案例背景某电商公司拥有大量的用户评论数据,这些评论都是短文本,该公司希望对这些评论进行聚类,以便进一步分析用户的意见和情感倾向。
由于评论数据的特点,传统的聚类算法无法满足要求,因此该公司决定采用STC算法进行短文本聚类分析。
2.2 过程描述STC算法的过程主要包括以下几个步骤:步骤1:预处理对评论数据进行预处理,包括去除停用词、进行词干化等操作,以减小词袋模型的维度。
步骤2:构建词袋模型将预处理后的评论数据转换为词向量表示,构建词袋模型。
步骤3:计算词语相似度计算词袋模型中每个词语之间的相似度,可使用TF-IDF、Word2Vec等方法计算词语相似度。
步骤4:计算文本相似度根据词语相似度计算文本相似度,考虑文本中词语之间的相似度和共现关系。
步骤5:构建相似度矩阵根据文本相似度计算得到的相似度,构建相似度矩阵。
步骤6:聚类分析使用聚类算法对相似度矩阵进行聚类分析,根据相似度矩阵中的相似度信息将文本分为若干个类别。
2.3 结果展示经过STC算法的处理,最终得到了用户评论的聚类结果。
下面是某个具体类别的评论示例:类别1:商品质量•“这个商品真的太糟糕了,质量不行,不值得购买!”•“非常满意这个商品的质量,做工精细,物美价廉!”•“商品质量一般般,不怎么样,性价比不高。
”通过对用户评论进行聚类,可以发现该类别下的评论主要围绕商品质量展开,用户对商品质量有着不同的评价。
短文本聚类算法研究
1 . 短 文本 聚 类
1 . 1文本 聚 类方 法
文本 聚类 是指将文档集合 分组成为 由类似 的文档组 成的多个类 ( 簇) 的过程 。由聚类产生 的簇是文档的集合 , 同簇中的对象彼此相似 , 不 同簇 中的对象彼此相异 与分类不 同的是 . 聚类方法要划分 的类是 未知的 , 也就是说聚类是一种无指导的学习方法 。文本聚类作为文本 挖 掘的一项基本技术 , 己经在文本 内容 分析 、 信息检索 等领域获得 了 3 . 基 于密度的短文本聚类 广泛 的应用 。 由于聚类 的重要性 , 人们对聚类方法进行了广泛的研 究 , 提出了很 多算法 3 . 1 基本的密度聚类 方法 聚类 方法 可以分成 五个类别 : 划分 的方法 。 层次 的方法 , 基 于密度 基本 的密度聚类方法将具有足够高密度的区域划分为簇 . 能够 在 的方法 。 基 于网格 的方法 . 基于模型的方法。 另外有的方法是上述多个 带有噪声的文本数据库 中发现任意形状的簇 。 方法的综合运用 。尽管这些方法不是专门为文本聚类设计 的 , 但 他们 基本 的密度聚类方法在以下两个方面存 在问题 : 都可用 于文本 聚类 ( 1 ) 低相似性 问题 。 在高维 、 稀疏的样本 空间中( 如我们所针对的海 1 . 2短文本聚类 面临的挑 战 量短文) , 大 多数样本之 间的相似度是很低 的。在相似度很低的情况下, 短文本聚类 是指对短文本文档进行聚类 . 如用户转发 、 评论 、 关注 个样本 的最临近样本未必就是和它属于相同的簇 f 2 ) 密度的相对性 问题 。不 同的簇可能有不 同的密度特性 , 距离近 等文本的聚类 于传 统的聚类相 比. 短文本聚类面临 以下挑战 : 银 河系 中 ( 1 ) 短 文本数据 的高维 和稀疏 问题 。 通 常数据库 中会有超过一万 的 的样本 未必就适合划分到相 同的簇 中 一个直观的例子是, 常用词 , 而每个短文中包 含的词有很少 聚类算 法必 须能够处理高维 的恒星 比太阳系中 的行星更适合划 分到一个簇 中, 尽管太 阳系的行星 之间的距 离更 近 和稀疏 的文本数据 解决 上述 问题 的关键思路是在 定义样本之 间的相似性 时考虑其 ( 2 1 数据规模问题。 例如在我们 的应用需求 中需要处理上百 G B的数 S h a r e d N e a r e s t N e i g h b o r 。 据。通常的聚类算法在处理这样 的海量数据 时都变得低效甚 至根本无 所 处的环境 .基于这 种思路定 义共享 近邻 ( N N ) 相似度 。 S N N相似度弥补 了传统相似度 的一些缺 陷。 在低相似 的 法运行 。海量短文本数据库中的聚类算法必须具备 良好的可伸缩性。 S 一个 点的邻进点可 能和它并不属 于相 同的簇 . 但如果使 ( 3 ) 簇 的表示 和理解 问题 。无论什么聚类方法产生的簇 . 都需要进 样本区域中 . N N相似度 . 两个结 点间通常没有更多 的共享 邻居 . 因此它们的相 行表示并交给用户去理解 文本聚类要求 聚类 的结果必须对一般的用 用 S N N相似度同样能够克服密度得相对性问题。 户是可 以理解 的[ 8 9 1 。 通常的算法基于文档的相似性进行 聚类 , 但很难 似度变得 比较低 。S 3 . 2 短 文本距离计算 解释为什么某些文档会在一个簇中 在有 的应用中 聚类 以后再进行 无论采用什么样 的密度 聚类方法 . 文档之 间基本的距离计算仍 是 文本 摘 要 来 进 行 簇 的表 示 我们不采用传统的基 于向量 空 ( 4 ) 短文本聚类的精确度 问题。与文本分类应用相 同. 短文本 中的 聚类的关键问题。针对短文本的特点 . 而是采用基于知网的语义距 离计算 。 关键词 出现次数很少 . 这使得基于 向量空间模 型和词频统计 的方法难 间模型的欧式距 离 , 3 _ 3并行 化方法 以得到可接受 的准确度 。 使用基于语义 的短文距 离计算及基于 S N N的密度聚类方法 提高 从应 用需求上来讲 . 短文本聚类 一般可 以有两种 目的 : 一是得 到 k 个最大 的类 . 如获取热 门话 题或新 闻事件 : 二 是获取那些 最小 的类 了聚类 的准确度 , 但同时也增加了聚类算法的计算复杂度 。为了使 算 法能够适应海量数据 . 本文采取 了并行化的方法。 或孤立 点, 这在情报分析 中有重要的价值。 针对 短文本挖掘领域 的应用需求和面l { 缶 的挑战 . 本文提 出两个 聚 算法并行化 的基本思 想是利用数据抽样和 S N N图的划分 。首先 类方法 。一个 是基 于频繁词集 的短文本聚类算法 , 另一个是基 于密度 对全局数据库进行 抽样 .随机抽取足够 的样本 并建立其 S N N相 似度 的短文本聚类算 法 图。 设并行挖掘结点的数 目为 n . 则把 S N N相似度 图划分成 n 个子图 , 2 . 基于频繁词集的短文本聚 类 每个子 图对应一个挖掘结点 。进行数据划分时 , 根据 短文和子图的语 2 . 1 基本 聚类方法和簇 的表示 义距离把待聚类的短文划分到对应的挖掘结点。 为 了提高数据划分的 目前已经有一些基于频繁词集 的文本 聚类 算法是在 F T S D C的基 效率 . 实 际上并 不是直接计算短文 和完整的 S N N子 图的语 义距离 . 而 础上改进而来 F T S D C的 目 标是发现无重叠的簇 . 也就是说每个文档 是使用 S N N子图的概要 图( 概要图在图划分的时候 生成) 。 这样 的数据 因为如果有很多新 的 只能属 于一个簇 。如果要 发现可 重叠 的簇 ,对算法 稍做 修改 即可 。 划分 和并行 聚类是牺牲 了一定 的聚类准确度 的 . F I ' S D C的基本聚类算法分两 个步 骤: f 1 ) 对 于每个频 繁词集 。 创建相应 样本处 于两个 S N N子图的边界 . 就会对整个 S N N图的结构产生影响 。 只要 抽样 的样本 数量足够大 , 这个 问题基 本可 以忽 的簇 , 该簇包含 了所有包 含该频繁词集 的文档 : ( 2 ) 对 已划分 的簇进行 但在 实际应用 中. 调整 , 去除重叠 . 把重叠的文档划分 到最合适 的簇 中 略不计 。 2 . 2 并行化方法 4 . 结 论 为 了提高可伸缩 性以适应海量 数据 .  ̄ I ' S D C进行 了并 行化处理 , 从实验结果来 看, 尽管 两个算法 的准确度 超过了 同类 的其它算 法, 其体系结构包括一个 控制结 点和 n 个挖掘结点 并行化 的方法基逻辑 但准确 度仍有 待提高 进一步提 高准确 度应该 考虑更合理地使用语 义 数据划分思想 。假设 控制结点和挖 掘结点处 于一个服务器集群 中, 数 信息和进一步改进 算法。 ● 据库对于每个控制结点和挖掘结点都是可访 问的。 每个挖掘结点处 理 个逻辑分 区. 并不需要数据的移动。 【 参考 文献】 并行化 的 F r S D C有三个步骤 。( 1 ) 控制结点进行逻辑数据划 分并 [ 1 ] J u r e L e s k o v e c J o h n S h a w e — T a y l o r . S e m a n t i c T e x t F e a t u r e s f r o m S m a l l Wo r l d 把频繁词集发送到各个挖掘结点 。 ( 2 海 个挖掘结点采用基本 的 F T S D C Gr a p h s . S u b s p a c e , L a t e n t S t r u c t u r e a n d F e a t u r e S e l e c t i o n t e c h n i q u e : S t a t c a l a n d 算法来聚类 , 处理所属分 区上的重叠文档并 去除重叠 。( 3 ) 控制结 点把 Op t i mi z a t i o n p e r s p e c t i v e s Wo r k s h o p, 2 0 0 5 .
概念属性扩展的短文本聚类算法
知网是一个 以汉语和英语词语所代表的概念为描述对象 ,以揭示概念之间以及概念所具有的属性之间的 关系为基本 内容的常识知识库 。在知网中有两个重要的概念 :“ 3 义项”和 “ 义原” ,其中义项是对词语语义 的一种描述 ,每一个义项用概念定义式 ( E )来表示 ;义原是最基本的、不易于再分割 的意义最小单位, DF 义原的组合形成 了知 网中各种义项 ,知网一共采用 了 10 多个义原来定义各种义项。知网中词语间的语义 50
每个特征词 t i i ed 的权重 w 进行计算 , 其定义如下:
w= q , ) l t ×o j g ・ () 1
其 中 t d, 表示特征词 在文本 d 中的词频 ; f i ( ) i 文档总数。 22 概念属性扩展特征关键词权值计算 .
) D中包含特征词t的所有文本的数 目,DI 是 j I 表示
关系有同义关系、近义关 系、多义关系和反义关系 ,用这些语义关 系来分析文本 , 把文本中分散的但有潜在
语义关系的词语联系起来 ,可以将不同的表达形式用 同一个概念来描述。因此知网不仅着力反映概念的共性
和 个性 ,而 且还 要着 力反 映概 念 之 间和概 念 的属 性之 间 的关 系 。
一
念属性 扩展 特征关键 词短文 本聚 类算 法—— B F (ha Tx Cut i a do ocp Fa r E . c E So et l e n Bs nC net et e x srg e u pni ) as n 。该算法通过 H w e的概念属性扩展特征关键词 ,以此增加文 本语义特 征和反映文本 主题的 o oN t 特 征关 键词数量 ,进而提高短文本相似性 ;将其应用 于短文本 聚类 ,能够提高短文本的聚类 效果。实 验结果 表明 ,该算法在短文本 聚类 的查准率和查全率 上都得到 了较大的提高。
基于频繁模式的长尾文本聚类算法①
基于频繁模式的长尾文本聚类算法①宋中山, 张广凯, 尹 帆, 帖 军(中南民族大学 计算机科学学院, 武汉 430074)通讯作者: 帖 军, E-mail: tiejun@摘 要: 短文本聚类一直是信息提取领域的热门话题, 大规模的短文本数据中存在“长尾现象”,传统算法对其聚类时会面临特征纬度高, 小类别信息丢失的问题, 针对对上述问题的研究, 本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collaborative Pruning iteration Clustering framework, FIPC). 该算法将迭代聚类框架与K 中心点算法相结合, 运用协同剪枝策略, 实现对小类别文本聚类, 实验结果证明该聚类算法能够有效的提高小类别短文本信息聚类的精确度, 并能避免聚类中类簇重叠的问题.关键词: 文本聚类; 长尾现象; 频繁模式; K 中心点算法引用格式: 宋中山,张广凯,尹帆,帖军.基于频繁模式的长尾文本聚类算法.计算机系统应用,2019,28(4):139–144. /1003-3254/6852.htmlLong Tail Text Clustering Algorithm Based on Frequent PatternsSONG Zhong-Shan, ZHANG Guang-Kai, YIN Fan, TIE Jun(School of Computer Science, South-Central University for Nationalities, Wuhan 430074, China)Abstract : Short texts clustering is a popular topic in the field of information extraction. There is a “long tail phenomenon”when the scale of data is large, which causes high dimensions of features and information loss of small class. To solve these problems, this study proposes a Frequent Itemsets collaborative Pruning iteration Clustering framework (FIPC). This framework combines the iterative clustering framework with the K-mediods algorithm, using the collaborative pruning strategy to cluster text of small class. The result of experiments shows that the FIPC framework can achieve text clustering of small class with high accuracy, and avoid the problem of overlapping clusters.Key words : text clustering; long tail phenomenon; frequent mode; K-mediods algorithmTwitter 、微博信息传递的形式为短文本.短文本最大的特点是单条短文本只有几十个字节大小, 仅包含几个到十几个词典词语, 很难准确抽取有效的语言特征[1]. 这类非规范化严重的短文本, 具有特征信息不足,特征维度高, 数据稀疏性高等特点[2,3]. 因此使用传统聚类方法对此类短文本聚类时难度较大.“长尾现象”普遍存在口语化的短文本集中. 大约40%的短文本信息集中分布在大约20%的空间中, 也就是“头”的部分, 称之为“热点”, 大约60%的信息分布在大约80%的空间中, 即“尾”的部分, 将所有非热点信息累加起来就会形成一个比主流信息量还要大的信息[4].从这些“尾”部的信息中收集到有用的信息对于政府或者一些投资商了解社会异常以及人们日常动向有很大的帮助[5,6]. 传统聚类算法, 主要通过一次筛选后得到频繁词来表征短文本, 因“长尾”部分短文本的特征词权重很小, 达不到传统算法中筛选阈值, 所以在挖掘频繁计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: csa@ Computer Systems & Applications,2019,28(4):139−144 [doi: 10.15888/ki.csa.006852] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 国家科技支撑计划项目子课题(2015BAD29B01); 农业部软科学研究课题(D201721); 中央高校基本科研业务费专项资金(CZY18016)Foundation item: Sub-program of National Sci-Tech Supporting Plan (2015BAD29B01); Soft Science Research Project of Ministry of Agriculture (D201721);the Fundamental Research Funds for the Central Universities (CZY18016)收稿时间: 2018-10-15; 修改时间: 2018-10-31, 2018-11-14; 采用时间: 2018-11-19; csa 在线出版时间: 2019-03-28词时, 会忽略掉小类别短文本的特征词, 造成小类别短文本的特征信息不足, 在聚类结果中小类别短文本会被划分到不正确的簇里面, 导致聚类的精确度降低, 因此本文围绕提高“长尾”部分短文本聚类精确度的问题,提出一种频繁项协同剪枝迭代聚类算法(FIPC), 首先提取频繁词构建频繁词-文本矩阵, 接着使用K中心点算法对文本进行初始聚类, 然后根据协同剪枝策略对原始数据集进行剪枝得到下一次迭代聚类的文本集,重复进行上叙过程, 直到得到对小类别短文本聚类的结果簇, 从而实现“长尾”文本的聚类. 实验结果证明,与传统的K-means聚类和FIC算法相比, 该算法能够有效的避免类簇重叠问题, 提高了“长尾”短文本聚类精确度.1 相关工作目前国内外的众多学者已经对于短文本聚类方面技术有了相关研究. 基于频繁模式的文本聚类算法, 该类算法通过以频繁模式的方式, 表征文本进行聚类[7–9].如: 栗伟等人提出了ACT算法[10], 该算法将挖掘频繁项来表征文本, 以频繁项确定文本簇的中心点, 对文本进行完全聚类. 该算法所面对的数据集为疾病的病例数据, 此类数据格式规范且种类少. 但是该算法在进行日常口语化文本信息提取时, 算法效率较低. 彭敏[11]等人提出了一种基于频繁项集的短文本聚类与主题抽取STC-TE框架, 该框架首先对于海量短文本数据进行打分数筛选, 留下得分高类别大的文本, 结合谱聚类算法CSA_ SC算法与主题抽取模型, 实现短文本聚类效果. 该算法在处理社交网络中的短文本信息时, 前期处理筛掉非频繁的短文本, 造成了大量的信息缺失, 对一些小的类别文本没有进行聚类, 精度不高, 效果不佳. 基于子树匹配的文本聚类算法, 该类算法利用文本生成元数据特征向量, 设置分层权重结合语义之间关系构建文本子树, 通过子树之间的相似度来进行文本匹配[12,13].该算法不能解决多义词的问题, 这对于日常短文本的聚类效果不佳. 基于语料库的短文本聚类算法, 该类算法在不借助外部文本信息的情况下, 引入共轭定义来表征主题词和单词结构, 提出文本虚拟生产过程, 达到解决文本稀疏性和聚类问题的目的. 如: Zheng CT, Liu C, Wong HS[14]提出的基于主题扩展的文本聚类算法,结合特征空间及语义空间达到提高短文本聚类精度的效果, 但该算法在对于具有“长尾现象”的文本数据聚类时效果不佳. 基于主题模型的文本聚类算法, 该类算法主要结合主题模型与传统算法, 来对海量短文本进行聚类. 如: Hung PJ, Hsu PY, Cheng MS[15]的动态主题的Web文本聚类, 结合EM算法与动态主题为文本聚类特征对Web文本进行聚类; 张雪松和贾彩燕提出的FIC算法, 首先挖掘频繁词集表示文本, 构建文本网络,运用社区划分算法对网络进行大范围划分, 最后提取主题词, 进行类簇划分[16]. 该算法在处理“长尾现象”的短文本数据时, 聚类精度不高. 针对此类问题, 彭泽映等人[17]在对实际应用中短文本信息的“长尾现象”进行分析后,提出不完全聚类的思想, 即在聚类的过程中集中资源处理大类别的短文本, 减少资源在孤立点聚类上的浪费, 尽量减少小类别的短文本的聚类时间, 增加大类别的短文本聚类机会. 但该算法在处理社交网络口语化,小类别文本数繁多的应用中, 容易丢失文本信息, 精确度较低.针对以上短文本聚类面临的特征高维, 小类别信息丢失的问题, 本文提出频繁项协同剪枝迭代聚类算法(FIPC), 通过挖掘频繁词集, 根据相关文本相似性实现文本聚类, 得到部分聚类结果, 根据协同剪枝策略,生成主题词检索并且剔除相关短文本, 迭代进行此聚类过程, 进而实现短文本聚类. 具体来说主要有以下2点贡献: (1)采用逐步降低频繁词的筛选阈值, 让权重较小的频繁词被选中来表示短文本的特征, 解决了传统聚类中小类别信息被忽略的问题, 同时避免了类簇重叠问题的出现; (2) 充分利用类簇主题词与文本之间关系, 设计协同剪枝策略, 减小迭代聚类中每一轮数据集, 减小了每轮聚类的时间消耗.2 模型描述2.1 频繁词挖掘模型{d1,d2,···,d N}V={t1,t2,···,t n}定义1. 文本数据集D由多个文本组成 D =, N表示文本集的大小总数, 以及文本切词之后得到的词集V, , n表示词汇表的大小.d NV={t1,t2,···,t n}t n 定义2. 特征词: 每一个文档经切词之后得到词集, 词集中的每一个词, 称为特征词.w M定义3. 文本集D中第j个文本的每一个频繁词对应词集V构成的词空间的一个维度, 表示每一个频繁词对应的权重, 即词空间中的每个维度的坐标.对于特征词权重的计算方法运用TF-IDF算法. 其计算机系统应用2019 年 第 28 卷 第 4 期t f i j d j t i d j t i t f i j 中表示在文本中的特征词的出现的标准化词频,则在文本中标准化词频(记做)计算如下:t f i j =f i jmax {f 1j ,f 2j ,···,f M j }(1)式如下:id f i =logNd f i(2)αi 在短文本中不同词性重要程度不同, 代表文本的重要程度不同, 我们给每一个特征词根据词性赋予一个权值.d j w i t f i j id f i αi 最后文本中每一个特征词的最终权重为词频因子()与逆文档频率()与词性权重三者的乘积. 如式(3)所示:w i =t f i j ∗id f i ∗αi(3)由式(3)所示特征词的权重由三方面的因素来决定: 第一方面因素为该特征词在这个短文本中词频因子; 第二方面为该特征词在文本集里面的逆文档频率因子; 第三方面为特征词的词性因子[18].Y 2f k F i ={f i ,f 2,···,f k }定义4. 频繁词集: 从词集V 挖掘权重大于频繁词阈值的频繁词组成的集合.2.2 文本表示模型L [i ][j ]d j f i d j f i L [i ][j ]=1L [i ][j ]=0向量空间模型(Vector Space Model, VSM)是最常用的文本表示模型[19]. VSM 模型采用特征词表征文本构建矩阵, 这对于矩阵的维度比较高, 本文运用频繁词表征文本, 选前K 个频繁词构建频繁词-文本矩阵L ,L 为0-1矩阵, 其中表示矩阵L 中文本对于频繁词的值, 若文本中含有频繁词, 则, 否则. L 的表现形式为:L [i ][j ]={1,f i ∈d j 0,f i d j(0≤i ≤k )(4)选用前K 个频繁词来构建矩阵L , 而不选择所有的特征词, 这样降低了矩阵的维度, 同时也解决了文本稀疏性问题.文本向量化后的对文本进行相似度计算, 传统的相似度计算的方法有几种, 例如余弦相似度和欧氏距离. 本文采用余弦相似度来度量:cos θ=−→d q ∗−→d p−→d q −→d p(5)−→d q −→d p Q (Threshold )Q (Threshold )其中, 和分别代表文档向量化后的向量, 设定相似度余弦阈值, 若两者相似度余弦阈值大于, 则将两者归于为1个类簇.对于所有文本运用K 中心点算法对其两两进行相似度计算如式(6)所示, 将相似的文档来归于到一个类簇中.MaxS im (d i ,d j )=∑−→d i ∈d i ∑−→d j ∈d jS im (−→d i ,−→d j )(6)S im (d i ,d j )S im (−→d i ,−→d j )以两个向量之间相似度值来衡量两个文本之间的相似度值, 当大于相似度阈值时,则认为两个文本相似.2.3 协同剪枝策略T Ci 如何利用主题词与短文本之间的关系, 这在提高“长尾”文本聚类的精确度方面有重要的作用. 对于上一次聚类结果簇, 提取主题词. 根据以下规则进行剪枝策略以及迭代聚类.D ={d 1,···,d N }C i C i T Ci d N d N T Ci d N 规则一: 对于初始样本文本集, 初始聚类后得到初始结果簇, 从选取频繁词作为主题词, 对于初始数据集中每一个文本, 若表示的频繁词集中包含, 则从初始样本文本集D 当中剔除掉文本, 余下文本集作为下一次聚类的输入文本.规则二: 为了防止短文本中孤立点数据对迭代聚类次数的影响, 设置固定最小权重阈值P , 多次迭代聚类后, 对余下文本计算特征词权重, 若所有特征词权重中最大的特征词权重值小于最小权重阈值P , 则迭代聚类结束.3 FIPC 算法Y 2{C i }FIPC (Frequent Itemsets collaborative Pruning iteration Clustering framework)频繁项协同剪枝迭代聚类算法步骤图如图1所示, 该算法首先对初始样本文本集D 切词得到具有词性标注的特征词, 从其中提取频繁词, 然后构建频繁词-文本向量矩阵, 在文本向量化后利用K 中心点算法进行聚类[20], 初始聚类结束得到部分聚类结果簇, 提取每一个簇中的主题词, 根据协同剪枝策略对初始样本文本集进行剪枝. 同时减小频繁词阈值, 再对余下数据集迭代进行第二次、第三次等多次聚类过程, 经过多次聚类之后, 若余下文本特征词满足规则二, 则迭代聚类结束, 最后得到聚类结果簇. 算法中部分参数如表1所示.2019 年 第 28 卷 第 4 期计算机系统应用开始特征词挖倔频繁词提取文本向量比表示文本聚类, 提取类簇主题词协同剪枝是最大特征词权重>最小权重阀值P否结束图1 频繁项协同剪枝迭代聚类算法步骤图表1 部分参数含义表参数说明f i t i 文本集特征词的词频d ji d j t i 文本中的特征词f ji d j f i文本中的频繁词T Ci 类簇主题词w i j d j t i 文本中的权重C i聚类文本簇实验中采用频繁词阈值动态变化逐步减小的规律,上一次实验选取频繁词阈值高, 代表文本可信度较高,最后将文本分到指定簇的可信度高于其后实验可信度.使得每一个文本能被唯一指派到唯一的类簇中, 避免了类簇重叠问题的生产.算法描述如下:算法1. 频繁项协同剪枝聚类算法Y 2Q (Threshold )输入: 最小权重阈值P , 频繁词阈值, 文本数据集D , 相似度余弦阈值.{C i }输出: 最终聚类结果簇.1) 对样本文本数据集进行分词, 得到具有词性标注的特征词.w i 2) 依据式(1)、(2)、(3), 计算每个特征词的权重.Y 2f i d N →d N −→d N ={1,0,···}3) 根据频繁词阈值挖掘频繁词表征文本, 构建频繁词-文本表示矩阵, 文本表现形式为: .4) 依据式(5)计算表示文本向量之间的相似性.Q (Threshold )5) 根据向量之间余弦值与相似度余弦阈值的大小, 将两个文本进行相似度的比较.C i 1T Ci 6) 随机选K 个向量作为初始聚类中心点, 运用K 中心点算法进行聚类, 得到初始类簇, 选取簇中频繁词作为主题词.T Ci 7) 根据协同剪枝策略删除原始数据集中与主题相关的文本.Y 2Y 2=Y 2−εC i 28) 减小频繁词阈值, 对余下数据集进行下一次特征词权重计算, 若其中最大特征词权重值大于P , 则跳转到步骤1), 重复执行上序步骤1到8, 且得到下一次聚类结果簇.{C i }={C i 1,C i 2,···,C in }9) 若最大特征词权重值小于p , 则全部算法结束.得到最终聚类结果簇.4 实验结果与分析4.1 数据集其中, 文本分类语料库搜狗新闻数据集①包含9个新闻类, 共有17 910个文本; NLPIR 微博英文语料库②,包含的英文文档数为23万, 其中数据集的文本结构为:Id: 文章编号、article:正文、discuss: 评论数目、insertTime:正文插入时间、origin: 来源、person_id: 所属人物的id 、time: 正文发布时间、transmit: 转发. 本文中抽取article 中的文本短内容进行聚类, 从搜狗数据集随机选取部分数据进行实验, 如表2所示.表2 搜狗数据描述种类名称文档数量IT 549财经472体育599健康236教育458军事3754.2 聚类评价指标为了测试FIPC 算法的性能, 我们需要选择聚类评价指标, 聚类评价指标分为内部评价指标和外部评价指标. 我们采用文本聚类中常用的外部评价标准F-measure [21], 它经常被用作衡量聚类方法的精度, 是一种平面和层次聚类结构都适用的评价标准. F -measure 综合了召回率和准确率2种评价标准:Recall (K i ,C j )=n i j|k i |(7)precision (K i ,C j )=n i j C j(8)① /labs/resources/list_yuliao.php ②/计算机系统应用2019 年 第 28 卷 第 4 期n i j C j K j C j K j 其中, 表示簇中属于类的文本数, 由召回率和准确率可得到表示簇描述类的能力计算:F (K i ,C j )=2∗Recall (K i ,C j )∗precision (K i ,C j )Recall (K i ,C j )+precision (K i ,C j )(9)大表示聚类效果越好.4.3 实验方案设计为了验证本文提出的文本聚类方法, 我们选用2个文本聚类中标准的数据集来进行实验, 对照常用的基于K-means 文本聚类方法和FIC 算法.t i 对于原始数据集首先利用python 中的结巴分词(基于机器学习的中文自然语言文本处理的开发工具)进行切词, 样本文本经过切词、剔除停用词以及词性标注操作之后, 得到具有词性标注的特征词, 但仍然存在这大量与主题无关或者无意义的词语. 因此在本文中需要选取阈值来筛掉不相关和无意义的词语.Y 2Q (Threshold )本文中有3处参数需要涉及到阈值的选取, 包括挖掘频繁词的频繁词阈值、计算余弦相似度时余弦阈值、实验结束时最小权重阈值P . 本文通过手动调参, 多次试验的方式, 来获得聚类最佳效果的参数阈值, 其中在频繁词减小的过程中, 要保证每次表征文本的频繁词数不少于5个, 选择最后实验结束的最小权重阈值P 时, 最少保证词频最大的频繁词所出现文本的频数不小于2. 对于本次实验, 在英文数据集中, 选取相似度余弦阈值步长为0.005, 由于中文数据中的停用词较多以及每个文档词数量较少, 因此采用与英文数据不同的阈值选择方式, 采用0.01的步长, 并且以对聚类精度影响最高的相似性余弦阈值进行实验.4.4 实验分析P =0.003Y 2=0.020Q (Threshold )我们在不同算法上分别对搜狗数据集和NLPIR 微博内容语料库进行试验, 其中对这3种算法进行10次实验取平均值作为最后聚类的精度结果. 对于实验初始值聚类的中心点数K 值我们设置为5, 实验过程中对于聚类结果不在我们初始簇类别里的, 则设为一个新的簇类. 实验中固定最佳的最小权重阈值和频繁词筛选阈值, 如图2所示为相似度余弦阈值取不同值时FIPC 、FIC 和K-means 算法在搜狗数据集下的F-measure 的变化曲线图.P =0.003Y 2=0.020图3为3种算法在固定最佳的最小权重阈值和频繁词筛选阈值之后取不同相似度余弦阈Q (Threshold )值时, 在NLPIR 微博英文料库上的F-measure 变化曲线图.对于本次实验最后产生的类簇进行主题词提取,我们选用提取频繁词来作为主题词. 统计该类簇中频繁词出现频率, 并且按照前10的频繁词来描述主题词.0.550.500.450.400.350.300.020.030.040.050.060.07F -m e a s u r eQ (Threadhold)FIPC FICK-means图2 搜狗中文数据集下三种聚类算法的精度0.850.800.750.700.650.600.550.500.450.0050.0100.0150.0200.0250.030Q (Threadhold)F -m e a s u r eFIPC FICK-means图3 NLPIR 微博数据集下三种聚类算法的精度如表3所示, 可以看出FIPC 算法较之其他方法在精度上面有明显的优势, 原因有以下几点:(1) 在数据处理方面, 并不只是分词和去掉停用词,为了保留具有代表性的词汇, 采用TF-IDF 值结合词性来筛选特征词.(2) 运用频繁词来构建文本表示模型, 文本集中挖掘出频繁词, 有效的降低了文本表示矩阵的维度.(3) 本文采用协同剪枝的策略, 结合主题词与文本矩阵进行协同剪枝, 缩小了数据集的大小.经过10次试验取平均值作为最后聚类结果得出以下3个算法在2个不同数据集中的精确度.由表3中可以看出F I P C 算法聚类出来的F -measure 值相较于其他2个算法略大, 因此体现出该算2019 年 第 28 卷 第 4 期计算机系统应用法的聚类精确度最好.表3 算法F-measure值算法搜狗数据集NLPIR语料库K-means0.41520.4043FIC0.56770.5285FIPC0.60150.59325 结语本文针对短文本“长尾现象”这一特点, 提出一种新的文本聚类算法FIPC, 该算法基于频繁词表征文本,解决了高稀疏性的问题, 将经典聚类算法K中心点应用到迭代聚类的框架中, 实现对小类别文本进行聚类, 更精确的挖掘小类别短文本的信息, 提升了聚类的准确性.本文中采用的K中心点算法结合协同剪枝策略, 但是K中心点算法一直存在一个问题:如何选取合适的初始中心点, 本文中采用人工随机选取初始中心点的方法,若能在选取合适的初始中心点对于实验结果的精确度能有更大的提高. 因此在下一步工作中如何有效快捷的选取合适的初始中心点来进行聚类是我们所要思考的.参考文献丁兆云, 贾焰, 周斌. 微博数据挖掘研究综述. 计算机研究与发展, 2014, 51(4): 691–706.1Zhao Y, Liang SS, Ren ZC, et al. Explainable user clustering in short text streams. Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. Pisa, Italy. 2016. 155–164.2Song HS, Li N, Zhang W. Application of VSM model to document structure identification. Journal of Beijing Information Science and Technology University, 2011, 26(6): 66–69, 75.3Dasgupta S, Ng V. Towards subjectifying text clustering.Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. Geneva, Switzerland. 2010. 483–490.4Hinz O, Eckert J, Skiera B. Drivers of the long tail phenomenon: An empirical analysis. Journal of Management Information Systems, 2011, 27(4): 43–70. [doi: 10.2753/ MIS0742-1222270402]5Weng JS, Lim EP, Jiang J, et al. TwitterRank: Finding topic-sensitive influential twitterers. Proceedings of the 3rd ACM International Conference on Web Search and Data Mining.New York, NY, USA. 2010. 261–270.6Marcacini RM, Corrêa GN, Rezende SO. An active learning 7approach to frequent itemset-based text clustering.Proceedings of the 21st International Conference on Pattern Recognition. Tsukuba, Japan. 2012. 3529–3532.Zhang W, Yoshida T, Tang XJ, et al. Text clustering using frequent itemsets. Knowledge-Based Systems, 2010, 23(5): 379–388. [doi: 10.1016/j.knosys.2010.01.011]8Su ZT, Song W, Lin MS, et al. Web text clustering for personalized e-learning based on maximal frequent itemsets.Proceedings of 2008 International Conference on Computer Science and Software Engineering. Hubei, China. 2008.452–455.9栗伟, 许洪涛, 赵大哲, 等. 一种面向医学短文本的自适应聚类方法. 东北大学学报(自然科学版), 2015, 36(1): 19–23. [doi:10.3969/j.issn.1005-3026.2015.01.005]10彭敏, 黄佳佳, 朱佳晖, 等. 基于频繁项集的海量短文本聚类与主题抽取. 计算机研究与发展, 2015, 52(9): 1941–1953.11Singh G, Sundaram S. A subtractive clustering scheme for text-independent online writer identification. Proceedings of the 2015 13th International Conference on Document Analysis and Recognition. Tunis, Tunisia. 2015. 311–315.12张佩云, 陈传明, 黄波. 基于子树匹配的文本相似度算法.模式识别与人工智能, 2014, 27(3): 226–234.13Zheng CT, Liu C, Wong HS. Corpus-based topic diffusion for short text clustering. Neurocomputing, 2018, 275: 2444–2458. [doi: 10.1016/j.neucom.2017.11.019]14Hung PJ, Hsu PY, Cheng MS, et al. Web text clustering with dynamic themes. In: Gong ZG, Luo XF, Chen JJ, et al, eds.Web Information Systems and Mining. Berlin Heidelberg: Springer, 2011. 122–130.15张雪松, 贾彩燕. 一种基于频繁词集表示的新文本聚类方法. 计算机研究与发展, 2018, 55(1): 102–112.16彭泽映, 俞晓明, 许洪波, 等. 大规模短文本的不完全聚类.中文信息学报, 2011, 25(1): 54–59. [doi: 10.3969/j.issn.1003-0077.2011.01.009]17张群, 王红军, 王伦文. 一种结合上下文语义的短文本聚类算法. 计算机科学, 2016, 43(S2): 443–446, 450.18Abu-Salih B. Applying vector space model (VSM) techniques in information retrieval for Arabic language.arXiv: 1801.03627, 2018.19邢光林, 胡一然, 孙翀, 等. 改进的K中心点算法在茶叶拼配中的应用. 中南民族大学学报(自然科学版), 2017, 36(4): 126–130.20Linden G, Smith B, York J. recommendations: Item-to-item collaborative filtering. IEEE Internet Computing, 2003, 7(1): 76–80. [doi: 10.1109/MIC.2003.1167344]21计算机系统应用2019 年 第 28 卷 第 4 期。
大规模文本数据分析技术研究
大规模文本数据分析技术研究随着信息化时代的到来,人们对数据的需求越来越大。
而文本数据在这其中起着非常重要的作用。
文本数据分析技术既是对文本数据进行描述、统计、分析和预测的技术,也是指对文本数据进行处理、挖掘和实用化的技术。
目前,人们对大规模文本数据分析技术的需求日益增强,因此大规模文本数据分析技术研究已经成为了一门非常重要的课题。
一、大规模文本数据分析的背景由于日益增长的互联网和移动互联网,人们每天都将产生大量的文本数据,即每天产生的数字化数据量达到了几十亿条。
这些数据包括社交网络上的帖子评论、注册信息、电子邮件和短信等等,这些数据都包含了人们的情感、兴趣点、行为轨迹和看法等信息。
这些数据可能对商业、政治和社会等领域都有着巨大的潜在和实际价值。
比如,在商业领域,文本数据可以使企业了解顾客的需求和偏好,掌握市场趋势和消费者群体的更深入洞察;在政治领域,文本数据可以帮助政府和党派了解民意状况,及时反应公众对政策的反应,调整和改进政策;在社会领域,文本数据可以为公共安全提供支持,并帮助研究疾病等人类各方面的事务,提高社会大众的生活质量。
因此,为了抓住这些潜在的机会,更有效地分析和利用这些文本数据,文本数据分析技术得到了广泛的关注。
二、大规模文本数据分析技术大规模文本数据分析是机器学习和人工智能的一个分支,它旨在从大规模文本数据中发现模式、信息、规律和关系,并以此为基础进行数据挖掘和预测。
大规模文本数据分析技术主要包括以下三个方面:1. 文本预处理:文本预处理是将文本数据中的各种噪音和无用信息剔除,并将文本数据中的语义信息识别和提取出来的过程。
这个过程主要包括词汇分割、词性标注、命名实体识别、句法分析、语义分析等。
2. 文本分析:文本分析技术是将文本数据中的信息进行分析、挖掘和表示的过程,其主要包括文本分类、聚类分析、情感分析、话题分析等。
3. 文本挖掘:文本挖掘是从文本数据中发现模式、规律和关联的过程。
基于对比学习的文本分类与短文本聚类技术的研究
基于对比学习的文本分类与短文本聚类技术的研究基于对比学习的文本分类与短文本聚类技术的研究摘要:随着社交媒体和互联网的快速发展,海量的文本数据不断涌现,如何高效地对这些文本数据进行分类和聚类成为了一个热点研究领域。
本文旨在探讨基于对比学习的文本分类与短文本聚类技术的研究,并对其进行全面的分析和评估。
1. 引言在当今信息时代,文本数据的产生呈现爆炸式增长的趋势,如何从这些海量数据中提取有价值的信息成为了一项重要的研究任务。
文本分类和短文本聚类作为文本挖掘的重要技术应运而生。
针对这些技术中存在的问题,对比学习成为了解决方案之一。
2. 对比学习对比学习是一种以比较样本之间差异的方法,通过学习样本之间的相似性和差异性来提高分类和聚类的性能。
对比学习在文本分类和短文本聚类中具有广泛的应用。
其核心思想是基于相似度度量和差异度量来对文本数据进行分类和聚类。
3. 基于对比学习的文本分类技术基于对比学习的文本分类技术主要分为两个步骤:一是学习样本之间的相似度和差异度,二是基于得到的相似度和差异度进行分类。
相比传统的文本分类方法,基于对比学习的文本分类技术能够更好地处理高维度和稀疏性的文本数据,并提升分类的准确度。
4. 基于对比学习的短文本聚类技术短文本聚类是一种将相似的短文本聚合成一类的技术。
传统的短文本聚类方法由于数据维度低和文本长度短的特点,往往存在聚类效果差和冗余问题。
而基于对比学习的短文本聚类技术通过学习样本之间的相似度和差异度,能够有效地解决这些问题,并提高聚类的准确度。
5. 研究进展和应用目前,基于对比学习的文本分类与短文本聚类技术已经在多个领域得到了广泛的应用。
例如,在情感分析、恶意网站检测和舆情分析等领域,基于对比学习的技术能够快速准确地进行文本分类和短文本聚类,为用户提供更好的体验。
6. 挑战和展望尽管基于对比学习的文本分类与短文本聚类技术取得了一定的成果,但仍然存在一些挑战。
例如,对比学习在处理大规模文本数据时计算复杂度较高,且需要进行大量的训练样本。
文本聚类方法
文本聚类方法文本聚类是一种将大量文本数据划分为若干个类别或群组的技术方法。
它可以帮助我们发现文本数据中的模式和隐藏的结构,从而更好地理解数据并进行进一步的分析和应用。
本文将介绍一些常用的文本聚类方法,包括传统方法和基于深度学习的方法。
传统的文本聚类方法主要有以下几种:1.基于词袋模型的聚类方法:这是最常见的文本聚类方法之一。
它将文本数据转化为词向量的表示,然后使用聚类算法,如K-means算法或层次聚类算法,将文本数据划分为不同的类别。
这种方法简单有效,但对于文本中的语义信息和上下文信息无视较多。
2.基于主题模型的聚类方法:主题模型是一种用于发现文本数据中隐藏主题的统计模型。
其中最著名的一种是LDA(Latent Dirichlet Allocation)模型。
基于主题模型的聚类方法将文本数据转化为主题分布的表示,然后使用聚类算法将文本数据划分为类别。
主题模型考虑了文本中词的分布和上下文关联,因此在一定程度上能更好地捕捉文本数据的语义信息。
3.基于谱聚类的聚类方法:谱聚类是一种通过图论的方法来进行聚类的技术。
将文本数据中的词或短语作为节点,考虑它们之间的相似度构建图,然后利用谱聚类算法将文本数据划分为不同的类别。
谱聚类在处理高维数据和复杂结构数据时具有很好的效果。
基于深度学习的文本聚类方法在最近几年得到了广泛的关注和应用。
这些方法利用深度神经网络来抽取文本数据中的语义信息,从而实现更准确和高效的文本聚类。
1.基于Word2Vec的文本聚类方法:Word2Vec是一种通过神经网络学习词的分布式表示的技术。
基于Word2Vec的文本聚类方法将文本数据中的词转化为词向量后,使用聚类算法将文本数据划分为不同的类别。
相比传统的基于词袋模型的方法,基于Word2Vec的方法能更好地捕捉词之间的语义关系。
2.基于卷积神经网络的文本聚类方法:卷积神经网络在图像处理中取得了很好的效果,而在处理文本数据中的局部结构时同样具有优势。
海量中文短信文本最佳聚类数研究
海量中文短信文本最佳聚类数研究
刘金岭
【期刊名称】《计算机工程》
【年(卷),期】2010(036)008
【摘要】针对海量中文短信文本的聚类簇数的确定问题,提出一种基于聚类过程的短信文本最佳聚类数确定方法.通过扫描一遍数据即可获得多个统计信息,利用增量逐层划分得到最优划分所对应的簇类数,求出最优解.实验结果表明,与其他方法相比,该方法的分类效率较高.
【总页数】3页(P66-68)
【作者】刘金岭
【作者单位】淮阴工学院计算机系,淮安,223003
【正文语种】中文
【中图分类】TP311
【相关文献】
1.一种面向海量中文文本的典型类属关系识别方法 [J], 刘琦;肖仰华;汪卫
2.基于语义信息的中文短信文本相似度研究 [J], 刘金岭;宋连友;范玉虹
3.基于语义概念的海量短信文本聚类 [J], 刘金岭
4.基于主题的中文短信文本分类研究 [J], 刘金岭
5.海量中文短信文本密度聚类研究 [J], 周泓;刘金岭
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
The e pe i e a e u t s w ha h op e e h a l t r t ho tt xt fe tvey a fce ty x rm nt lr s ls ho t tt e pr os d m t od c n cus e he s r e se f c i l nd efii n l .
Ke r s:s r e ty wo d ho tt x s;c u t rn l s e ig; ic m plt l s e i g no e ec u t rn
Ab ta t s r c :Cl s e i g i n uns pe v s d ca sfc to te n ( s r a i s,da a ie s,orfat r e t s)i t u t rn s a u r ie ls iia in ofpa t r s ob e v ton t t m e u e v cor no
息 进 行 聚 类 分 析 时 往 往 显 得 异 常 无 力 。 该 文 通 过 对 实 际 应 用 中 的 短 文 本 信 息 进 行 实 验 分 析 , 现 了 这 类 数 据 类 别 发
所 具 有 的“ 长尾 现 象 ” 并 由此 提 出 了不 完全 聚 类 思 想 , 以有 效地 提 高这 类 短 文本 信 息 的 聚类 性 能 。 , 可 关 键 词 :短 文 本 ; 类 分 析 ; 完全 聚 类 聚 不
第 2 5卷 第 l期
2l O 1年 1月
中 文 信 息 学 报
J) (URNAI OF CH I NES N F E I ORM AT1 0N PROCE S NG S I
V 01 25,N o 1 . .
J n ,2 l a. 0 1
文 章 编 号 :1 0 — 0 7 2 1 ) 卜0 5 6 0 30 7 ( 0 0 0 40 1
中 图 分 类 号 :TP3 1 9 文 献 标 识 码 :A
I c m p e e Cl s e i g f r La g c l h r x s n o l t u t r n o r e S a e S o tTe t
PENG yn ,Y U a m ig Ze i g Xio n ,XU n b ,II Chu y n Ho g o U n ag ( .I siueo mp tn l c n lg ,Chn s a e f ce c ,B in 0 1 0,Chn ; 1 n t t f t Co u ig ' h oo y e ie eAcd myo in e ej g 1 0 9 S i ia
2 .Nain lC mp trNewo k Emeg n yRe p n eTeh ia Te m/ o dn t n(e tro ia,B in 0 0 9 t a o u e t r o r e c s o s c nc l a Co r iai ;n e fChn o ej g 1 0 2 ,Chn ) i ia
gr ps ( l t r ) So f r ou cus e s . a ,m a l s e i l ort s h vebe n pr po e ny c u t rng a g ihm a e o s d. W ih t a d d veo t he r pi e lpm e n e ne , ntofi t r t s or t t u h a h t ex s s c sque y l s a d Tw it rm e s ge a o ea o ei p t ntr e i rdal ie M o te r og n te s a sply a m r nd m r m ora ol n ou iy lf . s x— itng c u t rn e h s a eha d t pple n d a i t hi nd ofi o m a in duet hehu c l fda a s i l s e i g m t od r r O bea id i e lng wih t ski nf r to o t ges ae o t .
大 规 模 短 文 本 的 不 完 全 聚 类
彭泽 映 俞 晓 明 许 洪 波 刘 春 阳。 , , ,
( .中 国科 学 院 计 算 技 术 研 究 所 , 京 l 0 0;2 1 北 0l 9 .同家 计 算 机 网 络 应 急 技 术 处 理 协 调 中 心 , 京 1 0 2 ) 北 0 0 9
摘
要 :聚 类 分析 是 数 据 挖 掘 的一 个 重要 手 段 , 们 可 以通 过 聚 类发 现 信 息 中 潜在 的 热 点或 规 律 。至 今 , 经有 大 人 已
量 聚类 算 法 被 研 究 和 提 出 。随 着 互联 网 的 日益 普及 , 询 日志 、 wi e 等 短 文 本 信 息 逐 渐 在 人 们 生 活 中起 着 越 来 查 T t r t 越 重要 的作 用 。这 类 短 文 本 信 息 数 量 巨大 , 常 可达 到 千 万 乃 至亿 级 , 有 的 聚 类 算 法在 对 这 类 大 规 模 短 文 本 信 通 现