提取热点问题的新方法(基本)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

提取热点问题的新方法

一、基本思路和观点

基本观点1:文档标题中包含了部分、甚至大部分的语义特征词(组)。从标题中提取特征词比基于词频在文本内容中纯统计方法提取特征词具有更好的质量。

基本观点2:标题中不可能包含文档语义的全部特征词。因此,在一定条件下,仍然需要在文本内容中用统计方法提取更为全面的特征词。具体而言,在基于标题特征词的聚类完成后,使用各聚类中质量较高的少数文档,在有分类的情况下,可以更好地提取内容中的特征词。基本观点3:基于向量欧几里得距离的向量比较并不适合于文本相似性比较。文本相似性更依赖于共有的特征词的多少,而不在于特征词在词频上相近。

基本观点4:在文本相似性比较中,特征词之间的关联性也很重要。所谓关联性,表示特征词是否经常同时出现。如果两篇文档的共有特征词的关联性强,就更相似。

基本观点5:K-MEANS聚类不适合于热点发现。在热点发现中,有大量文档不属于特定的分类(热点问题)。由于K-MEANS需要将所有文档分配到某个类别中,这些文档对聚类中心的影响非常大。

二、主要步骤

1.提取有效标题

目标:在有栏目路径的标题中,提取有效标题。

基本方法:采用标题横向字符串比较来发现栏目路径,从而提取有效标题。

问题1:有的网页直接采用栏目名称作为标题。需要区分文档性网页和栏目性网页;

问题2:栏目路径的表示方法各不相同。有从左到右,也有相反的;分隔符也有多种。

2.提取标题中的特征词

目标:发现标题中能够表达文本语义的特征词。一个特征词常常不是一个词汇,而可能是一个词组。

基本方法:在内容中对标题词汇的各种组合进行查询,提取在文本中独立出现过的词汇(组合)作为特征词。

讨论:上述方法仅仅是在内容中查找是否存在标题词的某种组合,但并没有判断该组合对文章语义的重要性。但经过词性过滤后,大部分词汇还是能够反映文章语义的词汇组合。然而这些词对文章语义的重要性是不同的。在一篇文章中高频出现的词汇,其重要性不言而喻。为了后期聚类时进行改进,我们应该保留一个词组在文章中的关键词频。

但另一个问题是,如果一个词组在多篇文章中均有出现,如果保存其词频?

关键词对某篇文章的重要性是在向量化是体现的。因此这里并不需要保存其词频!

改进:

1.考虑标题中的分隔符(逗号,冒号和空格)对词组的影响;

2.考虑《》和“”中词组的完整性。

a)这些标点应该纳入完整词组中。但其中的纯粹词组也是有效的!

3.形成词组时,单独的标点不能出现在词组的两端,除非是上述配对的标点。

问题:

1.关键词数量太多!对聚类的效率影响很大。

2.标题关键词重叠很少,COS相似度很低。DBSCAN选择EPS需要某种方法。

3.最大词匹配分词算法对标题进行处理后,仅输出最长关键词(往往是标题本身

提供的关键词)。这不利于与其它文章(标题)之间的比较。统计标题关键词

时,应该在词汇边界的约束下,尽可能多地找到其中可以匹配的所有关键词。

相互嵌套的关键词独立计数?如“在北京大学”,“北京大学”,“大学”。

4.从内容识别标题关键词时,遗漏了很多关键词。如“在北京大学”在文章内容

中出现一次,由于“北京大学”没有独立出现过,因此被遗漏。这个问题可能

不是很严重:其它文章可以补足关键词。

5.有一些不合理的关键词组。如“经历统统造假”。但这些关键词组可能不会对

聚类造成不利影响。

6.增加标题关键词的权重(次数)的方法并没有使具有相同关键词的文章间的相

似度变得更大。eps仍然需要微调才能勉强是应该是同类的文章聚类在一起,

且还包含很多无关文章。从分析的角度看,需要输出任意两个文档所共同拥有

的关键词。

思考:

(1)对标题采用完全句法分析是可行的:标题较短,对速度影响不大。而得到的短语比上述组合词组更为合理。

(2)应保留文章关键词的共现关系。一个关键词集中的部分关键词是相互联系(出现在同一篇文章中的),可能形成一个关系网络。对向量而言,最好的向量是各维正交的。然而相互关联(相互印证)的一组关键词在另一篇文章中共现,可以很好地说明两种的相似性。即应该修改以前各维无关的相似度计算,改为考虑关键词间相互影响关系的算法。以前考虑过“关联矩阵”的方法,即根据语料中关键词之间的关联程度,形成一个关联矩阵。一个关键词的出现,蕴含着于此关联的其它关键词的出现。这是一个值得继续研究的方案!

但原方法的关联矩阵是将一个词的出现频率部分传递给与它有关联的其它词汇,出现多个词汇时,它们对共有关联词的频率传递是线性叠加的。然而一篇文章中同时出现多个关联词汇时,对其它关联词汇的频率传递是否应该考虑非线性传递呢?来源与不同文章的不同关联关系,对共同关联词的频率传递又该如何考虑呢?

(3)标题特征词之间的包含关系蕴含着权重。A 包括B ,则A 的语义根据准确,同样包含A 的文章,相似度应该更大。词汇之间的包含关系可以通过特征词集后期比较发现。前期关键词在单篇文章中的包含关系并不能完全反映所有情况。

根据标题,从文本中提取特征词的方法:

或者采用最长匹配的方法。需要一个算法。

(1) 对标题进行分词处理;

(2) 发现特征词并统计其出现的绝对次数。在正文中查找由任意数量的连续标题词汇组

成的字符串。如果找到则作为特征词,记录其次数。注意,查找单个词的字符串前,首先判断它是否为停用词。如果是,不查找。

(3) 提取独立出现过的特征词。对所有特征词,按长度降序排序后,依次检查一个特征

词是否包含后面(更短)的特征词。若被包含的特征词的次数=当前特征词次数,则标注为无效特征词。完成后,在特征词集中删除无效特征词,得到如下的文档特征集:

{}12,,|1~i i

i F w w i m <>= 其中,Fi 表示第i 个特征词的字符串,<>中为该特征词的具体词汇组成,其中不包括停用词。

(4)

仅根据内容是否出现标题中的词组来判断关键词,使标题中很多明显的特征词被忽视。如“回响中国”没有出现在内容中,使其系列文章没有产生聚类。还有“90后”等。需要增加一些标准来提取其中的关键词;

(1) 完全句法分析,提取名词短语和动词短语?或还有其它类型的短语?

(2) 引语内外均作为关键词;

(3)

3. 文档向量化处理

与以前相同。

需要修改:

标题包含相同关键词,则文章相似度比仅在内容中包含关键词的高。即向量化处理时,

相关文档
最新文档