论文开题:网络热点话题的获取与分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
论文开题:网络热点话题的获取与分析
毕业论文开题报告
专业:计算机科学与技术
班级:08计算机2班
一、题目的来源、目标和意义
根据中国互联网络信息中心2010年1月发布的《中国互联网发展状况统计报告》数据显示,自2003年开始,中国的网页规模保持成倍地增长,2009年网页数量年增长率超过100%达到336亿个。网络新闻使用率为80.1%,覆盖八成以上的网民群体,较2008年提高了1.6%;用户规模达3.1亿人,年增长7369万人,年增幅31.5%。如何对互联网信息进行监管,已成为亟待解决的问题。但是互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对网络热点话题进行分析、整理,才能建立起全面、有效、快速的热点话题监测预警机制,使互联网得以健康、快速的发展。因此,对网络热点话题的获取与分析技术的研究已成为一项紧迫而又重要的课题。
网络热点话题的获取与分析离不开文本挖掘技术。文本挖掘是以半结构化( 如web 网页) 或者无结构( 如纯文本) 的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程。在互联网时代大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。由此,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速高质量的文本序列模式挖掘技术可以将大量文本信息组成少数有意义的簇,这种技术能够提供导航/浏览机制,通过序列驱动的降维或权值调整来改善检索性能,因此,序列模式挖掘技术已成为文本信息挖掘技术中的核心技术。
序列模式是把数据之间的关联陛与发生次序联系起来。为了挖掘序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的先后次序。我们一般分如下五个步骤来找出所有的序列模式:排序、频繁项集搜索、转换、序列和选最大序列。其中频繁项集搜索是其中关键的一步。随着数据挖掘技术的发展
。
索引的。garofalakis等人通过利用正则表达式约束方法提出了spirit算法。
单维挖掘序列模式只关心一个带有时间戳的属性,多维序列模式的挖掘目的则是寻找不同维度属性具有更多信息的有用模式。三种挖掘多维序列模式的常见方法,分别是seq2dim、dim2seq以及uniseq算法。uniseq算法将多维信息融入到序列中形成新的序列数据库,然后按照prefixspan方法对新的序列数据库进行挖掘。seq2dim算法首先挖掘原始序列的序列模式,然后对序列投影下的数据库多维信息的模式进行挖掘。dim2seq则是首先挖掘多维信息的模式,然后再挖掘多维信息投影下的数据库序列模式。由于通常多维序列模式的长度较短,投影数据库仅包含那些带频繁序列模式的元组,多维序列模式挖掘更加高效多产。实验结果表明,多数情况seq2dim有着良好的性能;当维数较低时多维模式也较短,uniseq较其他两种方法高效; dim2seq在挖掘过程中许多模式并未形成多维序列模式,因此效率较低。
现实世界中序列数据集往往是实时更新的。相应地,有趣模式在多次挖掘时也会随时间呈现出某种变化,已有的规则可能不再有效,而新的有趣模式还有待进一步发现。通常有两种维护规则的方式:第一种方法是强更新,重新进行挖掘,用新的规则来替换所有旧的规则;第二种是弱更新,仅重新计算与增量有关的数据,替换不适用的旧规则。考虑到序列模式挖掘的复杂性,更加倾向于采用弱更新的方式。增量式序列模式挖掘关注于当数据持续增加或减
少时来维护序列模式。增量式序列模式挖掘常被定义为:给定序列数据库,通过插入或删除序列形成新的序列数据库,在新的序列数据库中寻找所有的最大频繁序列模式。
二、存在的问题
在过去的10年里,提出了许多算法来解决频繁项集挖掘的效率问题。只有很少的研究者提供他们算法的源代码,这使得比较这些算法变得很困难。不仅如此,即便是同一个算法的不同实现,在性能上也有相当大的差异。此外,不同的实验数据库,不同的最小支持度闽值,不同的数据结构,不同的数据库表示表示方式,不同的实验平台,都会造成算法性能和评价上的差异。在真实数据集和合成数据集上这些算法表现出非常不同的性能,在真实数据集上,最小支持度的阈值是影响算法性能的关键。然而,支持度的最小阈值并没有一个普遍适用的指导性的确定方法。
三、研究方法和算法设计
挖掘最大频繁项集是关联规则挖掘中一个重要的研究内容,但这方面的研究工作尚不够充分。有代表性的相关工作有roberto j.提出maxminer算法,doug burdick等人提出的mafia,dimitrios gunopulos等人提出的随机算法,dao-i lin等人提出的pincer-search算法。此次,本文设计的算法是基于rakesh agrawal和ramakrishnan srikant两位博士在1994年提出的关联规则挖掘算法:apriori algorithm。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (market basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。
一些概念和定义
1. 资料库(transaction database):存储着二维结构的记录集。定义为:d
2. 所有项集(items):所有项目的集合。定义为:i。
3. 记录(transaction ):在资料库里的一笔记录。定义为:t,t ∈ d
4. 项集(itemset):同时出现的项的集合。定义为:k-itemset(k项集),除非特别说明,否则下文出现的k均表示项数。
5. 支持度(support):定义为 supp(x) = occur(x) / count(d) = p(x)。
6. 置信度(confidence/strength):定义为 conf(x->y) = supp(x ∪ y) / supp(x) = p(y|x)。
7. 候选集(candidate itemset):通过向下合并得出的项集。定义为c[k]。
8. 频繁集(frequent itemset):支持度大于等于特定的最小支持度(minimum support/minsup)的项集。表示为l[k]。注意,频繁集的子集一定是频繁集。
9. 提升比率(提升度lift):lift(x -> y) = lift(y -> x) = conf(x -> y)/supp(y) = conf(y -> x)/supp(x) = p(x and y)/(p(x)p(y))。
apriori核心算法过程如下:
1. 过单趟扫描数据库d计算出各个1项集的支持度,得到频繁1项集的集合。
2. 连接步:为了生成k项集,预先生成k项候选集,由2个只有一个项不同的属于的频集做一个(k-2)join运算得到的。
注:本算法中jion运算的项必须是相邻的。
3. 剪枝步:由于k项候选集是超集,所以可能有些元素不是频繁的。在潜在k项集的某个子集不是中的成员是,则该潜在频繁项集不可能是频繁的可以从中移去。
4. 通过单趟扫描数据库d,计算中各个项集的支持度,将中不满足支持度的项集去掉形成。通过迭代循环,重复步骤2~4,直到有某个r值使得为空,这时算法停止。
挖掘频繁项集的算法描述如下
(1) l1 = find_frequent_1-itemsets(d); // 挖掘频繁1-项集,比较容易
(2) for (k=2;lk-1 ≠φ ;k++) {