数据挖掘课程论文

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中南林业科技大学

课程论文

院系理学院

专业信息与计算科学

课程名称数据挖掘

论文题目面向社会网络分析的数据挖掘方法

姓名王磊

学号********

指导教师孙玉荣

2013年10月

面向社会网络分析的数据挖掘方法

摘要

随着信息技术的发展，越来越多的社会关系数据被收集。如果能够有效地对它们进行分析，必将加深人们对社会学的理解，促进社会学的发展。但是数据量的增大同时对分析技术提出了巨大的挑战。如今社会网络的规模早已超出了原有分析手段的处理能力，必须借助更为有效的工具才能完成分析任务。数据挖掘作为一种帮助人们从海量数据中发现潜在有用的知识的工具，在很多领域发挥了重要的作用。社会网络分析又称为链接挖掘，是指用数据挖掘的方法处理社会网络中的关系数据。本文对数据挖掘和社会网络分析中的一些方法进行了介绍并对数据挖掘算法在社会网络分析的应用进行了概括。

关键词：设会网络分析；数据挖掘；链接挖掘

1.引言

传统的机器学习处理的社会学中的对象是单独的数据实例，这些数据实例往往可以用一个包含多个属性值的向量来表示，同时这些数据实例之间假设是统计上独立的。例如要训练一个疾病诊断系统，它的任务是诊断一个被试者是否患有某种传染病。传统的学习算法用一个向量来表示一个被试者，同时假设两个被试者之间的患病情况是相互独立的，即知道一个确诊病人对于诊断其他被试者是否患病不能提供任何帮助。直观经验告诉我们这种假设是不合理的。直到二十世纪30 年代，Jacob Moreno 和哈佛大学的一组研究人员分别提出了社会网络模型来分析社会学中的现象和问题。现代社会学主要研究现代社会的发展和社会中的组织性或者团体性行为。社会学家发现社会实体之间存在着相互的依赖和联系，并且这种联系对于每个社会实体有着重要的影响。基于这样的观察，他们通过网络模型来刻画社会实体之间的关系，并进一步用来分析社会关系之间的模式和隐含规律。为了更好的研究这个问题，他们试图用图结构来刻画这种社会网络结构。一个社会网络由很多节点（node）和连接这些节点的一种或多种特定的链接（link）所组成。节点往往表示了个人或团体，也即传统数据挖掘中的数据实例，链接则表示了他们之间存在的各种关系（relation），如朋友关系、亲属关系、贸易关系、性关系等。

由于数据收集方式的限制，早期的社会网络局限于一个小的团体之内，往往仅包含几十个结点。借助于图论和概率统计的知识，人工处理可以从中分析出一些简单的性质和模式。但是，随着现代的通信技术的发展，越来越多的数据被收集和整合在一起，建立一个大的社会网络成为可能。例如，可以通过电子邮件的日志来建立使用者之间的联系网络，或者通过网络日志及网络通讯录等方式将用户提交的联系人信息建立社会网络。所以，现在的社会网络规模比早期网络庞大，通常包含几千或者几万的结点，甚至有多达百万个结点的网络。面对这样庞大复杂的网络，简单的数学知识和原始的人工处理已经不可能进行有效的分析。数据挖掘是从巨量数据中发现有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。数据挖掘就是为了解决当今拥有大量数据，但缺乏有效分析手段的

困境而出现的研究领域。目前，已经在包括生物信息学，自然语言处理等许多方面发挥了巨大的作用。

与传统的数据挖掘只关注数据实例不同，社会网络分析对链接同样关注。从数据挖掘角度，社会网络分析又称为链接挖掘（link mining）。通过对链接的挖掘我们可以获得关于实例更丰富（如某个实例在整个网络中的重要性）、更准确（如预测某个实例所属的类别）的关系数据（relational data）。

社会网络分析是关系数据挖掘的主要应用。关系数据挖掘的发展为社会网络分析提供了更有力的工具，促进了社会网络分析的发展。本文分析了社会网络分析数据的方法以及任务和需求，介绍了几类适于社会网络分析的数据挖掘算法。

2.社会网络和数据挖掘方法介绍

2.1社会网络分析方法

社会网络分析是一套用来分析多个个体通过相互联系构成的网络的结构，性质以及其他用于描述这个网络的属性的分析方法的集合。如社会网络分析方法提供了根据网络中节点的联系紧密情况将网络分层的方法，网络中节点相互作用模式识别，将网络分块，给用户评级，信息扩散，对社会网络提供图形描述，中心度的分布等。下面我们介绍社会网络分析最重要的两个模型，用户——用户网络模型和用户——事件网络模型

2.2数据挖掘方法

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据库中的知识发现(KDD Knowledge Discovery in Database)、数据分析、数据融合以及决策支持等。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。即所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。数据挖掘的任务是从数据中发现模式。模式有很多

种，按功能可分为两大类：预测型模式和描述型模式。第一种是预测型模式，即可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。第二种是描述型模式，即对数据中存在的规则做一种描述，或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。数据挖掘涉及多学科技术的集成，包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像于信息处理和空间数据分析

[1]。这里主要介绍关联规则分析和聚类分析。

2.2.1关联规则分析

在Jiawei Han的《数据挖掘概念与技术》中将关联规则的定义如下：设I={I1,I2,…,I m}是项的集合。设任务相关的数据D是数据库事务的集合，其中每个事物T是项的集合，使得T⊆I。每一个事务有一个标识符，称作TID。设A是一个项集，事务T包含A当且仅当A⊆T。关联规则是形如A⇒B的蕴涵式，其中A⊂I，B⊂I，并且A B=Ø。规则A⇒B在事务D中成立，具有支持度s，其中s 是D中事务包含A B（即集合A与B的并或A和B二者）的百分比。它是概率P(A B)。规则A⇒B在事务D中具有置信度c，其中c是D中包含A的事务同时包含B的百分比这是条件概率P(B A)[5]。即

Support(A⇒B)=P(A B)

Confidence(A⇒B)= P(B A)

同时满足最小支持度阈值和最小置信度阈值的规则称为强关联规则。也说这样的关联规则是有趣的。

一般来说关联规则的挖掘可以看成两步的过程：

找出所有的频繁项集：根据定义，这些项集的每一个出现的频繁性至少与预定义的最小支持计数一样。

由频繁项集产生的强关联规则：根据定义，这些规则必须满足最小支持度和最小置信度。