数据挖掘概念与技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘概念与技术

一、数据挖掘及知识的定义

1、数据挖掘定义:从大量数据中提取或“挖掘”知识;

2、数据挖掘技术:分类、预测、关联和聚类等;

3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示;

4、知识定义:知识就是“压缩”一浓缩就是精华!

1) Occam Razor:因不宜超出果之需!

第一课分类

2) 3)信息论:嫡H(X) =-工p(x)log p(x)

MDL准则:minimum description length

路径分析

结构方程模型分析 终咗L 第—课分类

三、SPSS 软件及Logistic 回归知识预备

1、回归方法分类

r 连续型因变量(y)…线性回归分析 时间序列因变量(t)…时间序列分析

一个

因变

量丿

分类型因变量(y) —Logistic 回归分析 生存时间因变量(t)…生存风险回归分析

多个因变量

分类

三、SPSS软件及Logistic回归知识预备

2、回归方法适用前提

1)大样本,样本量为自变量个数的20倍左右;

2)因变量或其数学变换与自变量有线性关系;

3)扰动项(误差项)符合正态分布;

4)自变量间不存在诸如多重共线性等关系;

5)误差项方差不变;

等等。

第一课分类

三、SPSS软件及Logistic回归知识预备

3、Logistic回归方法介绍

1)Logit变换

Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P = 0或P=1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998T ,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的笫三位或第四位之后,于是自然希望寻找一个P的函数形式什(P),使它在P = 0或P=1 附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用气件反映讯p)是在P附近的变化是很适合的,同时希望P = ()或P=1时,驾弹大的值,因此取晋2 “(1 [肿卩:

&(。)= In P

1- P

第一课分类

三、SPSS软件及Logistic回归知识预备

3、Logistic回归方法介绍

2)Logistic回归

设因变量是一个二分类变量,其取值为=1和=0。影响取值的个自变量分别为…则Logistic变换如

下式表示:P

皿口)一炕+0N +02/ + …

第一课分类

神经网络与Logistic回归优缺点对比

1、神经网络优缺点

1)优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非线性拟合,能容忍缺失值,异常值的出现等;

2)缺点:“黑箱”过程导致知识结果难于解释。

2、Logistic回归方法优缺点

1)优点:线性回归方程的知识结果使得所获知识易于解释;

2)缺点:数据类型要求高,回归方法成立前提多,只适用于线性拟合,缺失值,

异常值会导致结果精确度大为下降。

3、二者区别:硬计算与软计算,知识表达三迂霁

一、相关概念

1、 神经网络的“过拟合”现象

1) “过拟合”指的是神经网络对训练集进行训练的过程中,无法识别数据中的

“噪音”,并且把“噪音”的影响毫无保留的存贮于网络参数(权重、偏置)中。“过拟 合”会导致神经网络对测试集进行分类、预测时,产生不必要的偏差。

2) 解决“过似合”现象办法之一为N-fold 交差验证。 2、 M SE 、NMSE 等概念的定义

1) MSE:均方误差(注:与均方差的区别),其定义为误差平方和除以它的自由

CHONGQING UNIVERSITY

第二课 预测

MSE =

n

i=\

第二课预测

一、相关概念

2) NMSE定义:NMSE 二MSE

=云

注:此处的方差號为样本总体方差。NMSE的物理意义为标准化的MSE O

二、预测实验

1、实验目的:

1)理解分类与预测区别

2)熟练使用神经网络软件NeuroSolutions解决预测问题。

3)学会运用灵敏度分析,对属性进行灵敏度测量。

4)学会通过多次训练模型,避免模型停止在局部最优。

2、实验原理

1)神经网络方法原理

X —> | | —> Y

2)多元线性统计方法原理(注意什么是线性,其内涵是什么?)

丫 = 0。+0內+…・,+0丸〃

第二课预测

一、聚类分析定义、特征、应用及评估

1、定义:将物理或抽象的集合分组成为曲类似的对象组成的多个类的过程

被称为聚类。

1)聚类的方法类型

(1)划分方法:I<—平均和I<—中心算法;

(2)层次方法:系统聚类;

(3)基于密度方法:种类较多,对发现数据“噪音”有优势;

(4)基于网格方法:小波聚类为典型,效率高,复杂度低;

(5)基于模型方法:统计学中的分类树方法一利用信息爛、贝叶斯冤计原理为分类原则、竞争学习与自组织特征图。

CHONGQING UNIVERSITY

一、聚类分析定义、特征、应用及评估

2、聚类与分类的区别

1)聚类所要划分的类未知,而分类要划分的类已知;

2)聚类不依赖预先定义的类和带类标号的训练实例,因此它是观察式的学习,而不是示例学习;

3)聚类的有监督与分类的无监督的区别。

3、聚类分析的应用:是一种重要的数据挖掘方法,广泛应用于信用卡欺诈、定制市场(移动客户划分及定价等)、医疗分析。特别是孤立点的挖掘与分析,有着重要的实际应用。

4、聚类质量的评估:相异度

相关文档
最新文档