从数理统计到数据挖掘(课件)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在确定了函数 (x) 的类型后,就可以设
(x) (x; a1, a2 ,, ak )
其中 a1, a2 ,, ak为未知参数。于是,上述问题就归结为:
如何根据试验数据合理地选择参数的估计值 aˆ1, aˆ2 ,, aˆk
使方程
yˆ (x; aˆ1, aˆ2 ,, aˆk )
在一定的意义下“最佳地”表现Y X与 之间的相关关系。
第2章 从数理统计数据挖掘
回归分析
设进行次独立的试验,测得试验数据如下表
X
x1 x2 …
xn
Y
y1
y2 …
yn
其中 xi及 yi (i 1,2,, n)分别是变量X与随机变量Y在第i次试验中的观测值。
取X=x时随机变量Y的数学期望时 E(Y ) X x的估计值,即
yˆ Yˆ X x E(Y ) X x
n
lxx

yˆ a bx
大致地描述变量 Y 与 X 之间的关系。设随机变量
Y ~ N (a bx, 2 )
按最小二乘法确定未知参数a 及 b 时,有偏差平方和
n
S yi a bx2
为了使S取得最小值,分别i求1 S 对a 及b 的偏导数,并令它们等于零,
得方程组
n
i 1 n
( yi
a
bxi )
0
i1
( yi
a bxi )xi
0
第2章 从数理统计数据挖掘
线性回归方程
整理得 解方程组得
na
n
xi b
n
yi
i1
i 1
n i 1
xi a
n ቤተ መጻሕፍቲ ባይዱ 1
xi2 b
n i 1
xi yi
aˆ y bˆx

lxy lxx
上式中
x
1 n
n i 1
xi
1 n
y n i1 yi
第2章 从数理统计数据挖掘
2.3回归分析的基本概念
变量之间的关系可分为两类:一类是确定性的关系,也 就是通常所说的函数关系;另一类是非确定性的关系,变 量之间的这种非确定性关系称为相关关系。
设有两个变量X和Y,其中X是可以精确测量或控制的 非随机变量,而Y是随机变量,X的变化将使Y发生相应的 变化,但它们之间的变化关系是不确定的,若当X取得任 一可能值x时,Y相应地服从一定的概率分布,则称随机变 量X与变量Y之间存在相关关系。
(2-1)
x x 显然, 当变化时,E(Y ) X x 是 的函数,记作
(x) E(Y ) X x
(2-2)
于是,可以用一个确定的函数关系式
yˆ (x)
(2-3)
第2章 从数理统计数据挖掘
回归分析
大致地描述Y与 X之间的相关关系,函数 (x)称为Y 关于 X的
回归函数,方程(2-3)称为 Y 关于X 的回归方程。回归方程反 映了Y 的数学期望E(Y)随X 的变化而变化的规律性。
第2章 从数理统计到数据挖掘
•2.1数理统计与数据挖掘的关系 •2.6非线性回归分析
•2.2数理统计与数据库技术的结合 •2.7多元线性回归分析
•2.3回归分析的基本概念
•2.8一般情况下的回归分析
•2.4线性回归方程
•2.9逐步回归分析的软件设计
•2.5线性相关的显著性检验
•2.10锻模设计准则的制定
第2章 从数理统计数据挖掘
2.2数理统计与数据库技术的结合
数据挖掘技术从一开始就是面向应用的,它不仅是面向特定 数据库的简单检索查询调用,而且要对这些数据进行微观及宏观 的统计、分析、综合和推理,用以指导实际问题的求解,力图发 现事物间的相互联系,甚至可利用已有的数据对未来的活动进行 预测。
数理统计是数学中最重要、最活跃的学科之一,然而它和数据 库技术结合得并不算快,但一旦有了从数据查询到知识发现、从 数据演绎到数据挖掘的要求,则数理统计就会获得新的生命力。 数理统计作为数据挖掘的3个主要支柱之一,有许多寻找变量之 间规律性的方法,而回归分析方法是其中最有效的方法之一。
2.1.2数据挖掘的性质
计算机使得传统统计模型的视野大大地扩展 了,还促进了新工具的飞速发展 。数理统计很少 会关注实时分析,然而数据挖掘问题常常需要这 些 ,数据挖掘者也不可持完全非统计的观点,尽 管数理统计主要关注的是分析定量数据,数据挖 掘的多来源意味着还需要处理其它形式的数据。 特别地,逻辑数据越来越多。
第2章 从数理统计数据挖掘
2.1.1数理统计的性质
试图为数理统计下一个太宽泛的定义是没有意义的, 数理统计是一门比较保守的学科,目前有一种趋势是越来 越精确 。数学背景和追求精确加强了这样一个趋势,即在 采用一个方法之前先要证明,而不是象计算机科学和机器 学习那样注重经验 。
第2章 从数理统计数据挖掘
第2章 从数理统计数据挖掘
2.1.3 从数理统计到数据挖掘
数据挖掘有时候不是一次性的实验,尽管数据集是确 定的,它更应该被看作是一个不断迭代的过程。从一个角 度检查数据可以解释结果,以相关的观点检查可能会更接 近规律。关键是,极少情形会知道哪一类模式是有意义的。 数据挖掘的本质是发现非预期的模式-同样非预期的模式 要以非预期的方法来发现。
第2章 从数理统计数据挖掘
2.1数理统计与数据挖掘的关系
数理统计和数据挖掘有着共同的目标,即发现数据中 的结构 。但数据挖掘不是数统计的分支 ,因为数据挖掘 还应用了其它领域的思想、工具和方法,尤其是计算机学 科,例如数据库技术和机器学习,而且它所关注的某些领 域和统计学家所关注的有很大不同。因而需要逐个考察这 两门学科的性质,区分它们的异同,并关注与数据挖掘相 关联的一些难题。
第2章 从数理统计数据挖掘
从数理统计到数据挖掘
数据挖掘不能替代传统的统计分析技术,相反,它是统计分 析方法学的延伸和扩展。数据挖掘算法有些本来就是统计的方法 ,数据挖掘仍然是计算机行业的一个方向,而不是广义统计的一 部分。同时,对于数据挖掘算法中来自机器学习和人工智能的一 部分,其核心是规则,而规则内部的获得机制虽然是基于数理统 计的,但是这种技术本身已经不属于统计了。
解决上述问题的方法,可以利用最小二乘法。
第2章 从数理统计数据挖掘
2.4线性回归方程
为了便于确定回归函数(x) 中未知参数的值,首先讨论变量X与Y
之间存在线性相关关系的情形。
设变量Y与 X之间存在线性相关关系,则由试验数据得到的点
(xi , yi )(i 1,2,, n) 将散布在某一直线周围。于是,可以用线性方
相关文档
最新文档