数据分析方法简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简单线性回归分析
即:一元线性回归分析或直线回归分析
是回归分析中最简单最基本的一种。 自变量只有一个,所拟合的回归方程实际上就是直 线方程。 在现象互为根据的情况下,可以有两个回归方程- -y倚x的方程和x倚y的方程。 根本任务是设法在分散的具有线性关系的相关点之 间配合一条最优的直线,以表明两变量之间具体的 变动关系,并可以据以进行预测等。 表现形式: y = a+bx
步骤
2. 3. 4. 5.
显著性水平与拒绝域
未知总体方差—双尾T检验
用EXCEL进行假设检验
工具—数据分析-t检验-双样本等方差假设
• P值小于0.05,有显著差异
方差分析
目的:检验多个总体均值是否相等 通过分析数据的误差判断各总体均值是否相等 1. 一般提法 H0 : m1 = m2 =…= mk 假设: ◦ 自变量对因变量没有显著影响 H1 : m1 ,m2 ,… ,mk不全相等 ◦ 自变量对因变量有显著影响 2. 注意:拒绝原假设,只表明至少有两个总体的 均值不相等,并不意味着所有的均值都不相等
列1 列2
64
10
数据集 5
50
70 60 50 40 30 20 10 0 1 5 3 6 6 A类 3 7 5 10 10 B类 4 9 7 10 10 C类 15 D类 6 10 8 15
14 12
数据集 4
数据集 3
24
数据集 2
24
数据集 1
E类
E类
旋风状图(水平堆叠图)
类别 A 类别 B 类别 C 类别 D 类别 E 类别 F 类别 G 类别 H
离散趋势
极差 四分位差
分布形态
偏态 峰度
方差
标准差
平均数
平均数是将总体中所有个体的数量标志差异抽象化, 用以反映现象在一定时间、地点条件下的一般水平 或代表性水平.
对象:个体单位的数量差异; 手段:将数量差异抽象化,即去差异; 目的:反映各个个体现象数值的一般水平,代表性 水平 仅适用于定距变量。(单位数必须一样)
E类 0 5 10
15
15
20
25
30
条形图,两个数据系列
A类 6 6 10 10 7 7 24 24 15 15 0 5 10 15 20 25 30
数据集1 数据集 2
B类
C类
D类
E类
叠加条形图表
A类
6
6
3
5 1
21
数据集 1 数据集2 数据集 3
35
B类
10
10
5
7
3
数据集4 数据集 5
40
-15%
-10%
-5%
0%
5%
10%
15%
20%
25%
频数直方图
30 25 20 15 10 5 0
11.405 11.505 11.605 11.705 11.805 11.905 12.005 12.105 12.205 12.305 12.405 频数
统计分析:基础概率学
P( A B) P( A) P( B) P( AB)
用EXCEL进行单因素方差分析
工具——数据分析——方差分析-单因素方差分析
回归分析:一元回归
回归和相关都是研究两个变量相互关系的分析方法。
但相关分析是研究两个变量之间相关的方向和相关的密切程度, 它不能指出两变量相互关系的具体形式,也无法从一个变量的 变化来推测另一个变量的变化关系。 而回归分析则是通过一定的数学方程来反映变量之间相互关系 的具体形式,以便从一个已知量来推测另一个未知量,为估算 预测提供一个重要的方法。
单因素方差分析(基本结构)
单因素方差分析原理总结
在观测变量总离差平方和中,如果组间离差平方和所占比 例较大,则说明观测变量的变动主要是由控制变量引起的, 可以主要由控制变量来解释,控制变量给观测变量带来了 显著影响;反之,如果组间离差平方和所占比例小,则说 明观测变量的变动不是主要由控制变量引起的,不可以主 要由控制变量来解释,控制变量的不同水平没有给观测变 量带来显著影响,观测变量值的变动是由随机变量因素引 起的。
偏态和三值的关系
对称图形 偏态图形 偏态图形
众值 中位值
众 中 均 值 位 值 值
均 中 众 值 位 值 值
均值
离散趋势
是测定总体中各个个体单位标志值差异的变动 范围或差异程度的指标。
极差
测量的是数据的分散程度,就是样本中最大 值与最小值之差。 反映标志值的变动范围 极差计算简便,易于理解,应用普遍。 极差=最大标志值-最小标志值
6 1481 21 426 0.9091 (6 79 21)(6 30268 426 )
显然说明产量和单位成本之间存在高度负相关。
拟合直线方程: 已知产量和单位成本之间存在高度的相关关系,那 么我们完全可以先把直线回归方程的一般形式写出来, 即
yc a bx
不受总体中极值的影响
众数
用具有频数最多的值来表示变量的集中值。
适用于任何层次的变量,只要知道频次分布, 就能找到众值。因此,它最易求出,也特别适 用于单峰对称的情况。也是比较两个分布是否 相近首先要考虑的参数。 对于多峰的图形,由于众值不唯一,用此法就 不适当了。
众数、中数和均数的比较
1.三值都是希望通过一个数值来描述整体特征,以便简化资料。 都是反映了变量的集中趋势。 2.众值仅使用于了资料中最大频次数,因此,资料使用是不完 全的;中位值只考虑了变量的顺序和居中位置,对不按序排序 的数,不在中位的数值的大或小反映不出来;均值既考虑到频 次,又考虑到变量值的大小,因此,反映最灵敏。 3.虽然均值对资料信息利用最充分,但对严重偏态的分布,会 失去它应有的代表性。只对单峰和基本对称的图形,用均值作 为集中趋势才是合理的。对偏态的分布,应使用中位值作为集 中趋势。
40
竞争者 1
30
竞争者 2
竞争者 3
20
60 40 20
竞争者 4
10
0
1999 2000 2001 2002E
0 东部 西部 北部 南部
饼图
E类 7% D类 9% A类 40% F类 4%
四象限散点图
40% 30% 20% 10% 0%
C类 16%
-10% -20% -30% -20%
B类 24%
相关分析既可以研究因果关系的现象也可以研究共变的现象,
不必确定两变量中谁是自变量,谁是因变量。而回归分析是 研究两变量具有因果关系的数学形式,因此必须事先确定变 量中自变量与因变量的地位。 在相关分析中计算相关系数的两变量是对等的,改变两变量
的地位并不影响相关系数的数值。在回归分析中因变量是随
机的,自变量是可控制的解释变量,不是随机变量,二者地 位不对等。因此回归分析只能用自变量来估计因变量,而不 允许由因变量来推测自变量。
数据分析方法简介
数据分析
作图法
◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ 柱形图和条形图 折线图和组合图 饼图和四象限散点图 概率论 描述性统计 假设检测 方差分析 回归分析(一元) K-mean 支持向量机 神经网络
统计分析
聚类分析
作图法:柱形图和条形图
A类 6 B类 10
C类
7
D类
24
式中:a是直线的截距;
b是直线的斜率,即回归系数;
yc表示因变量y的估计值。
最小二乘法(最小平方法)求参数a、b: 最小二乘法的原理 :使拟合的直线上的点到实际值点的距离平方和最小,即 所谓的yc到y的“离差平方和最小”, yc为拟合曲线上据以推算的估计值,y 为实际值。 n xy x y b 2 1.82 2 n x ( x)
•一个较大的标准差,代表大部分的数值和其平均值 之间差异较大;一个较小的标准差,代表这些数值 较接近平均值。
偏度
理想的分布形态是对称的, 但在现实生活中,现象之分 布并不完全对称,而是或多 或少地不同程度地存在着非 对称情况,在统计上将这个 非对称分布称为偏态。
表征概率分布密度曲线相 对于平均值不对称程度的特 征数。
P( AB) P( B | A) P( A)
P( A1 A2 An ) P( A1 ) P( A2 | A1 ) P( A3 | A1 A2 ) P( An | A1 A2 An1 )
那么
P( AB) P( A) P( B)
描述统计分析
数据分布性质
集中趋势
平均数 中位数 众数
y
产 量 (千件)
2 3 4 3 4 5
单位成本 (元)Baidu Nhomakorabea
73 72 71 73 69 68
x产量
※以产量为自变量,单位成本为因 本间存在相关关系 变量拟合直线回归方程。
※从相关图上可以看出产量与单位成
计算相关系数
nxy xy r 2 2 2 2 nx (x) ny (y )
统计决策
将统计量的值 F 与给定的显著性水平 的临界值
F进行比较,作出对原假设H0的决策 根据给定的显著性水平,在F分布表中查找 与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值 F 若F>F ,则拒绝原假设H0 ,表明均值之间
的差异是显著的,所检验的因素对观察值有 显著影响 若F<F ,则不能拒绝原假设 H0 ,无证据支 持表明所检验的因素对观察值有显著影响
单 位75 成70 本
65 60 1 2 3 4 5 6 实际值
y
拟合直线
y x a b 77 .37 n n
回归方程为:y=77.37-1.82x
x产量
用Excel进行一元回归分析
使用INTERCEPT和SLOPE函数
使用LINEST函数(还可以给出估计标准误差、判定 系数等数值 )
使用数据分析工具
用FORECAST函数预测
用TREND函数预测
C类
10
10
7
9
4
D类
24
24
12
54
14
10 84
E类 0
15 10
15 20 30
8 40
10
6 50 60 70 80 90
柱形图
35 30 25 20 15 10 5 0 1998 1999 2000
90 80
32 25
16
7 4
2001
2002E
70 60 50 40 32 30 20 10 0 A类 B类 C类 D类 8 4 7 14 16 25 32
简单线性回归分析步骤
首先:确定变量间是不是确实存在大致的线性 相关关系——作相关图、计算相关系数 第二:就是拟合直线方程:确认参数a、b 第三:预测自变量
假如有以下资料:
某企业上半年产品产量与单位成本的资 料
月 份 1 2 3 4 5 6
作相关图:
单 位75 成70 本
65 60 1 2 3 4 5 6
方差
一组数据中,各数据与它们的平均数的差的平方 的平均数。
计算公式:
1 2 2 2 S = x1 x x2 x … xn x n
2
一般步骤:
求平均-再求差-然后平方-最后再平均
标准差
•标准差是一组数值自平均值分散开来的程度的一种 测量观念。
偏度
•如果偏度=0,则表明此分布为对称分布; •如果偏度 <0 ,则表明此分布为左偏态,此时数据位于均值左边的 比位于右边的多; •如果偏度 >0 ,则表明此分布为右偏态,此时数据位于均值右边的 比位于左边的多; •非对称分布称为偏态
峰度
•峰度是表明一个次数分布陡峭或平缓的指标。
•一个总体分布的峰度越大,分布形态便越陡峭,总 体的数值便越集中
•一个总体分布峰度越小,分布形态便越平缓,总体 的数值便越分散,差异便越
用EXCEL进行描述性统计
工具——数据分析——描述统计
检验假设
假设检验的基本思想
事先对总体参数或分布形式作出某种假设
然后利用样本信息来判断原假设是否成立
采用逻辑上的反证法,依据统计上的小概率原理 1. 提出原假设和备择假设 确认适当的统计检验量 规定显著性水平 计算检验统计量的值 作出统计决策
中位数
将总体中的各个个体数值按照大小顺序排列,居 于中间位置的数值,便是中位数。
中位数
中位数
它把观察总数一分为二,其中一半具有比它小的变 量值,另一半具有比它大的变量值。所以,中位值 是数据序列之中央位置的值。 是一种集中趋势或平均指标 位于中间位置的数值 •如果数据为奇数项,中位数是中间位置的数值 •如果数据为偶数项,中位数是中间位置两个数值的 平均数 •是一种位置平均数
0.0
0.86 0.78 0.60 0.38 0.18 0.12 0.04 0.16 0.5 1.0 1.5 0.21 0.18 0.35 0.24 2.0
0.50 0.84 0.60 1.06
2.5
3.0
线性图
30 25 20 15 10 5 0 1998
客户
50
A系列 B系列
160 140 120 100 80