统计案例ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
450
· ··
400
·
350 · · ·
300
散点图 施化肥量
10 20 30 40 50
x
发现:图中各点,大致分布在某条直线附近。
探索2:在这些点附近可画直线不止一条, 哪条直线最能代表x与y之间的关系呢?
案例1:女大学生的身高与体重
制表 i 1 2 3 4 5 6 7 8 合计
xi x
yi y
(xi x)(yi y)
(xi x)2
x , y ,
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170
100000
80000
GDP
60000
40000
20000
0 1992
1993
1994
1995
1996
1997
1998
年
1999
2000
2001
2002
2003
函数模型: ybxa 可以提供
回归模型: ybxae 选择模型的准则
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用 于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也发挥着重要作用。
复习:变量之间的两种关系
问题1:正方形的面积y与正方形的边长x之间
的函数关系是 y = x2
确定性关系
问题2:某水田水稻产量y与施肥量x之间是否
-------有一个确定性的关系?
r的绝对值越大,越接近于1,表示x与y直线相关 程度越高,反之越低。
当 r0时 , 表 示 x与 y为 正 相 关 ;当 r0时 , 表 示 x与 y为 负 相 关
如何描述两个变量之间线性相关关系的强弱?
在《数学3》中,我们学习了用相关系数r来衡量两个变量 之间线性相关关系的方法。
相关系数r
(2)求线性回归方程; (2)yˆ6.5x17.5
对回归模型进行统计检验
假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相 同。在体重不受任何变量影响的假设下,设8名女大学生的体重都是她们的平均值, 即8个人的体重都为54.5kg。
编号 身高/cm
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
2、由散点图知道身高和体重有比较好的
线性相关关系,因此思可考以用P线3性回归方程
刻 3直、画 线从它 的散们 附点之 近图间 ,还的 而产看的关 不生到原系是,随因。在样机一是本条误什点直差散么线项布?上在e,某所一以条
不能用一次函数y=bx+a描述它们关系。
我们可以用下面的线性回归模型来表示: y=bx+a+e,其中a和b为模型的未知参数, e称为随机误差。
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。 解:1、选取身高为自变量x,体重为因变量y,作散点图:
例如:在 7 块并排、形状大小相同的试验田 上 进行施肥量对水稻产量影响的试验,得到 如下所示的一组数据:
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
1、定义: 自变量取值一定时,因变量的取值带有一定随 机性的两个变量之间的关系叫做相关关系。
假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图 中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归 直线上。这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上 “推”开了。
称
e
因此,数据点和它在回归直线上相应位置的差异( i =yi yi 为残差。
n
( yi y ) 2 表示总的效应,称为总偏差平方和。
i1
在例1中,总偏差平方和为354。
编号 身高/cm
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
体重/kg
48 57 50 54 64 61 43 59
那么,在这个总的效应(总偏差平方和)中,有多少来自于解析变量(身高)? 有多少来自于随机误差?
相关关系的测度
(相关系数取值及其意义)
完全负相关
无线性相关
完全正相关
-1.0 -0.5 0 +0.5 +1.0
r
负相关程度增加 正相关程度增加
练:某种产品的广告费支出x与销售额y之间有如表 所示数据:
零件数X
2
4
5
6
8
加工时间y(分 30
40
60
50
70
钟)
(1)求x,y之间的相关系数; (1)r0.9192
所以,对于身高为172cm的女大学生,由回归方程可以预报其体重为
y 0 .8 4 9 7 2 8 5 .7 1 2 6 0 .3 1 6 (k g )
函数模型与回归模型之间的差别
函数模型: ybxa 回归模型: ybxae
线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和 随机误差项e共同确定,即自变量x只能解析部分y的变化。
在统计中,我们也把自变量x称为解析变量,因变量y称为预报变量。
五.求出线性相关方程后,如何描述斜率估计值 与变化增量值之间相关关系的强弱?通过什么
量来说明? 1.用相关系数 r 来衡量
2.公式:
n
xi x yi y
r i1
n
2n
2
3.性质:
①、当 r
xi 源自文库 x
思考P3 产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般):
1、其它因素的影响:影响身高 y 的因素不只是体 重 x,可能还包括遗传基因、饮食习惯、生长环 境等因素;
2、用线性回归模型近似真实模型所引起的误差; 3、身高 y 的观测误差。
函数模型与回归模型之间的差别
120000
中国GDP散点图
量来说明? 1.用相关系数 r 来衡量
2.公式:
n
xi x yi y
r i1
n
2n
2
3.性质:
①、当 r
xi x
yi y
时1,x与iy1 为完全线性i相1 关,它们之间存在
确定的函数关系。
②、当 0 r时,1表示x与y存在着一定的线性相关,
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
根据最小二乘法估计a 和b 就是未知参数a和b的最好估计,
注 1):相关关系是一种不确定性关系; 2):对具有相关关系的两个变量进行 统计分析的方法叫回归分析。
2、现实生活中存在着大量的相关关系。
如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何 规律?
施化肥量x 15 20 25 30 35 40 45
yi y
时1,x与iy1 为完全线性i相1 关,它们之间存在
确定的函数关系。
②、当 0 r时,1表示x与y存在着一定的线性相关,
r的绝对值越大,越接近于1,表示x与y直线相关 程度越高,反之越低。
当 r0时 , 表 示 x与 y为 正 相 关 ;当 r0时 , 表 示 x与 y为 负 相 关
体重/kg 54.5 54.5 54.5 54.5 54.5 54.5 54.5 54.5
54.5kg 在散点图中,所有的点应该落在同一条 水平直线上,但是观测到的数据并非如 此。这就意味着预报变量(体重)的值 受解析变量(身高)或随机误差的影响。
思考P6:
如何刻画预报变量(体重)的变化?这个变化在多大程度上 与解析变量(身高)有关?在多大程度上与随机误差有关?
8. 了解残差图的作用
9. 利用线性回归模型解决一类 非线性回归问题
10. 正确理解分析方法与结果
什么是回归分析:
“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。
根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高,Y记子辈身高。 虽然子辈身高一般受父辈影响,但同样身高的父亲,其子身高并不一致,因此, X和Y之间存在一种相关关系。
编号 身高/cm 体重/kg
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
48 57 50 54 64 61 43 59
例如,编号为6的女大学生的体重并没有落在水平直线上,她的体重为61kg。解析 变量(身高)和随机误差共同把这名学生的体重从54.5kg“推”到了61kg,相差6.5kg, 所以6.5kg是解析变量和随机误差的组合效应。
n
(xi x)( yi y)
i 1
.
n
n
(xi x)2 ( yi y)2
i 1
i 1
当 r[0.75, 1],表 明 两 个 变 量 正 相 关 很 强 ;
当 r[1,0.75],表 明 两 个 变 量 负 相 关 很 强 ;
当 r[0.25,0.25],表 明 两 个 变 量 相 关 性 较 弱 。
第一章 统计案例
a. 比《数学3》中“回归”增加的内
数学3——统计
容选修1-2——统计案例
5. 引入线性回归模型
1. 画散点图
2. 了解最小二乘法 的思想
y=bx+a+e
6. 了解模型中随机误差项e产 生的原因
3. 求回归直线方程
y=bx+a
4. 用回归直线方程 解决应用问题
7. 了解相关指数 R2 和模型拟 合的效果之间的关系
体重/kg 48 57 50 54 64 61 43 59
求17根2c据m一的名女女大大学学生生的的体身重高。预报她的体重的回归方程,( 并x ,预y报) 称一名为身高为
根据最小二乘法估计a 和b 就是未知参数样a和本b点的最的好中估心计, n xi yi n x y 探究P4: 于身是高有为b1=7i2如1cn 果mxi2的不女是n x大,2 学你 0生能.8的4解9 体析重一a一下定原y是因b6吗x0 ?.3 18 65 k.g7吗12? i 1 所以回归方程是 y0.849x85.712
探究P4: 身高为172cm的女大学生的体重一定是60.316kg吗? 如果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是60.316kg, 但一般可以认为她的体重在60.316kg左右。
函数模型与回归模型之间的差别
函数模型: ybxa 回归模型: ybxae
五.求出线性相关方程后,如何描述斜率估计值 与变化增量值之间相关关系的强弱?通过什么
编号为3的女大学生的体重并也没有落在水平直线上,她的体重为50kg。解析 变量(身高)和随机误差共同把这名学生的体重从50kg“推”到了54.5kg,相差-4.5kg, 这时解析变量和随机误差的组合效应为-4.5kg。
用这种方法可以对所有预报变量计算组合效应。
数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用
y
i
yi)
是随机误差的效应,
例如,编号为6的女大学生,计算随机误差的效应(残差)为:
6 1 ( 0 .8 4 9 1 6 5 8 5 .7 1 2 ) 6 .6 2 7
对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号
n
表示为: ( yi y i ) 2 称为残差平方和,它代表了随机误差的效应。 i 1
一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传下来,身 高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈 的身高有向中心回归的特点。“回归”一词即源于此。
虽然这种向中心回归的现象只是特定领域里的结论,并不具有普遍性,但从它 所描述的关于X为自变量,Y为不确定的因变量这种变量间的关系看,和我们现在的 回归含义是相同的。
在例1中,残差平方和约为128.361。