第六讲应用统计优秀课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不相关
阿姆德比萨饼连锁店的问题
阿姆得(Armand)比萨饼连锁店坐落在美国的5 个州内,它们通常的位置是在大学旁边,而且管理人 员相信附近大学的人数与这些连锁店的季度销售额是 有关系的。下面是10家连锁店附近大学的学生人数和 季度销售收入的数据:
连 锁 店 1 234 567891 0 学 生 人 数 / 千 人 2 6881 21 62 02 02 22 6
250
季度销售收入/千美圆
200
150
100
50
0
0
5
10
15
20
25
30
学生人数/千人
根据这些你可以得到什么结论?
相关系数
(correlation coefficient)
1. 对变量之间关系密切程度的度量 2. 对两个变量之间线性相关程度的度量称为
简单相关系数 3. 若相关系数是根据总体全部数据计算的,
2. 对这些关系式的可信程度进行各种统计检验, 并从影响某一特定变量的诸多变量中找出哪些 变量的影响显著,哪些不显著
3. 利用所求的关系式,根据一个或几个变量的取 值来预测或控制另一个特定变量的取值,并给 出这种预测或控制的精确程度
?
回归一词是 怎么来的?
回归分析与相关分析的区别
1. 相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化
全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变
量
x
3. 各观测点落在一条线上
相关关系
(correlation)
1. 变量间关系不能用函数关
系精确表达
y
2. 一个变量的取值不能由另 一个变量唯一确定
………
变量间的关系
变量之间是否存在关系?如果存在,它 们之间是什么样的关系呢?变量之间关 系强度如何?样本所反映的变量之间的 关系能否代表总体变量之间的关系?最 简单直观的就是用散点图描述变量间的 关系。
函数关系
1. 是一一对应的确定关系
2. 设有两个变量 x 和 y ,变量
y 随变量 x 一起变化,并完 y
对每个 x 值, y分布的方差相同.
Y
X2
X1 X
回归直线
估计的回归方程
如何估计参数和?
最小二乘准则
n
求解 min(yi 0 1 xi )2 0 ,1 i1
得出达到最小值点(b0, b1)为0和1的点估计
b1
xi yi ( xi2 (
xi xi
)2
yi ) /n
/
n
,
b0 y b1 x
销 售 额 / 千 元 5 81 0 58 81 1 8 1 1 7 1 3 7 1 5 7 1 6 9 1 4 9 2 0 2
根据以上数据,你能否判断学生人数(x)如何影 响到销售收入(y)?根据一家连锁店附近大学的人数, 你能够预测该家连锁店的季度销售收入吗?
描述学生人数和销售收入之间的关系
相关系数(0.95),散点图;
3. 当变量 x 取某个值时,变 量 y 的取值可能有几个
4. 各观测点分布在直线周围
x
相关关系
(类型)
相关关系
线性相关 非线性相关 完全相关 不相关
正相关 负相关
正相关 负相关
散点图
(scatter diagram)
完全正线性相关
正线性相关
完全负线性相关
负线性相关
Βιβλιοθήκη Baidu
非线性相关
回归模型
一元回归
多元回归
线性回归 非线性回归 线性回归 非线性回归
一元线性回归
1. 涉及一个自变量的回归 2. 因变量y与自变量x之间为线性关系
被预测或被解释的变量称为因变量 (dependent variable),用y表示
用来预测或用来解释因变量的一个或多个变 量称为自变量(independent variable), 用x表示
估计的回归直线yˆ b0 b1x
3. 因变量与自变量之间的关系用一个线性方 程来表示
模型的引入
对于给定的学生人数,销售收入是唯一确定的 一个数,还是一个随机变量?
学生人数的变化如何影响到销售收入? 使用的模型
简单线性回归模型
Y 的截距
随机误
差
Y01X
因变量(响 应变量,被 预测变量)
斜率
自变量(解释 变量,预测变 量)
Y
r =1,为完全正相关 r =-1,为完全负正相关
3. r = 0,不存在线性关系
4. -1r<0,为负相关 5. 0<r1,为正相关 6. |r|越趋于1表示关系越密切;|r|越趋于0表示关
系越不密切
什么是回归分析?
(Regression)
1. 从一组样本数据出发,确定变量之间的数学关 系式
称为总体相关系数,记为
4. 若是根据样本数据计算的,则称为样本相 关系数,记为 r
相关系数
(计算公式)
样本相关系数的计算公式
r (x x)(y y) (x x)2 (y y)2
或化简为 r
n xy x y
n x2 x2 n y2 y2
相关系数
(取值及其意义)
1. r 的取值范围是 [-1,1] 2. |r|=1,为完全相关
第六讲应用统计
第六讲
简单线性回归模型
建立两个变量X和Y间的关系模型,推断变量Y如 何依赖于变量X, 从而可以用X预测Y.
例1 :
广告费用和销售量 公司的市值与CEO的年薪 原始股的销售数量和期望价格 证券市场收益率与某只股票的收益率 商品价格和销售量 装配线的速度和次品数量 年收入与信用卡消费金额 年龄与手机话费 连锁店附近的人流与店的利润 气温与滑雪场门票销量
2. 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量
3. 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
回归模型的类型
观测值
1
Yi 0 1Xi i 观测值
i
=
随机误差
yˆ 0 1X
X
模型的假定
1) E()=0; (E(y)=x) 2) 对于所有的x,Var()=. 3) 是服从正态分布N(0, ) 的. 4) 对于不同的x, 是相互独立的.
这些假定意味着什么?
f
y 服从在回归直线附近的正态分布