实习九 简单线性回归(教师版)2011

合集下载

简单线性回归

简单线性回归

第一节简单线性回归一、简单线性回归的定义回归分析是一种考察两个及两个以上量化变量间关系的统计方法,即用自变量预测因变量的变化趋势。

例如,如果已知参加辅导班的次数与考试成绩间的关系,那么,我们可以通过回归分析根据学生平时参加辅导班的次数预测其考试成绩的表现。

最简单的一种情况:用单一自变量预测因变量,并且该自变量和因变量之间线性相关。

简单线性回归是根据自变量的值,建立回归方程(即一条线性回归直线)来预测因变量的值。

回归直线是用回归方程进行描述,而回归方程就是该回归直线的表达公式。

我们可以将回归方程表示为:y=a+bX在这里,X是自变量,y是因变量,a是截距,而b是直线斜率。

二、回归分析的基本假设·数据呈线性变化(观察数据的散点图,如果数据大致排列为一条直线,则说明该组数据为线性变化)。

·因变量呈正态分布,可以通过Q—Q图对数据的正态性进行检验。

假设:回归分析的假设主要关心的是回归直线的斜率。

虚无假设:斜率为零(即零斜率);备择假设:斜率不为零。

三、SPSS示例在SPSS里进行回归分析的步骤如下:在Analyze菜单下,选择Regression,点击Linear 并在相应位置输入因变量和自变量,点击OK运行程序。

下面我们通过一组数据实例具体说明回归分析的过程:该数据列出的是学生一周阅读量以及他们的语文成绩。

图8-1假设检验(一)我们首先需要对自变量和因变量间线性关系进行检验,因此需要先作一个散点图。

具体步骤如下:图形—旧对话框—散点/点状,然后将变量月考语文成绩和一个月阅读量分别拖至Y 轴和X 轴,点击“确定”,结果如图。

图8-2 图8-3图8-4(二)正态性检验:分析—回归—线性,将变量“月考语文成绩”拖至右边的“因变量”框内,将变量“一个月阅读量”拖至右边的“自变量”框内。

双击“绘制”,选择“正态概率图’,点击“继续”。

正态Q—Q图显示:因变量(月考语文成绩)为正态分布。

图8-5SPSS结果输出在回归分析输出的结果中有三个关键信息值得我们注意。

数学建模——线性回归分析实用教案

数学建模——线性回归分析实用教案

数学建模——线性回归分析实用教案一、教学内容二、教学目标1. 理解线性回归分析的基本概念,掌握线性回归方程的求解方法。

2. 能够运用最小二乘法建立线性回归模型,并解释模型的实际意义。

3. 学会分析线性回归方程的拟合效果,评价模型的准确性。

三、教学难点与重点教学难点:最小二乘法的推导和运用,线性回归方程的求解。

教学重点:线性回归模型的理解,线性回归方程的建立和应用。

四、教具与学具准备1. 教具:多媒体教学设备,黑板,粉笔。

2. 学具:直尺,圆规,计算器。

五、教学过程1. 实践情景引入(5分钟)利用多媒体展示一些实际数据,如身高与体重的关系,引导学生观察数据之间的关系。

2. 知识讲解(10分钟)介绍线性回归分析的基本概念,讲解最小二乘法的原理,推导线性回归方程的求解方法。

3. 例题讲解(15分钟)选取一道典型例题,演示如何利用最小二乘法建立线性回归模型,求解线性回归方程,并分析拟合效果。

4. 随堂练习(10分钟)学生独立完成一道类似的练习题,巩固所学知识。

5. 学生互动(5分钟)学生之间相互讨论,分享解题心得,教师点评并解答疑问。

概括本节课所学内容,布置课后作业,并提出一个拓展问题。

六、板书设计1. 黑板左侧:线性回归分析的基本概念,最小二乘法公式。

2. 黑板右侧:例题及解答过程,线性回归方程的求解步骤。

七、作业设计1. 作业题目:请利用最小二乘法求解下列数据的线性回归方程,并分析拟合效果。

数据如下:(x1, y1), (x2, y2), , (xn, yn)2. 答案:根据最小二乘法,求解线性回归方程为:y = ax + b。

八、课后反思及拓展延伸1. 课后反思:本节课学生对线性回归分析的理解程度,以及对最小二乘法的掌握情况。

2. 拓展延伸:引导学生思考非线性回归模型及其求解方法,为后续课程打下基础。

重点和难点解析1. 最小二乘法的推导和运用2. 线性回归方程的求解3. 线性回归模型的实践应用4. 作业设计中的数据分析和拟合效果评价一、最小二乘法的推导和运用1. 确保数据的线性关系:在实际应用中,需先判断数据之间是否存在线性关系,若不存在,则不适用最小二乘法。

实习09 简单线性回归

实习09 简单线性回归
1)线性:反应变量与自变量呈线性变化 趋势(散点图)。 2)独立:任意两个观察值相互独立(专 业等)。 3)正态:指定X值时,Y的取值服从正态 分布,即残差正态分布(残差图等)。 4)等方差:对于不同的X值,Y的总体变 异相同。(残差图)
3.如果相关系数r=1,则一定有() A. B. C. D. E. SS = SS 残差 回归 SS = SS 总 回归 SS =SS 总 残差 SS > SS 总 回归 MS =MS 回归 残差
表9­1 16个地区某时期就诊率(℅)及其到医院的距离(km)
地区 距离 (km) 就诊率% 地区 距离(km) 就诊率% 编号 1 2 3 4 5 6 7 8 (X) 6.8 10.3 1.7 11.0 8.8 5.8 2.5 3.3 (Y) 21 12 42 8 13 28 9.0 3.2 12.7 8.2 7.0 5.1 4.1 (Y) 31 16 38 6 18 24 30 34
估计值 标准误 3.280 0 0.292 0
教材表 10­6 女孩身高对年龄的简单线性回归分析结果
t
26.961 1 15.529 0
P 0.000 0 0.000 0
Constant AGE
88.432 6 4.534 0
F =241.15
R 2 =94.1%
经拟合简单线性回归模型,检验结果显示回 2 归方程具有统计学意义。R 显示,拟合效果较好, 故认为男孩与女孩的平均身高随年龄线性递增, 依照回归方程可以预测该地男孩和女孩10.5岁、 16.5岁、 19岁和20岁的平均身高。
答案: B
4. 如果相关系数r=0,则一定有() A. B. C. D. E. 简单线性回归的截距等于0 简单线性回归的截距等于 Y 或 X 简单线性回归的SS 等于0 残差 简单线性回归的SS 等于SS 残差 总 简单线性回归的SS 等于0 总

简单线性回归

简单线性回归
称为样本回归函数(sample regression function,SRF)。
注意: 这里将样本回归线看成总体回归线的近似替代

样本回归函数的随机形式/样本回归模型:
同样地,样本回归函数也有如下的随机形式: Yi Yˆi ˆi ˆ0 ˆ1 X i ei
式中,ei 称为(样本)残差(或剩余)项(residual),代表
回归函数在坐标系中用图形表示出来就 是回归线。它表示了应变量和解释变量 之间的平均关系。
回归线图示
概率密度函数 f(Yi)
Y
x1 xi Xk
PRF
X
注意:
一般地,在重复抽样中解释变量被假定 为固定的。所以回归分析中,解释变量 一般当作非随机变量处理。
1.4 总体回归函数
由于变量间关系的随机性,回归分析关心的是 根据解释变量的已知或给定值,考察被解释变量的总 体均值,即当解释变量取某个确定值时,与之统计相 关的被解释变量所有可能出现的对应值的平均值。
1.3.1 回归分析 是对一个应变量对若干解释变量依存 关系的研究; 其目的是:由固定的解释变量去估计 和预测应变量的平均值等。
1.3.2 回归函数、回归线
应变量Y的条件期望E(Y/X i )随着解释变量 X的变化而有规律地变化。把这种变化关 系用函数表示出来,就是回归函数:
E(Y/X i ) f(X i )
列入模型的那些次要因素的综合影响。
由中心极限定理μ服从的均值
不妨假设
m
rj 1
j 1
则有
m
rj zj Z j 1
因此,由中心极限定理,无论Zj原来的分布形式如何,只要它们 相互独立,m足够大,就会有μ趋于正态分布。
而且正态分布简单易用,且数理统计学中研究的成果很多,可以 借鉴。

试讲 简单线性回归模型

试讲 简单线性回归模型

● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
● 从变量相关关系变化的方向看
正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一增一减 不相关
7
3.相关程度的度量—相关系数
总体线性相关系数: Cov( X , Y ) Var( X )Var(Y )
33
Y 的分布性质
由于
Yi 1 2 X i ui
u i 的分布性质决定了 Yi 的分布性质。 对 u i 的一些假定可以等价地表示为对Yi 的假定:
Yi

ui
X
(2)个别值表现形式
对于一定的 X i , Y 的各个别值 Yi 分布
Xi
在 E(Y X i ) 的周围,若令各个 Yi 与条件 均值 E(Y X i ) 的偏差为 u i , 显然 u i 是随机变量,则有 或
Yi 1 2 X i ui
ui Yi E(Yi X i ) Yi 1 2 X i
●只有具备一定的假定条件,所作出的估计才
具有较好的统计性质。
29
2、基本假定的内容
(1)对模型和变量的假定

Yi 1 2 X i ui
假定解释变量 X是非随机的,或者虽然是随机的,但与扰动

u是不相关的
假定解释变量 X 在重复抽样中为固定值
假定变量和模型无设定误差
30
(2)对随机扰动项 u 的假定
每 月 家 庭 消 费 支 出
1489 1538
1600 1702
1712 1778
1841 1886
2078 2179
2298 2316

简单回归分析

简单回归分析
简单回归分析
Simple linear regression analysis
本章内容
第一节 简单线性回归 第二节 线性回归的应用
第一节 简单线性回归
双变量计量资料:每个个体有两个变量值
总体:无限或有限对变量值
样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关
XY
46.02 33.11 27.81 14.88 33.60
232.61 76 23.87 / 8 764 762 / 8 5.8450 0.1392 42
X SX / n 76 / 8 9.5
20.48 Y SY / n 23.87 / 8 2.9838
线性回归的概念及其统计描述
直线回归的概念
目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系
回归
回归描述的是通过自变量的数值反应因变量的平均水 平。因此可以通过可测或易测的变量估计难测或不 可测变量的状态。
例如:通过体重估计体表面积; 通过身高、体重、肺活量估计心室血输出 量、体循环总血量; 本章只涉及一个自变量的回归问题
b
SXY SX SY / n l XY 2 l XX SX 2 SX / n
编号 1 2 3 4 5 6
年龄X 肌酐Y
13 11 9 6 8 10 3.54 3.01 3.09 2.48 2.56 3.36
X2
169 121 81 36 64 100
Y2
12.53 9.06 9.55 6.15 6.55 11.29

第一讲简单线性回归模型PPT课件

第一讲简单线性回归模型PPT课件

tb1
sb1
其s中 b1
s xi21 n(
xi)2是 b1的标准误差
给定显著水平时,选择拒绝域
t t /2 (n 2 ) 或 t t 者 /2 (n 2 )
17
关于回归方程整体的检验
变量x的确对y有解释作用吗?(H0: =0) 检验统计量
F=MSR/MSE 其中MSR=SSR/自变量的个数 拒绝域
对于问题一,如何得到这种连锁店平均
销售收入的一个95%的置信区间?
对于给定的xp, yˆ p b0 b1xp是E(yp )的无偏估计。

的分
p
布是N
(E(
yp
),
2 yˆ p
),其中
y2ˆ p的估计是
s2 yˆ p
s2
1 n
(xp x)2
xi2 ( xi )2
/n
E( yp )的1置信区间是

学生人数/千人
根据这些你可以得到什么结论?
5
Types of Regression Models
Positive Linear Relationship
Relationship NOT Linear
Negative Linear Relationship
No Relationship
6
模型的引入
20
使用你建立的模型(一)
问题一:对于那些附近学校人数是1万的 连锁店,他们的季度销售收入一定是一 样吗?这种连锁店平均的季度销售收入 是多少?你能够给出一个估计吗?
问题二:某家连锁店附近学生总数约1万 人,你能够给出它的季度销售收入的一 个估计值吗?
点估计:110
21
使用你建立的模型(二)

统计学中简单线性回归基础知识

统计学中简单线性回归基础知识
判定系数
判定系数为估计的回归方程提供了一个拟合优度的度量 误差平方和SSE
误差平方和是实际值减预测值之差的平方和 回归平方和SSR
回归平方和是预测值减平均值之差的平方和 总平方和SST
总平方和是真实值减平均值之差的平方和线性回归模型
模型的假定 假定回归模型为y=β0+β1x+e 回归方程为y=b0+b1x
如果p值≤α,则拒绝H0 临界值法
如果F≥Fα,则拒绝H0
统计学中简单线性回归基础知识
简单线性回归模型
因变量与自变量 因变量:预测的变量 自变量:用来预测因变量值的一个或多个变量
回归模型和回归方程 回归模型:描述y如何依赖x和误差项的方程 回归方程:描述y的期望值如何依赖x的方程
估计的回归方程 用统计样本替代回归方程的未知参数
最小二乘法 最小二乘法利用样本数据,通过使因变量的观测值与因变量的预测值之间的离差 平方和达到最小的方法求得回归方程的参数
回归模型的假定 误差项是一个平均值或期望值为0的随机变量 对于所有的x的值,误差的方差都是相同的 误差的值是相互独立的 对所有的x值,误差项是一个正态分布的随机变量
显著性检验 误差的方差估计 均方误差MSE=SSE/(n-2) t检验 假设检验 H0:β1=0 H1:β1≠0 检验的统计量 t=b1/s1 拒绝法则 p值法 如果p值≤α,则拒绝H0 临界值法 如果t≤-tα/2或者t≥tα/2,则拒绝H0 β1的置信区间 β1置信区间的公式:b1±tα/2*S1 F检验 均方回归MSR MSR=SSR/回归自由度 假设检验 H0:β1=0 H1:β1≠0 检验的统计量 F=MSR/MSE 拒绝法则 p值法

简单回归系数

简单回归系数

简单回归系数
简单回归系数是一种用于描述自变量和因变量之间线性关系的统计指标。

在简单线性回归模型中,自变量$x$和因变量$y$之间的关系可以表示为$y=a+bx$,其中$a$是截距,$b$是回归系数。

回归系数$b$表示自变量$x$每增加一个单位时,因变量$y$的平均变化量。

具体来说,如果回归系数为正数,则表示当自变量增加时,因变量也会增加;如果回归系数为负数,则表示当自变量增加时,因变量会减少;如果回归系数为零,则表示自变量和因变量之间没有线性关系。

简单回归系数的计算通常基于最小二乘法,通过最小化残差平方和来确定回归系数的值。

具体计算公式为:
$b=\frac{\sum_{i=1}^{n}(x_i-x_0)(y_i-y_0)}{\sum_{i=1}^{n}(x_i-x_0)^2}$
其中,$x_i$和$y_i$分别表示第$i$个观测值的自变量和因变量的值,$x_0$和$y_0$分别表示自变量和因变量的平均值。

简单回归系数在统计分析和数据建模中具有重要的应用。

它可以用于预测和解释自变量和因变量之间的关系,评估变量的重要性,以及进行假设检验和推断。

通过了解回归系数的大小和正负,可以帮助我们更好地理解自变量对因变量的影响程度,并做出相应的决策和预测。

实习九 简单线性回归(教师版)2011

实习九  简单线性回归(教师版)2011

1. 欲了解就诊率Y是否与距离X 有关,应如何分析? 2. 某地区中心点到医院的距离X为10km,预测该地区
中心医院的就诊率为多少?要使就诊率Y 达到三分 之一以上,中心点到医院的距离X 为多少? 3. 结合本题讨论线性相关分析与线性回归分析的区别 和联系?
电脑实验 讨论1.sav
2021/4/22
28
平 均 身 高
(cm)
年龄(岁) 图9-5 某地男孩女孩平均身高(Y)与年龄(X)的调查数据的散点图
2021/4/22
公共卫生学院 医学统计与流行病学系
29
参考做法:
1)绘制散点图 2)据图选择合适的模型 (曲线、直线) 3)假设检验,作出结论 4)专业解释和运用
*电脑实验 讨论2.sav
2021/4/22
2021/4/22
公共卫生学院 医学统计与流行病学系
23
讨论 2
(教材:P.181,案例10-1)
某地调查了4~18岁男孩与女孩的身高(Y),数据 见教材表10-4,为描述男孩与女孩身高与年龄(X) 间的关系,并预测10.5岁、16.5岁、25岁与26岁男孩 与女孩的平均身高,某研究者作了简单线性回归分 析,结果见教材表10-5,10-6:
95% Confidence Interval for B
Sig. Lower Bound Upper Bound
.000
45.653
50.023
.000
-3.852
-3.247
(25.163)2=633.186
M od e l
1
Re gre ssi o n
Sum of Squares
2029.563
2021/4/22

简单线性回归分析

简单线性回归分析
医学应用:
描述变量间的关联; 分析影响因素:从影响Y 的诸多变量X 中找出有统计学
意义的,并定量描述某个X 对Y 影响的大小。 预测和控制:
预测:根据一个或几个X 取值预测 变量Y 的上下限。 控制:预把 Y 限制在某取值范围,须控制X的上下限。
10.1 概 述
例10.1
为研究大气污染一氧化氮(NO)的浓度 是否受到汽车流量、气候状况等因素的影响, 选择24个工业水平相近的一个交通点,统计单 位时间过往的汽车数(千辆),同时在低空相 同高度测定了该时间段平均气温(℃)、空气 湿度(%)、风速(m/s)以及空气中一氧化氮 (NO)的浓度(×10-6),数据如下表。
(Xi
i 1
X )(Yi
Y )= Lxy
, (i 1,2,...,n)
(Xi X )2
Lxx
(2) a Y bX
回归方程: Yˆ a bx
以NO浓度 为Y,以车流量 为X,作线性 回归分析。
解:⑴由样本数据了解计算统计量,带入下公式,求出
回归系数b
n
(Xi X )(Yi Y ) b i1 ( Xi X )2 =0.1584
区间为: 0.1584 ±2.074 ×0.0246=(0.1074,0.2095)
【电脑实现】—SPSS
1. 数据录入
2. 作散点图:
3. 读散点图,作线性趋势判断:
4.线性回归分析:
5. 结果及结果输出:
回归分析结果:
yˆ 0.135 0.158车流量
1. 当车流量为0时,空气中NO浓度的预测值是 - 0.135, (显然这只是个理论值,因为此值不可能为负)
差齐性的要求。 注意样本中的极端值,必要时可剔除或进
行变量变换。

简单线性回归

简单线性回归
編號 X
( X i X )2
1
2
3
4
5
6
7
8
9 10 mean 合計
31 25 29 20 40 32 27 33 28 21 28.6 5.8 13.0 0.2 74.0 130 11.6 2.6 19.4 0.4 57.8 314.40
第二節 結構模式與參數估計 (18)
1 28 .6 2 2 S b0 62 .32 [ ] 168 .37 10 314 .40 1 2 S b1 62 .32 ( ) 0.198 314 .40 b0的95%信賴區間為 13.86 2.306 168.37
第二節 結構模式與參數估計 (1)
• 最簡單的線性模式為直線模式: • Yi = b0 + b1Xi + ei,ei ~ N(0, s2) • Yi是效標變項中第i個數值, b0 和 b1為所欲估計 的參數:截距和斜率。Xi是預測變項中第i個數 值,ei是誤差。

第二節 結構模式與參數估計 (2)
2
MS e [
1

i 1
n
]
( X i X )2
• 若要檢定 b1 是否等於某個值(如0),所計算 的T值與自由度為n- 2的t分佈臨界值相比較, 如果超過臨界值,就拒絕虛無假設。
第二節 結構模式與參數估計 (17)
• 例子2
• 承例子1,估計母體參數的95%信賴區間,並進 行母體斜率參數為0的假設檢定。
2
1 MS e [ n
X2

i 1
n
]
( X i X )2
• 若要檢定 b0 是否等於某個值(如0),所計算 的T值與自由度為n- 2的t分佈臨界值相比較, 如果超過臨界值,就拒絕虛無假設。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标准误 3.280 0 0.292 0
t
26.961 1 15.529 0
P <0.001 <0.001
2021/4/22
公共卫生学院 医学统计与流行病学系
26
针对以上分析结果,请考虑:
1. 分析过程是否符合回归分析的基本规范? 2. 该线性回归模型能反映数据的变化规律吗? 3. 拟合结果和依据回归方程而进行的预测有问题
公共卫生学院 医学统计与流行病学系
30
曲线拟合在SPSS实现*
数据文件:讨论2.sav • Analyze →Regression → Curve Estimation →
5.0 108.6 107.6 10.0 136.6 137.9
5.5 111.6 110.8 11.0 142.3 144.1
6.0 116.2 115.1 12.0 147.2 150.0
7.0 122.5 121.1 13.0 156.3 155.1
年龄 平均身高(cm) (岁) 男孩 女孩 14.0 162.5 157.1 15.0 166.1 157.7 16.0 169.0 158.7 17.0 170.6 158.9 18.0 170.7 158.9
M od e l
1
(Constant)
距离
B 47.838 -3.549
Std. Error 1.019 .141
a. Dep ende nt Vari able: 就 诊 率
Stan d ard i ze d Co effi ci e nts
Beta
-.989
ANOVAb
t 46.962 -25.163
定量研究数量上的关联关系 用途
1. 描述两变量的线性依存关系 2. 预测 3. 控制
1. 相关系数(r)和回归系数(b)正负一致。
2. r 和 b 的假设检验等价。 联系
3. 当双变量正态分布时,可以用回归解释相关。
4. 由于决定系数 R2=SS 回归 /SS 总 ,其大小决定了相关的密切程度。
2021/4/22
2021/4/22
公共卫生学院 医学统计与流行病学系
12
(1)绘制散点图
(%)
(km)
图9-2 16个地区的就诊率(Y)及其与医院距离(X)的散点图
2021/4/22
公共卫生学院 医学统计与流行病学系
13
(2)估计样本线性回归方程
(3)假设检验:回归系数和回归方程 Coefficientsa
Un stan d ard i ze d Co effi ci e nts
2021/4/22
公共卫生学院 医学统计与流行病学系
24
教材表10-4 某地男孩女孩平均身高(Y)与年龄(X)的调查数据
年龄 平均身高(cm) 年龄 平均身高(cm)
(岁) 男孩 女孩 (岁) 男孩
女孩
4.0 102.1 101.2 8.0 126.8 126.3
4.5 105.3 104.5 9.0 132.2 131.8
2021/4/22
公共卫生学院 医学统计与流行病学系
14
图9-3 就诊率(Y)的总变异分解示意图
2021/4/22
公共卫生学院 医学统计与流行病学系
15
• 如何评价回归模型的好坏?
Model Summaryb
M od e l 1
R
R Square
.989a
.978
Ad j uste d R Square
信区间为(10.91,13.78)%。
思考:能否对距离为15千米的就诊率进行预测?
2021/4/22
公共卫生学院 医学统计与流行病学系
20
(5)应用2:控制
• 要使就诊率 Y 达到三分之一以上,中心点到医院的距离 为多少?
• 将Y=33.333%代入模型 以内。
得距离X应在4.09km
2021/4/22
1. 欲了解就诊率Y是否与距离X 有关,应如何分析? 2. 某地区中心点到医院的距离X为10km,预测该地区
中心医院的就诊率为多少?要使就诊率Y 达到三分 之一以上,中心点到医院的距离X 为多少? 3. 结合本题讨论线性相关分析与线性回归分析的区别 和联系?
电脑实验 讨论1.sav
2021/4/22
吗?
2021/4/22
公共卫生学院 医学统计与流行病学系
27
存在的问题:
1. 未绘制散点图,盲目进行简单线性回归分析。 2. 若实际资料反映两变量间呈现某种曲线变化趋
势,用简单线性回归方程去描述其变化规律就 是不妥当的。 3. 不能进行外推预测。
2021/4/22
公共卫生学院 医学统计与流行病学系
公共卫生学院 医学统计与流行病学系
22
线性相关系数r与线性回归系数b的关系:
相关系数(r)
回归系数(b)
具有直线关系的两变 自变量每增加一个
含义 量间相互关系的方向 单位所对应的反应
与密切程度
变量的平均变化量
单位 范围
没有单位 -1≤r≤1
有单位 -∞<b<+∞
符号
对同一双变量资料,回归系数与相关系数的 正负号一致
态分布; 4. 做散点图线性趋势;
2021/4/22
公共卫生学院 医学统计与流行病学系
2
作业问题
1. Pearson相关 • 前提条件讨论; • 三个散点图,即统计描述; • 三个相关系数r; • 对三个r进行假设检验, 95%CI; • 结论线性相关?正负?讨论是否有因果关系。
2. Spearman秩相关 • 前提条件讨论; • 秩相关系数rs; • 对rs进行假设检验; • 结论线性相关?正负?
28
平 均 身 高
(cm)
年龄(岁) 图9-5 某地男孩女孩平均身高(Y)与年龄(X)的调查数据的散点图
2021/4/22
公共卫生学院 医学统计与流行病学系
29
参考做法:
1)绘制散点图 2)据图选择合适的模型 (曲线、直线) 3)假设检验,作出结论 4)专业解释和运用
*电脑实验 讨论2.sav
2021/4/22
5
讨论内容
2021/4/22
公共卫生学院 医学统计与流行病学系
6
讨论 1
某研究者调查了16个地区在某一固定时期内到中 心医院的就诊率(Y),同时测定了每一地区中心点 到医院的距离(X),结果见表9-1:
表9-1 16个地区某时期就诊率(Y)及其到医院的距离(X)
地区 距离(km) 就诊率(%) 地区 距离(km) 就诊率(%)
2021/4/22
公共卫生学院 医学统计与流行病学系
23
讨论 2
(教材:P.181,案例10-1)
某地调查了4~18岁男孩与女孩的身高(Y),数据 见教材表10-4,为描述男孩与女孩身高与年龄(X) 间的关系,并预测10.5岁、16.5岁、25岁与26岁男孩 与女孩的平均身高,某研究者作了简单线性回归分 析,结果见教材表10-5,10-6:
常数 年龄
估计值 83.736 3
5.274 8
标准误 1.882 4 0.167 6
t
44.483 9 31.479 8
P <0.001 <0.001
F =990.98 R2 =98.5%
教材表 10-6 女孩身高对年龄的简单线性回归分析结果
估计值
常数
88.432 6
年龄
4.534 0
F =241.15 R2 =94.1%
公共卫生学院 医学统计与流行病学系
8
参考做法:
1.相关分析参考步骤
前提条 件的讨论
双变量正态分 布的随机变量
2021/4/22
r=-0.989 P<0.001 95%CI (-0.996,-0.968)
公共卫生学院 医学统计与流行病学系
9
2.简单线性回归参考步骤
2021/4/22
公共卫生学院 医学统计与流行病学系
2021/4/22
公共卫生学院 医学统计与流行病学系
19
(5)应用1:预测
• 中心点到医院的距离X=10km,计算就诊率预测值,95% 容许区间及就诊率平均值的95%置信区间。
• 根据线性回归模型
,将X=10km代入
模型,得到该地区就诊率预测值Yˆ 为12.35%,此时就诊率
的95%容许区间为(8.25,16.44)%,就诊率平均值的95%置
2021/4/22
公共卫生学院 医学统计与流行病学系
25
经拟合简单线性回归模型,检验结果显示回归方程具有
统计学意义。R2显示,拟合效果较好,故认为男孩与女孩的
平均身高随年龄线性递增,依照回归方程可以预测该地男孩
和女孩10.5岁、16.5岁、 25岁和26岁的平均身高。
教材表 10-5 男孩身高对年龄的简单线性回归分析结果
编号 (X)
(Y)
编号
(X)
(Y)
1
6.8
21
9
4.3
31
2
10.312Leabharlann 109.016
3
1.7
42
11
3.2
38
4
11.0
8
12
12.7
6
5
8.8
13
13
8.2
18
6
5.8
28
14
7.0
24
7
2.5
41
15
5.1
30
8
3.3
35
16
4.1
34
2021/4/22
公共卫生学院 医学统计与流行病学系
相关文档
最新文档