h第十二章简单回归分析
第12章 线性相关与回归
所以当计算出样本相关系数r后,
应对r是否来自ρ=0的总体作假设
检验,以判断两变量的总体是否有 直线相关关系。常用的假设检验方 法为t检验,其t值的计算公式为:
r 0 r tr 2 sr 1 r n2 n2
例10.2 对例10.1求得的r值作假
设检验。
1)建立假设并确定检验水准
如果我们主要目的是分析两变 量间是否存在直线相关关系,这时 我们就应进行x和y之间的线性相关
分析。如:我们要分析女大学身高
与体重之间的关系,通过散点图发
现两者有直线趋势,可对两个变量
进行线性相关分析。
直线相关(linear correlation): 是指两变量间存在的关系为直线关 系。又称为简单相关(simple
230 .455 r 0.8012 1000 .909 82.727
即表示男青年身高与前臂长之间存在正 相关关系。但还需作假设检验
三、相关系数的假设检验
相关系数r是根据样本资料计算
出来的,它是总体相关系数ρ的估
计值。若从ρ=0的总体中进行随机
抽样,抽取的样本相关系数也可能
不等于0,这是抽样误差所致。
(3,8365)和(21,36.06)两点,就 可做出本例的直线回归方程的图示。
ˆ 注意:直线必须通过( x ,y )和
纵轴上(0,a)两点,因此,这两点可
以用来核对回归直线绘制是否正确。
四、回归系数的假设检验
抽样研究中,计算出的回归系数 b为样本回归系数,故应考虑假设检 验的问题。即使我们从x、y的总体
r
( x x )( y y ) ( x x ) ( y y)
22Biblioteka l xy l xxl yy
社会统计学第十二章 相关与回归分析
2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变
量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
父母智力 组合
优+优
优+劣 一般+一般
劣+劣
子女智力 子女智力
优秀
一般
71.6 25.4
33.6 42.7
18.6 66.9
5.4 34.4
子女智力 低下
3.0 23.7 14.5 60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是
r×c相对频数联合分布列联表
控制X,Y相对频数条件分布列联表
控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。
投票行为
受教育程度X
Y
大学以 大学以
FY
上
下
投票
160
129
289
弃权
7
61
68
合计:FX 167
r×c相对频数分布列联表的一般形式
在相对频数分布列联表中,各数据为各分类
简单回归分析(2)
16.153114.881 11.4 54 771
t6.142219.2584 14 212
4.881
查t界值表,t 0.001(12) =4.318,所以p<0.001,拒 绝H0,可以认为体重与基础代谢之间存在线 性回归关系
h
18
3、总体回归系数的可信区间
利用上述对回归系数的t检验,可以得到β的1α双侧可信区间为
b (x (xx )(xy) 2 y)
703.023329 114.54771
61.4229
aYbX632.93 6 2.1 42 2797.27
14
14
11.0 76 864
得到的回归方程为:
Y ˆ11.7086 6.4 4 12X 29
h
10
四、线性回归方程的假设检验
需要检验总体回归方程是否成立!
3500
线性回归直线
3000
30
35
40
45
50
55
60
65
70
75
体重
图 14名中年健康妇女的基础代谢与体重的散点图
h
4
线性回归分析:用一条直线(即直线方程)来描 述两个变量间依存变化的数量关系,得出的直 线方程称为线性回归方程。
线性回归方程的一般表达式:
Yˆ abX
a:截距(intercept),直线与Y轴交点的纵坐标 b:斜率(slope),回归系数(regression coefficient)
h
6
7
8
根据求极值方法可得到a、b的值
b (X ( X X )X Y ) ( 2 Y ) X X 2 Y X X 2 Y /n /n l lX XX Y
第十二章 简单的回归分析卫生统计学考研PPT课件
到这条直线的上纵向距离的平方和为最小,
则称这一对a和b为与的最小二乘估计
(least estimation,LES)。
8
二)回归参数的估计方法 Yˆ abX
a为Y轴上的截距;b为斜率,表示X每改变 一个单位,Y的变化的值,称为回归系数;表 示 系数在,X值根处据Y数Y的ˆ 学总上体的均最数小估二计乘值法。原为理求,a和可b导两 出a和b的算式如下:
在通常情况下,研究者只能获取一定数 量的样本数据,用该样本数据建立的有关Y 与X变化的线性方程称为回归方程
(regression equYˆatioan)即b:X
3
在描述两变量的关系时,一般把两个变量中能 精确容易测量的作自变量,不易测量作为因变量。 即用易测量的数据X估计不易测量的另一数据。如 年龄估算小儿体重等。在描述凝血时间与凝血浓度 的依存关系中,将凝血酶浓度作为自变量( X ), 凝血时间作为应变量(Y)。由图12-1可见,凝 血时间随凝血酶浓度增大而减少且呈直线趋势,但 并非15点恰好全部都在一直线上。两变量数量间虽 然存在一定关系,但不是十分确定的。这与两变量 间严格对应的函数关系不同,称为直线回归 (Linear regression)。直线回归是回归分析中 最基本、最简单的一种,故又称简单simple regression)。
4
凝 20 血 时 19 间 ( 18 秒 ) 17
16
15
14
13
12
.5
.6
.7
.8
.9
1.0 1.1
1.2 1.3
凝血酶浓度(毫升)
图 12-1 凝血浓度与凝血时间的散点分布 5
二、回归模型的前提假设 线性回归模型的前提条件是:线性 (linear)、独立(independent),正态 (normal),等方差(equal variance) 1、线性是指反应变量Y的总体平均值与自 变量X呈线性关系。 2、独立是指任意两观察值互相独立。 3、正态性假定是指线性模型的误差项i服 从正态分布。 4、等方差是指在自变量X取值范围内,不 论X取什么值,Y都具有相同的方差。
第十二章简单回归分析(讲)精品PPT课件
独立 INDEPENDENCE 任意两个观察值之间彼此独立
正态 NORMALITY 指线性模型的误差项服从正态分布
y x
标准差相等 EQUAL STANDARD DEVIATION 对于任何X值,随机变量Y的方差相等
线性回归的应用
总体回归线的95%置信带
线性回归的应用
线性回归的应用
4.0 3.8 3.6 3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0
简单线性回归
由最小二乘法得到a,b的计算公式为:
Yˆ abX
S(XX)(YY) b S(XX)2
SXSYX2SXSX S 2Y/n/nllX XX Y
aYbX
例:随机抽取15名健康成人,测定血液的凝血酶 浓度(单位/毫升)及凝固时间,数据如下:
简单线性回归
例:凝血酶浓度与凝血时间
计算得到: a=21.77393 b=-6.98
直线回归方程的图示
在X的实测范围内,任取两值带入方程,求 得Y的估计值,从而画出回归直线。
回归直线的有关性质
(1)直线通过均点 ( X ,Y )
(2)直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和
即: (YYˆ)0
(3)各点到该回归线纵向距离平方和较到其它任何直线者为小。
(Y Y ) 2 (Y Yˆ )2 (Yˆ Y )2
即 SS总 SS剩 SS回 同样有:
总= 剩+ 回
回归系数的假设检验
SS 总= (Y Y )2 , Y 的离均差平方和 n 1
未考虑 X 与 Y 的回归关系时Y 的总变异。
SS 剩= (Y Yˆ)2 ,为剩余平方和 n 2
简单线性回归
一般表达式: (linear regression equation)
第十二章直线相关与回归
第十二章直线相关与回归A型选择题〔、若计算得一相关系数r=0.94,则()A、x与y之间一定存在因果关系B、同一资料作回归分析时,求得回归系数一定为正值C、同一资料作回归分析时,求得回归系数一定为负值D求得回归截距a>0E、求得回归截距a^ 02、对样本相关系数作统计检验(H o =0),结果r r°.05(v),统计结论是()。
A、肯定两变量为直线关系B、认为两变量有线性相关C、两变量不相关B. 两变量无线性相关E、两变量有曲线相关3、若A「0.05(如」2血。
^),则可认为()。
A. 第一组资料两变量关系密切B. 第二组资料两变量关系密切C. 难说哪一组资料中两变量关系更密切D两组资料中两变量关系密切程度不一样E、以上答案均不对4、相关分析可以用于()有无关系的研究A、性别与体重B、肺活量与胸围C、职业与血型D国籍与智商E、儿童的性别与体重5、相关系数的假设检验结果,则在〉水平上可认为相应的两个变量间()A、有直线相关关系B、有曲线相关关系C、有确定的直线函数关系D有确定的曲线函数关系E、不存在相关关系6根据样本算得一相关系数r,经t检验,P v 0.01说明()A、两变量有高度相关B、r来自高度相关的相关总体C、r来自总体相关系数p的总体D r来自卩工0的总体E、r来自p>0的总体7、相关系数显著检验的无效假设为()A、r有高度的相关性B、r来自p工0的总体C、r来自p = 0的总体D r与总体相关系数p差数为0E、r来自p>0的总体8、计算线性相关系数要求()A. 反应变量Y呈正态分布,而自变量X可以不满足正态分布的要求B. 自变量X呈正态分布,而反应变量丫可以不满足正态分布的要求C. 自变量X和反应变量丫都应满足正态分布的要求D. 两变量可以是任何类型的变量E. 反应变量Y要求是定量变量,X可以是任何类型的变量9、对简单相关系数r进行检验,当检验统计量t r>t 0.05(V)时,可以认为两变量x 与丫间()A. 有一定关系B. 有正相关关系C. 无相关关系D. 有直线关系E. 有负相关关系10、相关系数反映了两变量间的()A、依存关系B、函数关系C、比例关系D相关关系E、因果关系11、|r| “0.05/2,(2)时,则在G =0.05水准上可认为相应的两变量X、丫间()。
简单回归分析和相关分析
i 與 j 的共變數為0,即任何兩組殘差項 i 與 j 間無關。 Cov( i , X ) 0 或 E( i X ) 0
即任何一組殘差項 i 與 X 無關。 X 為一固定變數或事前決定之變數,Y 為一隨機變數。
〗
〗
〗
〗
〗
〗 〗
〗
〗
〗
〗
〗
〗
〗
〗
〗
〗
〗
〗
〗 〗
〗
〗
〗
〗
〗
〗
〗 〗
X 44
表7 判定係數的計算
Xi 300 400 500 500 800 1,000 1,000 1,300 總和
Yi 9,500 10,300 11,000 12,000 12,400 13,400 14,500 15,300
(Yi Y )2 7,840,000 4,000,000 1,690,000
〗
〗 〗
〗 〗
〗
〗
〗〗
〗
〗
〗 〗
〗
〗
〗
〗
〗
〗 〗
〗
〗 〗 〗 〗
〗
〗
〗
〗
〗
〗
〗 〗
〗
〗 〗
〗 〗
〗
〗
〗
〗
〗
〗 〗
箇 代 y
34
圖23 時間序列相關
y y
〗 〗
〗 〗
〗 〗
〗 〗
〗 〗
〗 〗
〗
〗
〗
〗
丁t 35
医学统计学习题
医学统计学习题《医学统计学》习题集第一章绪论1.下面的变量中,属于分类变量的是( B )。
A.脉搏B.血型C.肺活量D.红细胞计数E.血压2.某人记录了50名病人体重的测定结果:小于50kg 的13人,介于50kg 和70kg间的20人,大于70kg的17人,此种资料本属于( A )。
A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料第二章定量资料的统计描述1.欲比较身高(cm)和体重(kg)哪个指标变异程度大,应采用(D )。
A.标准差B.极差C.四分位数间距D.变异系数2.已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,>20,其潜伏期的平均水平约为( B )天。
A.9B.9.5D.10.2E.113.调查测定某地107名正常人尿铅含量(mg/L)如下:尿铅0~ 4~ 8~ 12~ 16~ 20~ 24~ 28~ 合计含量例数14 22 29 18 15 6 1 2 107 (1)描述该资料的集中趋势,宜用( B )。
A.均数B.中位数C.几何均数D.极差(2)描述该资料的离散趋势,宜用( C )。
A.极差B.变异系数C.四分位间距D.标准差第三章定性资料的统计描述1.某医院某年住院病人中胃癌患者占5%,则( B )。
A.5% 是强度指标B. 5% 是频率指标C. 5% 是相对比指标D. 5% 是绝对数2.某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( D )。
A.该病男性易得B.该病女性易得C.该病男性、女性易患程度相D.尚不能得出结论3.一项新的治疗方法可延长病人的生命,但不能治愈该病,则最有可能发生的情况是( A )。
A.该病的患病率增加B.该病的患病率减少C.该病的发病率增加D.该病的发病率减少4.某市有30万人口,2002 年共发现2500名肺结核患者,全年总死亡人数为3000,其中肺结核死亡98人,要说明肺结核死亡的严重程度,最好应用()。
简单回归分析
Simple linear regression analysis
本章内容
第一节 简单线性回归 第二节 线性回归的应用
第一节 简单线性回归
双变量计量资料:每个个体有两个变量值
总体:无限或有限对变量值
样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关
XY
46.02 33.11 27.81 14.88 33.60
232.61 76 23.87 / 8 764 762 / 8 5.8450 0.1392 42
X SX / n 76 / 8 9.5
20.48 Y SY / n 23.87 / 8 2.9838
线性回归的概念及其统计描述
直线回归的概念
目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系
回归
回归描述的是通过自变量的数值反应因变量的平均水 平。因此可以通过可测或易测的变量估计难测或不 可测变量的状态。
例如:通过体重估计体表面积; 通过身高、体重、肺活量估计心室血输出 量、体循环总血量; 本章只涉及一个自变量的回归问题
b
SXY SX SY / n l XY 2 l XX SX 2 SX / n
编号 1 2 3 4 5 6
年龄X 肌酐Y
13 11 9 6 8 10 3.54 3.01 3.09 2.48 2.56 3.36
X2
169 121 81 36 64 100
Y2
12.53 9.06 9.55 6.15 6.55 11.29
12 简单回归分析
t Value 30.17 14.58
Pr > |t| <.0001 <.0001
以y为应变量、x1为自变量的回归分析结果: The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Mean DF Squares Square 1 432.56864 432.56864 48 67.00397 1.39592 49 499.57261 1.18149 23.97720 4.92755 R-Square Adj R-Sq 0.8659 0.8631
第十二章 简单回归分析 [教学要求] 了解: 总体回归线的 95%置信带与个体预测值 Y 的区间估计; 可线性化的非线性回归的基 本步骤。 熟悉:总体回归系数 β 的统计推断;残差与残差分析。 掌握:回归分析的基本思想与方法;回归的基本概念;回归系数检验的意义与方法;相关 与回归分析的区别与联系。 [重点难点] 第一节 简单线性回归 一、回归模型的前提假设:线性(linear)、独立(independent)、正态(normal)与等方差(equal variance)。 二、最小二乘原则:求解回归方程中参数估计量 a 和 b 值所遵循的策略:使回归残差平方 和达到最小;在最小二乘原则下所获得回归参数的估计量称为最小二乘估计。 三、总体回归系数 β 的统计推断 (一) 标准估计误差(standard error of estimate) 为回归方程所得估计值的标准 离差,
16. 5
16. 0
15. 5
15. 0
14. 5
14. 0
13. 5
13. 0 0. 6 0. 7 0. 8 0. 9 x 1. 0 1. 1 1. 2
初中数学 如何进行数据的回归分析
初中数学如何进行数据的回归分析
在初中数学中,进行数据的回归分析通常是通过简单线性回归来进行的。
简单线性回归通常包括以下几个步骤:
1. 收集数据:首先,需要收集一组相关数据,通常是两组数据,一组作为自变量(x),另一组作为因变量(y)。
2. 绘制散点图:将收集到的数据绘制成散点图,以观察数据的分布情况和可能的线性关系。
3. 计算相关系数:计算自变量和因变量之间的相关系数,来衡量两组数据之间的线性关系强弱。
4. 拟合直线:利用最小二乘法,拟合一条直线来表示两组数据之间的线性关系,这条直线称为回归线。
5. 预测数值:利用回归线,可以进行数值的预测,例如根据一个自变量的数值,预测对应的因变量的数值。
这些是初中数学中常见的进行数据回归分析的步骤,希望能帮助你更好地理解。
如果有任何问题,请随时提出。
第12章 简单回归分析
II型回归
基础代谢 (KJ/day)
5800 5300 4800 4300 3800 3300 2800 30 35 40 45 50 55 60 65 70 75
体重 (kg)
图12-1 14例中老年健康妇女的基础代谢与体重的回归直线
I型回归
表12-1 不同IgG浓度下的沉淀环直径数据
IgG浓度(IU/ml ) X 沉淀环直径(mm ) Y
SYˆ SY X
p
1 n
( X p X )2 l XX
(12-15)
Y | X 的(1- )置信区间为
p
ˆ t Y ˆ p / 2, n 2 SY
(12-16)
p
SYˆ SY X
1
1 ( X1 X )2 1 (50.7 55.5143 ) 2 165 .1311 49.9991 n l XX 14 1144 .5771
线性回归模型(linear regression model):
Y | X X
:截距(intercept)
β:斜率(slope),又称回归系数 (regression coefficient)
样本线性回归方程(regression equation) :
ˆ a bX Y
第十二章
简单回归分析
郝元涛 2008.11.04
引言:
身高与体重存在相关(相关关系)
可否通过身高预测体重的平均水平?
新生儿的体重与体表面积存在相关
可否通过体重预测体表面积?(依存关系)
线性回归(linear regression),又称简单回归
(simple regression),
简单回归系数
简单回归系数
简单回归系数是一种用于描述自变量和因变量之间线性关系的统计指标。
在简单线性回归模型中,自变量$x$和因变量$y$之间的关系可以表示为$y=a+bx$,其中$a$是截距,$b$是回归系数。
回归系数$b$表示自变量$x$每增加一个单位时,因变量$y$的平均变化量。
具体来说,如果回归系数为正数,则表示当自变量增加时,因变量也会增加;如果回归系数为负数,则表示当自变量增加时,因变量会减少;如果回归系数为零,则表示自变量和因变量之间没有线性关系。
简单回归系数的计算通常基于最小二乘法,通过最小化残差平方和来确定回归系数的值。
具体计算公式为:
$b=\frac{\sum_{i=1}^{n}(x_i-x_0)(y_i-y_0)}{\sum_{i=1}^{n}(x_i-x_0)^2}$
其中,$x_i$和$y_i$分别表示第$i$个观测值的自变量和因变量的值,$x_0$和$y_0$分别表示自变量和因变量的平均值。
简单回归系数在统计分析和数据建模中具有重要的应用。
它可以用于预测和解释自变量和因变量之间的关系,评估变量的重要性,以及进行假设检验和推断。
通过了解回归系数的大小和正负,可以帮助我们更好地理解自变量对因变量的影响程度,并做出相应的决策和预测。
选修12回归分析的基本思想及其初步应用
分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量.
yˆ = 0.849x - 85.172 身高172cm女大学生体重
yˆ = 0.849×172 - 85.712 = 60.316(kg)
3.通过探究栏目引入“线性回归模型”。此处可以引 导学生们体会函数模型与回归模型之间的差别。
(xi - x)(yi - y)
r=
i=1
n
n
(xi - x)2 (yi - y)2
i=1
i=1
• 2.相关系数的性质
• (1)|r|≤1.
• (2)|r|越接近于1,相关程度越大;|r|越接 近于0,相关程度越小.
• 问题:达到怎样程度,x、y线性相关呢?它 们的相关程度怎样呢?
负相关
正相关
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
450
· ··
400
·
350 · · ·
300
施化肥量
解: 1.画出散点1图0 20 30
40 50
x
2.求出b = 4.75, a = 256.79
3.写出回归方程 yˆ = 4.75x + 256.79
---线方程;其中
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
2.相应的直线叫做回归直线。
简单线性回归分析
注意:对于服从双变量正态分布的同样一组资料,若 同时做了相关分析和回归分析,则相关系数的 t 检验 与回归系数的 t 检验等价,且 t r = t b 。
3. 总体回归系数的区间估计:
b ± tα / 2,υ S b
0.1584±2.074×0.0246=(0.1074,0.2095)
(三)线性回归分析的前提条件: LINE
1.回归模型的方差分析:
总变异的分解:
Y P
ˆ Y −Y
Y −Y
ˆ Y −Y
Y
Y
X
图10-3
Y的总变异分解示意图
ˆ − Y )2 + ∑ (Y − Y )2 ˆ ∑ (Y − Y ) = ∑ (Y
2
SS 总 = SS 回归 + SS 残差
ν总 = n −1
ν 回归 = 1
ν 残差 = n − 2
X1 )
X2)
22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0
X3)
69 79 59 73 92 83 57 67 83 65 58 68
X4)
2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
1. 线性(linear):反应变量与自变量的呈线
性变化趋势。
2. 独立性(independence):任意两个观察值
相互独立,一个个体的取值不受其他个体的 影响。
前提条件(续):
3. 正态性(normal distribution):在给定
值X时,Y的取值服从正态分布
4. 等方差性(equal variance): 对应于不
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b 的统计学意义是:X 每增加(减)一 个单位,Y 平均改变b个单位
16
回归模型的前提假设
线性回归模型的前提条件是:
18
19
回归参数的估计 ——最小二乘原则
➢ 残差(residual)或剩余值,即实测值Y与假定回 归线上的估计值 的Yˆ纵向距离 Y。Yˆ
➢ 求解a、b实际上就是“合理地”找到一条能 最好地代表数据点分布趋势的直线。
原则:最小二乘法(least sum of squares),即可 保证各实测点至直线的纵向距离的平方和最小
38
式中 F
SS回 SS残
回 残
MS回 MS残
,
回
1,
残
n2
MS回 为回归均方 MS残 为残差均方。 F 服从自由度为回、 残 的F 分布。
SS回
blXY
l
2 XY
lXX b2lXX
39
么么么么方面
Sds绝对是假的
t 检验
对 0 这一假设是否成立还可进行如下 t 检验
tb
b0 Sb
线性(linear) 独立(independent) 正态(normal) 等方差(equal variance)
17
公式(12-2)称为样本回归方程,它 是对两变量总体间线性关系的一个估计。 根据散点图我们可以假定,对于 X 各个取 值,相应Y 的总体均数 Y|X 在一条直线上
(图 12-2),表示为 Y|X X
水准同样得到总体回归系数不为 0 的结论,
即用区间估计回答相同 时的假设检验问题。
49
第二 节 线性回归的应用(估计和预测)
1.总体均数 Y|X 的可信区间(总体
回归线的 95%置信带)
给定 X 的数值 X 0 ,由样本回归 方 程 算 出 的Yˆ0 只 是 相 应 总 体 均 数 Y | X0 的一个点估计。Yˆ0 会因样本而 异, 存在抽样误差。
均数YY 是固定的,所以这部分变异由Yˆi 的大小不同引起。
当 X 被引入回归以后,正是由于Xi 的不同导致了 Yˆi a bXi 不同,所以SS回 反映了在 Y 的总变异中可以用 X 与 Y 的直线关系解释的那部分变异。
b 离 0 越远,X 对 Y 的影响越大,SS回 就越大,说明 回归效果越好。
总变异 回归 残差
1 1 、2 6 ,查F 界值表,得P 0.01 。按 0.05 水准拒绝 H0 ,接受H1 ,可以认为尿肌酐含量与年龄之间有直线关系。
44
(2)t 检验
参数β的意义是:若自变量X增加一个单位,反应变量Y的平均 值便增加β
b
tb Sb
tb
6.98020 0.78655
3
历史背景:
英国人类学家 F.Galton首次在《自然遗传》一 书中,提出并阐明了“相关”和“相关系数”两 个概念,为相关论奠定了基础。其后,他和英国 统计学家 Karl Pearson对上千个家庭的身高、臂长、 拃长(伸开大拇指与中指两端的最大长度)做了
测量,发现:
4
儿子身高(Y,英寸)与父亲身高(X,英
27
总体回归系数β的的统计推断
样本回归系数b的标准误
sb
s y.x
n
(Xi X )2
i1
sy.x
n
(Yˆi Yi )2
i 1
n2
sy.x
3.24917 13
0.24994 0.49994
sb
s y.x
0.49994 0.78655
n
(Xi X )2
0.404
i1
28
回归方程的假设检验 建立样本直线回归方程,只是完成了
第12章
简单回归分析
Simple linear regression analysis
1
本章内容
第一节 简单线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非线性回归
2
第一节 简单线性回归
双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关 简单、基本——直线回归、直线相关
13
简单线性回归模型
Yi X i i
样本线回归方程
Yˆ a bX (12 1)
Yˆ为各X处Y的总体均数的估计。
14
1.a 为回归直线在 Y 轴上的截距 ➢ a > 0,表示直线与纵轴的交点在原
点的上方 ➢ a < 0,则交点在原点的下方 ➢ a = 0,则回归直线通过原点
15
2. b为回归系数,即直线的斜率
b t ,n2 Sb
47
本 例 b=-6.9802, 自 由 度 =13 , t0.05,13=2.16 , Sb=0.78655, 代入公式(12-7)得参数β的95% 置信区间为
6.9802 2.16 0.78655
=(-8.6791 ~ -5.2813)
48
注意到此区间不包括 0,可按 0.05
(Y Y )2 (Yˆ Y )2 (Y Yˆ)2
数理统计可证明:å (Yˆ -Y )(Y - Yˆ) = 0
34
上式用符号表示为
SS总 SS回 SS残
式中
SS总 即 (Y Y)2 ,为 Y 的离均差平方
和,表示未考虑X 与Y 的回归关系时Y 的 总变异。
35
SS回 即(Yˆ Y)2 ,为回归平方和。由于特定样本的
,
n
2
Sb
SY X lXX
SY X
SS残 n2
41
检验例12-1数据得到的 直线回归方程是否成立?
42
(1)方差分析
H0 : 0 ,即凝血酶浓度与凝血时间)之间无直线关系 H1 : 0 ,即凝血酶浓度与凝血时间数据之间有直线关 系
0.05
43
方差分析表
变异来源 自由度 SS MS F P
20
回归参数的估计方法
b lXY lXX
(X X )(Y Y ) (X X )2
a Y bX
式中 lXY 为 X 与 Y 的离均差乘积和:
lXY
(X
X
)(Y
Y
)
XY
(
X )(Y) n
21
本例:n=15 ΣX=14.7 ΣX2=14.81 ΣY=224
ΣXY=216.7 ΣY2=3368
10
在定量描述健康人凝血酶浓度(X)与凝血 时间(Y)数据的数量上的依存关系时,将凝 血酶浓度称为自变量(independent variable), 用 X 表示;凝血时间称为应变量(dependent variable),用 Y 表示
11
12
由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈 直线趋势,但并非所有点子恰好全都在一直线上,此与两 变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直 线方程。回归是回归分析中最基本、最简单的一种,故又 称简单回归。
寸)存在线性关系:
。
也Y即ˆ 高 个33子.7父3代的0.子51代6在X成年之后的身高平均来说不
是更高,而是稍矮于其父代水平,而矮个子父代的子代的
平均身高不是更矮,而是稍高于其父代水平。Galton将这 种趋向于种族稳定的现象称之“回归”
5
“回归”已成为表示变量之间某种数量依存 关系的统计学术语,相关并且衍生出“回归方 程”“回归系数”等统计学概念。如研究糖 尿病人血糖与其胰岛素水平的关系,研究儿 童年龄与体重的关系等。
8.87
13,查 t 界值表,得 P 0.001。按 0.05
水准,拒绝 H0 ,接受 H1 。
45
注意:
F t ,即直线回归中对回归系 数的 t 检验与 F 检验等价,类似于两 样本均数比较可以作 t 检验亦可作方 差分析。
46
总体回归系数 的可信区间
利用上述对回归系数的t检验,可以得 到β的1-α双侧可信区间为
24
解题步骤
1.由原始数据及散点图观察两变 量间是否有直线趋势
2.计算 X 、Y 的均数 X 、Y ,离均 差平方和 l XX 、 lYY 与离均差积和 l XY 。
25
3、计算有关指标的值 4、计算回归系数和截距 5、列出回归方程
26
绘制回归直线
此直线必然通过点( , X)且Y与纵坐标轴相交于 截距a 。如果散点图没有从坐标系原点开 始,可在自变量实测范围内远端取易于读 数的 值代入回归方程得到一个点的坐标, 连接点与点( , )也可绘X 出Y回归直线。
36
SS残 即 (Y Yˆ)2 ,为残差平方和。它反应除
了 X 对 Y 的线性影响之外的一切因素对Y 的变 异的作用,也就是在总平方和中无法用X 解释 的部分,表示考虑回归之后Y 真正的随机误差。 在散点图中,各实测点离回归直线越近,SS残 也 就越小,说明直线回归的估计误差越小,回归 的作用越明显。
9
No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 1.1 1.0 0.7 Y 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17
i 1
代X入 0(.9812.8)式获得
第一观测点X1对应的 的标准误为 Yˆ1
0.1599 Y的总S体yˆ1 均0.4数999的4 91515% 置(1.10信.400.区948)2间 为