用经典的回归模型进行统计控制的问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1002—1566(2005)05—0064—04
经典的用回归模型进行统计控制中的问题
孙尚拱,何平平
(北京大学卫生统计教研室,北京,100083)
摘要:利用回归模型进行统计控制,在实际工作中一直得到广泛应用。通常采用的方法是利用回
归模型^y=a+bx进行逆估计,即根据回归模型的变换x=(^y-a)/b,由应变量Y的取值范围反推
自变量X的取值范围。本文指出这种方法是很不合理的;进一步提出二种相对合理取代的统计方
法。
关键词:回归模型;统计控制
中图分类号:O212文献标识码:A
Problem of Traditional Statistical Control in Regression Model
SUN Shang-gong,HE Ping-ping
(Department of Health Statistical,Peking University100083)
Abstract:Statistical control in regression model has been applied widely in practice.It is an usual method to estimate reversely in regression model^y=a+bx.That is to say,according to the inverse form of regression model x=(^y-a)/b,we can deduce the range of independent variable X from the range of dependent variable Y.But the method is not logical in statistics.The article oppugns the method of traditional statistical control by theory of and furnish two methods to substitute traditional method.
Key words:regression model;statistical control
回归模型的应用中有两个方面:统计预测(statistical forecast)和统计控制(statistical con-trol)。所谓预测就是根据回归模型^y=a+bx,把自变量x代入回归模型对应变量Y进行估计,其波动范围可按求个体Y值置信区间方法计算。统计控制则正好与此相反。统计控制中的常用方法是利用回归模型进行逆估计,即根据回归模型的变换x=(^y-a)/b,由应变量y的取值范围反推自变量x的取值范围。
目前国内外文献及书籍中,基本上都是上述的逆推理法[1],[2],[3],[4]。本文对传统的利用回归模型进行统计控制的理论提出质疑;通过实例,说明了传统方法在理论及实用中都是不妥的。
1 用回归模型的逆推理做统计控制存在理论上的问题
记应变量Y对自变量X的直线回归模型为
^y=a+bx(1)
今要求应变量Y只能在给定的范围内波动,试求自变量X的取值范围。经典做法:由(1)解出
x=(^y-a)/b(2)
收稿日期:2004年03月10日
把应变量Y的取值范围代入(2)中的^y,再反推自变量X的取值范围。
实例分析[5]
美国某家医院为了预测低出生体重(出生体重≤2500g),现收集一组数据用于建立预报公式。测量31名临产孕妇的尿中雌三醇浓度(Estriol,mm/24hr)以及此后出生的婴儿体重(Birthwei,单位:g/100)。测得数据如下:
雌三醇浓度(mm/24hr):
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15 16 17 25 27 15 15
15 16 19 18 17 18 20 22 25 24
出生体重(g/100,与上顺序对应):
25 25 25 27 27 27 24 30 30 31 30 31 30 28 32 32 32 32 34 34 34 35 35 34 35 36 37 38 40 39 43
问题:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?
根据传统的方法是以Estriol为自变量(x),Birthwei为应变量(y),建立线性回归模型:Birthwei的估计值=21.523+0.608×Estriol(3)
残差标准差s
e
=3.8211,l xx=677.42,-x=17.2258。
把Birthwei=25代入回归模型(3)式,得
25=21.523+0.608×Estriol
解得雌三醇浓度值为
Esriol=5.7178(mm/24hr)
一般预测法就是:当孕妇尿中雌三醇浓度≤5.7178mm/24hr时,就预测出生婴儿体重会低于2500g。
问题:(1)如上述问题中的y是正态随机变量(单纯的拟合时,回归问题可用于非随机变量)时,上结果能给出把握度(概率)吗?一般是没有也不考虑的。如果考察概率,我想,按回归理论应计算Estriol=5.7178(mm/24hr)时应变量Birthwei的置信区间,即根据下面公式估计
Birthwei(y
)的95%置信区间(双侧):
^y 0±t
31-2
se(^y
)其中se(^y
)=s
e
1+1/n+(x
-x)2/l
ヘxx
根据此公式,Estriol=5.7178(mm/24hr)时Birthwei的95%置信区间为:
25±2.045×3.8211+1/31+(5.7178-17.2258)2
ヘ/677.42=(16.3418,33,6582)
此结果表明:当Estriol>5.7178(mm/24hr)时,Birthwei值低于2500克的机会近似于50%,换句话说,Birthwei值高于是2500克的机会也只有50%!此结果对于预测低出生体重能有什么实际意义?
问题(2)上述的逆推理法求自变量(x)的值合理吗?即我们能否把回归公式当作普通的数学式子:比如1+2=3,自然的有2=3-1那样逆推?答案应是否定的。理由是^y=a+bx中,
(a,b)是按下述代数学原理求出:Σ(y
i -^y
i
)2=min
注意此公式仅考虑‘用x去拟合y’,而不是同时拟合(x,y)。也就是说,回归公式的使用只能是单向的,它不应该当作‘1+2=3,自然的2=3-1’那样的可以双向使用!
2 合理的统计方法
根据回归理论,上述实例应把Estriol作为应变量(仍记x),而以Birthwei为自变量(仍记