正态分布、区间估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

p ( zα / 2 < z < zα / 2 ) = 1 α p ( zα / 2 < X
a/2 -za/2
a/2 za/2
σX
X
< zα / 2 ) = 1 α
p ( X z α / 2σ
< < X + z α / 2σ X ) = 1 α
通式:X ± Zα / 2σ X (双侧 )
Output语句注解 语句注解
语句格式: 语句格式: OUTPUT OUT=数据集名 [统计关键字 变量 统计关键字=变量 数据集名 统计关键字 名] 功能: 功能: 将过程结果输出到一个新SAS数据集。 数据集。 将过程结果输出到一个新 数据集
方法2(正态分布近似法) 方法 (正态分布近似法)
data a; input sex$ age w h @@; cards; f 15 46 156 f 14 41 149 m 15 50 160 m 13 48 155 m 14 38 150 m 16 55 165 m 16 60 170 f 17 50 160 F 16 60 165 m 17 65 175 ;
样本频率的抽样误差
随机变量 X ~ B(n,π) ( 样本频率
率的标准误
X p= n
总体均数参数为π, 标准差为 σ = π (1 π )
p
n
Sp =
p(1 p) n
总体概率的置信区间
估计方法: 估计方法: 较小, 查表法:当样本含量n较小 比如n 查表法:当样本含量 较小,比如 ≤ 50 正态近似法: 足够大, 正态近似法: 当n足够大,且样本频率 和(1p) 足够大 且样本频率p和 ) 均不太小时, 均不太小时,如np与n(1p) 均大于 与 均大于5
实验三、 实验三、参数估计
抽样分布的特点
各样本均数未必等于总体均数; 各样本均数未必等于总体均数 样本均数之间存在差异; 样本均数之间存在差异 样本均数的分布很有规律:围绕总体均数, 样本均数的分布很有规律:围绕总体均数, 中间多两边少,左右基本对称; 中间多两边少,左右基本对称; 样本均数的变异范围较之原变量的变异范 围大大缩小;随着样本含量的增加,样本 围大大缩小;随着样本含量的增加, 均数的变异范围逐渐缩小。 均数的变异范围逐渐缩小。
p ( X tα / 2 , v S X < < X + tα / 2 , v S X ) = 1 α
通 : ± tα / 2,vSX (双 ) 式 X 侧
95 双 置 区 : t0.05/ 2,vSX , X + t0.05/ 2,vSX ) % 侧 信 间 (X
σ已知,按标准正态分布原理计算 已知, 已知
95%双侧置信区间 ( X 1.96σ X , X +1.96σ X ) :
σ未知但样本例数 足够大(n>50)时 未知但样本例数n足够大 未知但样本例数 足够大( > )
分布可知, 由t分布可知,自由度越大,t分布越逼近标准 分布可知 自由度越大, 分布越逼近标准 正态分布, 正态分布,按标准正态分布原理计算
data aa; input x s n; y1=x-1.96*s/sqrt(n); /*可信区间的下限 可信区间的下限*/ 可信区间的下限 y2=x+1.96*s/sqrt(n); /*可信区间的上限 可信区间的上限*/ 可信区间的上限 cards; 172.2 4.5 90 ; proc print; run;
2 正态近似法
例5-8 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者 例,检出率为 名 检出乳腺癌患者94例 78.3%。估计该仪器乳腺癌总体检出率的 。估计该仪器乳腺癌总体检出率的95% 置信区间。 置信区间。 比较大, 均大于5, 解: n比较大,且np = 94及n(1p) = 26均大于 , 比较大 及 均大于 所以可用正态近似法估计总体概率的置信区间。 所以可用正态近似法估计总体概率的置信区间。
某医院对39名前列腺癌患者实施开放 例5-6 某医院对 名前列腺癌患者实施开放 手术治疗,术后有合并症者2人 手术治疗,术后有合并症者 人,试估计该手 术合并症发生概率的95%置信区间。 置信区间。 术合并症发生概率的 置信区间 解:查附表6,n = 39,X=2,交叉处的数值为 查附表 , , , 1~17,即该手术合并症发生概率的 ,即该手术合并症发生概率的95%置信区 置信区 间为1% ~ 17%。 间为 。
作业
P83 6题 7题
6. 某研究表明新研制的一种安眠药比旧安眠药增加睡 眠时间。 眠时间。某医师从已确诊的神经衰弱病人中随机抽取了 两份样本, 一份样本是20例病人服用该种新药 例病人服用该种新药, 两份样本 一份样本是 例病人服用该种新药,计算得 到平均睡眠时间为6.39小时 标准差为 小时, 小时; 到平均睡眠时间为 小时 标准差为2.24小时 另一 小时 份样本是93例病人也服用该种新药 例病人也服用该种新药, 份样本是 例病人也服用该种新药,计算得到平均睡 眠时间为6.45小时 标准差为 小时, 小时。 眠时间为 小时 标准差为2.51小时。若睡眠时间服 小时 从正态分布, 从正态分布,试分别估计这种新安眠药的平均睡眠时间 置信区间; 的95%置信区间;并比较这两个区间有何不同,用哪 置信区间 并比较这两个区间有何不同, 一个估计总体参数更可靠? 一个估计总体参数更可靠? 7. 为了解中年男性高血压患病情况,某研究单位在某 为了解中年男性高血压患病情况, 市城区随机调查了45~54岁男性居民 岁男性居民2660人,检查出 市城区随机调查了 岁男性居民 人 高血压病人775人,试估计该市中年男子高血压患病率 高血压病人 人 置信区间。 的95%置信区间。 置信区间
f 18 65 165 m 18 70 180 m 17 68 176 f 17 58 160 f 18 61 162
proc means; var h; Output out=b mean=mean std=s n=n; data c; set b; t=tinv(0.975,n-1); /*也可使用 也可使用t=tinv(0.025,n-1);但此时计算出来的 界 但此时计算出来的t界 也可使用 但此时计算出来的 值为负数。 值为负数。*/ yl=mean-t*s/sqrt(n); /*可信区间的下限 可信区间的下限*/ 可信区间的下限 y2=mean+t*s/sqrt(n); /*可信区间的上限 可信区间的上限*/ 可信区间的上限 proc print; run;
总体均数的区间估计(单侧)
σ未知但样本例数 足够大(n>50)时: 未知但样本例数n足够大 未知但样本例数 足够大( > )
通式: 通式: > X Zα SX
< X + Zα SX
σ已知,按标准正态分布原理计算: 已知,按标准正态分布原理计算: 已知
通式: 通式: > X Zασ X < X + Zασ X
X X t= = ~ t分布, ν = n 1 分布, sX s n
t分布曲线 分布曲线
单峰分布,曲线以0为中心 为中心, 单峰分布,曲线以 为中心,左右对称类 似于标准正态分布。 似于标准正态分布。 t分布的形状与自由度ν有关 分布的形状与自由度
1-α
-tα/2,v
tα/2,v
双侧: 双侧:P(t≤-tα/2,ν)+ P(t≥tα/2,ν)=α P(-tα/2,ν < t <tα/2,ν) = 1-α
p ± Zα / 2Sp = p ± Z0.05/ 2 p(1 p) n
0.783(1 0.783) = 0.783±1.96× 120 = 0.709 ~ 0.857
data aa; input p n; Sp=sqrt(p*(1-p)/n); y1=p-1.96*Sp; y2=p+1.96*Sp ; cards; 0.783 120 ; proc print; run; /*可信区间的下限*/ /* /*可信区间的上限*/ */
抽样误差
由于总体中个体变异的存在, 抽样过程中 由于总体中个体变异的存在,在抽样过程中 个体变异的存在 产生的样本统计量与总体参数间的差异称为 抽样误差。 抽样误差。
标准误
样本统计量的标准差称为标准误。 样本统计量的标准差称为标准误。 样本均数的标准差称为样本均数的标准误, 样本均数的标准差称为样本均数的标准误, 反映样本均数的离散程度, 反映样本均数的离散程度,反映样本均数 抽样误差大小。 抽样误差大小。
某市2000年随机测量了90名19岁健康男大 某市2000年随机测量了90名19岁健康男大 2000年随机测量了90 学生的身高,均数为172.2cm,标准差为 学生的身高,均数为172.2cm, 172.2cm 4.5cm,试估计该市当年19岁健康男大学 4.5cm,试估计该市当年19岁健康男大学 19 生平均身高95%置信区间。 生平均身高95%置信区间。 95%置信区间
通式:X ± Zα / 2SX (双侧 )
(X 95 %双侧置信区间: 1.96SX , X +1.96SX )
总体均数的区间估计(单侧)
σ未知且样本例数 较小时,按t分布原理: 未知且样本例数n较小时 未知且样本例数 较小时, 分布原理:
通式: > X tα,v SX
< X + tα,vSX
名学生, 例:随机抽取15名学生,记录他们的性别 随机抽取 名学生 )、年龄 )、体重 (sex)、年龄(age)、体重(w)和身高 )、年龄( )、体重( ) ),求 学生身高的95%置信区间。 置信区间。 (h),求:学生身高的 ), 置信区间 f m m m f 15 15 14 16 16 46 50 38 60 60 156 160 150 170 165 f m m f m 14 13 16 17 17 41 48 55 50 65 149 155 165 160 175 f m m f f 18 18 17 17 18 65 70 68 58 61 165 180 176 160 162
σ未知且样本例数 较小时,按t分布原理计算 未知且样本例数n较小时 未知且样本例数 较小时, 分布原理计算
p ( tα / 2 , v < t < tα / 2 , v ) = 1 α p ( tα / 2 , v
a/2 -ta/2,v
a/2 ta/2,v
X < < tα / 2 , v ) = 1 α SX
总体均数的可信区间(SAS实现) 总体均数的可信区间(SAS实现) (SAS实现
(1)t 分布法 SAS函数: SAS函数:TINV 函数 t=TINV(p,df) 求t分位数的函数,p 分位数的函数, 是从- 到当前t分位数位置的面积。 是从-∞到当前t分位数位置的面积。 df=n-1(自由度) df=n自由度)
某医生用某药物治疗31例脑血管梗塞 例5-7 某医生用某药物治疗 例脑血管梗塞 患者,其中25例患者治疗有效 例患者治疗有效, 患者,其中 例患者治疗有效,试求该药物 治疗脑血管梗塞有效概率的95%置信区间置 治疗脑血管梗塞有效概率的 置信区间置 信区间。 信区间。 解:n = 31,X = 25 > n/2,所以用 X = 6查 , ,所以用n 查 附表6,得8 ~38,即无效概率的95%置信区 附表 , ,即无效概率的 置信区 间为8% ~38%,因此有效概率的 间为 ,因此有效概率的95%置信 置信 区间为62% ~ 92%。 区间为 。
总体均数的区间估计
由于总体情况未知,要计算总体参数 由于总体情况未知,要计算总体参数 的置信区间, 的置信区间,必须依靠样本统计量进行 推断。 推断。 X X t= = 样本是从总体中抽样获得, 样本是从总体中抽样获得,因此不可避 s X 。s n 免存在抽样误差。 免存在抽样误差 因此计算总体参数的置信区间时, 因此计算总体参数的置信区间时,必须 利用样本统计量,同时考虑抽样误差 抽样误差和 利用样本统计量,同时考虑抽样误差和 可信的程度( 可信的程度(1-α)。
σx =
σ
n
s sx = n
t分布 分布
设从正态分布N( 中随机抽取含量为n的 设从正态分布 ,σ2)中随机抽取含量为 的 中随机抽取含量为 样本,设: 样本,
X ~ N ( , σ ) → z =
2 X z变换
X
σX
~ N (0,1)
ห้องสมุดไป่ตู้
实际工作中,总体方差未知, 实际工作中,总体方差未知,用样本方差 代替,此时: 代替,此时:
参数估计
参数估计: 参数估计:由已知的样本统计量推断总体 参数。 参数。 参数估计:点估计和区间估计; 参数估计:点估计和区间估计; 区间估计: 区间估计: 假设某个总体的均数为, 假设某个总体的均数为 ,需要找到 两个数值A和 ,使得在一个比较高的可信 两个数值 和B,使得在一个比较高的可信 能包含。 度下(如95%),区间 如 ,区间(A,B)能包含 。即 能包含 P(A<<B)=0.95
相关文档
最新文档