正态分布区间估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总体均数的区间估计(单侧)
•σ未知但样本例数n足够大(n>50)时:
通式: X Z SX X Z SX
•σ已知,按标准正态分布原理计算:
通式: X Z X X Z X
总体均数的可信区间(SAS实现)
(1)t 分布法 SAS函数:TINV t=TINV(p,df) 求t分位数的函数,p 是从-∞到当前t分位数位置的面积。 df=n-1(自由度)
Output语句注解
语句格式: OUTPUT OUT=数据集名 [统计关键字=变量 名]
功能: 将过程结果输出到一个新SAS数据集。
方法2(正态分布近似法)
某市2000年随机测量了90名19岁健康男大 学生的身高,均数为172.2cm,标准差为 4.5cm,试估计该市当年19岁健康男大学 生平均身高95%置信区间。
抽样分布的特点
各样本均数未必等于总体均数; 样本均数之间存在差异; 样本均数的分布很有规律:围绕总体均数,
中间多两边少,左右基本对称; 样本均数的变异范围较之原变量的变异范
围大大缩小;随着样本含量的增加,样本 均数的变异范围逐渐缩小。
抽样误差
由于总体中个体变异的存在,在抽样过程中 产生的样本统计量与总体参数间的差异称为 抽样误差。
a/2
a/2
p(t / 2,v
X
SX
-ta/2,v
t / 2,v ) 1
ta/2,v
p( X t / 2,v S X X t / 2,v S X ) 1
通式:X t /2,vSX (双侧)
95%双侧置信区间:X t0.05/2,vSX , X t S 0.05/2,v X
参数估计
参数估计:由已知的样本统计量推断总体 参数。
参数估计:点估计和区间估计; 区间估计:
假设某个总体的均数为µ,需要找到 两个数值A和B,使得在一个比较高的可信 度下(如95%),区间(A,B)能包含µ。即
P(A<µ<B)=0.95
总体均数µ的区间估计
由于总体情况未知,要计算总体参数µ
例:随机抽取15名学生,记录他们的性别 (sex)、年龄(age)、体重(w)和身高 (h),求:学生身高的95%置信区间。
f 15 46 156 f 14 41 149 f 18 65 165 m 15 50 160 m 13 48 155 m 18 70 180 m 14 38 150 m 16 55 165 m 17 68 176 m 16 60 170 f 17 50 160 f 17 58 160 f 16 60 165 m 17 65 175 f 18 61 162
σ已知,按标准正态分布原理计算
p(z / 2 z z / 2 ) 1 a/2
a/2
p( z / 2
X X
-za/2
z / 2 ) 1
za/2
p( X z / 2 X X z / 2 X ) 1
通式:X Z /2 X (双侧)
95%双侧置信区间:X 1.96 X , X 1.96 X
率的标准误
样本频率
p X n
总体均数参数为π,
标准差为
p
1
n
Sp
p(1 p) n
总体概率的置信区间
估计方法: 查表法:当样本含量n较小,比如n 50
data a; input sex$ age w h @@; cards; f 15 46 156 f 14 41 149 f 18 65 165 m 15 50 160 m 13 48 155 m 18 70 180 m 14 38 150 m 16 55 165 m 17 68 176 m 16 60 170 f 17 50 160 f 17 58 160 F 16 60 165 m 17 65 175 f 18 61 162 ;
σ未知但样本例数n足够大(n>50)时
由t分布可知,自由度越大,t分布越逼近标准 正态分布,按标准正态分布原理计算
通式:X Z /2SX (双侧)
95%双侧置信区间:X 1.96SX , X 1.96SX
总体均数的区间估计(单侧)
•σ未知且样本例数n较小时,按t分布原理:
通式: X t ,vS X X t ,vS X
标准误
样本统计量的标准差称为标准误。
样本均数的标准差称为样本均数的标准误, 反映样本均数的离散程度,反映样本均数 抽样误差大小。
x
n
sx
s n
t分布
设从正态分布N(,2)中随机抽取含量为n的
样本,设:
X
~
N
(
,
2 X
)
z变换
z
X
~
N (0,1)
X
实际工作中,总体方差未知,用样本方差
的置信区间,必须依靠样本统计量进行
推断。 X X
样本t 是从总体中抽样获得,因此不可避 免存在抽s样X误差。s n
因此计算总体参数的置信区间时,必须
利用样本统计量,同时考虑抽样误差和
可信的程度(1-α)。
σ未知且样本例数n较小时,按t分布原理计算
p(t / 2,v t t / 2,v ) 1
proc means;
var h; Output out=b mean=mean std=s n=n; data c; set b; t=tinv(0.975,n-1); /*也可使用t=tinv(0.025,n-1);但此时计算出来的t界
值为负数。*/ yl=mean-t*s/sqrt(n); /*可信区间的下限*/ y2=mean+t*s/sqrt(n); /*可信区间的上限*/ proc print; run;
代替此时:
X X
t
~ t分布, = n 1
sX
sn
t分布曲线
单峰分布,曲线以0为中心,左右对称类 似于标准正态分布。
t分布的形状与自由度有关
1-α
-tα/2,v
tα/2,v
双侧:P(t≤-tα/2,ν)+ P(t≥tα/2,ν)=α P(-tα/2,ν < t <tα/2,ν) = 1-α
data aa; input x s n; y1=x-1.96*s/sqrt(n); /*可信区间的下限*/ y2=x+1.96*s/sqrt(n); /*可信区间的上限*/ cards; 172.2 4.5 90 ; proc print; run;
样本频率的抽样误差
随机变量 X ~ B(n,)
相关文档
最新文档