参数估计基础与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 2、标准误的概念 • 即样本均数的标准差, 是说明 均数抽样误差大小的指标。 • 标准误愈小, 表示抽样误差愈 小, 样本统计量对总体参数的估 计愈可靠,用x,或s x 表示。
• 2、标准误的计算 • • x= • n • s • sx= • n
(估计值)
• 3、标准误的应用 • 表示样本均数的散布情形,表示抽样误 差的大小,用以说明样本均数的可靠性;
• 6 . Poisson 分布是二项分布的极限形式 二项分布中,当π很小而n很大,nπ→μ时, 二项分布趋于Poisson分布。 • 7. Poisson分布的观察结果有可加性。 • 医学研究中常利用其可加性,将小的 观察单位合并,来增大发生次数X,以便 用后面讲到的正态近似法作统计推断。
• 二、总体参数的估计 • 由样本均数(样本计数)X估计总体均数 μ也有点(值)估计和区间估计,区间估 计的方法,需视样本计数(样本均数)X 的大小而定, X 小时用查表法, X 大时用 正态近似法。
• ( p - Z SP , p + Z SP )
• 在甲乡中, 为能了解其沙眼感染情况, 随机抽取 150人, 沙眼感染者80人, 试推断该乡沙眼感染 率95%置信区间。(1)若该乡有12000人, 则其沙 眼感染者下限为多少人? • P=80/150=0.53 Sp= 0.53(1-0.53)/150=0.04 • 95%置信区间: 0.53±1.96×0.04 • 下限为: 12000(0.53-1.960.04)=5442(人)
•
(2)若在乙乡中随机抽取200人, 沙眼感染者90 人, 问甲乙两乡沙眼感染情况有无不同?
Poisson分布的总体参数估计
• 一、Poisson分布的性质 • 1 . Poisson 分布是一种单参数的离散型分布, 其参数为 μ ,它表示单位时间或空间内某事件 平均发生的次数,又称强度参数。 • 2.Poisson分布的方差σ2与均数μ相等,即σ2=μ • 3.Poisson分布是非对称性的,在μ不大时呈偏 态分布,随着 μ 的增大,迅速接近正态分布。 一般来说,当μ=20时,可以认为近似正态分布, Poisson分布资料可按正态分布处理。
• 三、总体率的区间估计 • (一)查表法 • 当样本含量n较小,如n≤50,特别是p很 接近于0或1时,按二项分布的原理估计 总体率的置信区间。
• (二)正态近似法 • 当样本含量n足够大,且样本率p或1-p均 不太小,如np与n(1-p)均大于5时,样 本率p的抽样分布近似正态分布,总体率 π的置信区间可按下式估计
t分布曲线下面积(附表2)
双侧t0.05/2,9=2.262 =单侧t0.025,9 单侧t0.05,9=1.833 双侧t0.01/2,9=3.250 =单侧t0.005,9
单侧t0.01,9=2.821
双侧t0.05/2,∞=1.96 =单侧t0.025,∞ 单侧t0.05,∞ =1.64
t分布与z分布的面积示意图
4
5
正态总体N(155.4,5.32) 100份随机样本的计算结果(n=30)
• 95% CI意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如 95%可信区间, 意味着做100个可信区 间, 平均有95个可信区间包括总体均 数(估计正确), 只有5个可信区间不包 括总体均数(估计错误)。 •
•
a.区间估计的涵义: 有1-可能包含 总体均数在内的一个范围, 习惯上使用 95%与99%置信区间(confidence interval,CI)。
• 1-:可信度( confidence level)
162 160 158
1
3
155.4
156 154 152
2
150 148 146 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96
• • • •
(三)选定检验方法和计算统计量: t检验, U检验, 2检验等。 (四)确定P值: P值是指在由H0所规定的总体中作随机抽 样, 获得等于及大于(或等于及小于)现有 统计量的概率。
• 5.Poisson分布的图形 • Poisson分布的形状取决于μ的大小。 μ 值越小,分布越偏,随着 μ 的增大,分 布越趋于对称,当 μ=20 时,分布接近正 态分布,当 μ=50 时,可以认为 Poisson 分 布呈正态分布N(μ, μ),按正态分布处 理。 • Poisson 分布当总体均数值小于 5 时为 偏峰,愈小分布愈偏,随着增大,分布 趋向对称。
• • •百度文库• •
(三)均数可信区间与参考值的区别 思考题: (1)说出标准差和标准误的联系和区别。 (2)简述t分布与z分布的联系与区别。 (3)置信区间和正常值范围有何不同。
比较内容 意义
标准差
标准误
表示个体观察值的变异程 表示样本均数间的变异程度,说 度,说明观察值围绕样本均 明样本均数围绕总体均数的分散 数分散的指标 程度。
x ± u √x
假设检验
• 某医师观察某新药治疗肺炎的疗效,将 肺炎病人随机分为新药组和旧药组,得 两组的退热天数如下表
分 组 例数 35 平均退热 天数 3.8 退热天数的 标准差 0.8
新药
旧药
37
5.2
0.9
3.8≠5.2,可能原因有哪些?
两药退热效果是否一样?
假设检验的意义与步骤
• 一、假设检验(hypothesis testing)的概念 • 亦称显著性检验 • 所谓假设检验, 就是根据研究目的, 对 样本所属总体特征提出一个假设, 然后用 适当方法根据样本提供的信息, 推断此假 设应当拒绝或不拒绝. • 以使研究者了解在假设的条件下, 差异 由抽样误差引起的可能性大小, 便于比较 分析。
• 3、t界值 • t界值表, 横标目为自由度, 纵标目为 概率P, 表中数字表示自由度为, P为(检 验水准)时, t的界值, 常记为t,。理论上 • 单侧: P( t - t,)= , 或P(t t,)= • 双侧: P( t - t,)+P(t t,)= ; P( - t, < t < t,)= 1 -
• 二、一般步骤 • (一)建立假设:
• H0: 无效假设。即假设样本指标与总体指标, 或 样本与样本指标是相等的, 它们的差别是由抽 样误差引起的。 • H1: 备择假设。是与H0相对立的假设。 • (二)确定检验水准: 亦称显著性水准, 代号为 , 是一个接受或拒绝H0的概率标准。 • 常取 = 0.05或 = 0.01(单侧或双侧)
参数估计基础与假设检验
• 统计推断
参数 估计
假设 检验
授课教师: 马海燕
均数的抽样误差与标准误差
• 一、 均数的抽样误差与标准误(standard error) • 1、均数的抽样误差 • • • • • • • • n1=30, n2=30, n3=30, . . . n100=30, x1 x2 x3
x1 ≠x2 ≠ x3 … ≠ x100 ≠ (均数的抽样误差)
x100
样本均数间的变异程度
159 158 157 156 155 154 153 152 151 150 149 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
正态总体N(155.4,5.32) 100份随机样本的计算结果(n=30)
基本公式 s=(x - x)2/(n-1) 应用
sx=s/n
(1) 表示一组观察值之间 (1) 表示抽样误差的大小, 说明 的变异程度 样本均数的可靠性 (2) 计算均数的标准误 (2) 估计总体参数的可性区间 (3) 当 资 料 呈 正 态 分 布 (3) 进行总体参数的假设检验 时,结合均数估计 95%或 99%的观察值 所在范围
总体率的置信区间
• 一、二项分布的均数和标准差 • μp=π •
• σp=
(1 ) n
p(1 p) n
• sp=
• 二、二项分布的图形 • 二项分布的形状取决于π和n的大小,高 峰在=n处。当接近0.5时,图形是对 称的;离0.5愈远,对称性愈差,但随着 n的增大,分布趋于对称。当n→∞时,只 要不太靠近0或1,特别是当nP和n(1-P) 都大于5时,二项分布近似于正态分布。
固定n抽样
x
x- z=
X-N(,)
x- z= x
X-N(,X)
=1
0 标准正态分布示意图
z-N(O,1)
t = ( X - )/ sx
=(z分布) =5 =1
-4 -3
-2
-1
0
1
2
3
4
t分布示意图
• 2、 t分布的特征 • 与标准正态分布相比有以下特征: • a.二者都是单峰分布, 以0为中心, 左右对称; • b.t分布的峰部较矮而尾部翘得较高, 说明远 侧的t值的个数相对较多, 即尾部面积(概率P)较 大。 • 自由度越小这种情况越明显, 逐渐增大时, t 分布逐渐逼近标准正态分布; • 当=时, t分布就完全成为标准正态分布了, =n-1 。
﹡假设检验的基本原理
两 均 数 或 两 率 不 等
抽样误差所致 (来自同一总体) P>0.05
?
假设检验回答 P<0.05
环境条件影响 (来自不同总体)
• 原理:反证法思想 • 假设: = 0 ,由于抽样误差造成的可能 性有多大? • 若= 0 成立,可计算相应t或u值,若X 与0 相差较远, t或u值就大,P值小, 当P< (0.05或0.01),小概率事件。 • ——即在假设成立的条件下,抽样发生 的可能性小,怀疑假设成立的可能性。
2.5% 2.5% -t0.O5,n-1
-1.96
0 95% 95%
1.96
t0.O5,n-1
• 一位学生在某篇文献上看到以下叙述: “在95%的置信度下,美国年轻人在“全国 教育进展评估”中的平均分为267.8~ 276.2。”该学生认为,所有年轻人中, 95%的人得分在267.8 ~276.2之间。他的理 解正确吗?请给出答案。
• • 4.Poisson分布的累计概率 常用的有左 侧累计和右侧累计两种。单位时间或空 间内事件发生的次数 • 最多为k次的概率
P( X k ) P(0) P(1) P(k )
• 最少为k次的概率
P( X k ) P(k ) P(k 1) P(n) 1 P( X k 1)
• 可信区间的两个要素:
准确度 精密度
反映在可信度的大小
反映在区间的长度
• (二)区间估计的方法:
•
X - t/2, sx < <X + t/2, sx ;
• 95% CI(X- t0.05/2, sx ,X+ t0.05/2, sx )
• • 已知,X - z/2,x < <X + z/2,x ; • 未知,但n足够大 • X - z/2,sx < <X + z/2, sx
• • • • •
二、估计总体均数的估计 (一)置信区间的概念 总体均数的估计包括点值估计和区间估计 点值估计:X 置信区间估计(interval estimation):可能包含总 体均数在内的一个范围,其包含总体均数可能性 的大小,以百分数表示,习惯上使用95%与99%可 信区间(confidence interval,CI)。
• X±SX
总体均数的估计 • 一、t分布 • 1、 t分布的概念 • 对正态变量X采用z=( X - )/ x变换, 将N(, x2)变换为标准正态分布, 即U分 布, 而实际中x往往用sx来估计, 这时对正 态变量X采用的不是U变换而是t变换, 即 • t = ( X - )/ sx • 其结果也不是U分布而是t分布。
• (一)查表法 • 当 样 本 计 数 X≤50 时 , 用 X 值 查 附 表 Poisson分布μ的置信区间,可得总体均数 μ的95%或99%置信区间。 • (二)正态近似法 • 当样本计数X>50时,可按正态近似原理 用式( 7.15 )求总体均数 μ 的 95% 或 99% 置信区间。 •