推断性统计分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 抽样分布的标准差称为“标准误”。它用来测 量使用某个样本统计量来估计总体参数时的抽 样误差。
样本均值的抽样分布(例子)
样本均值的抽样分布(例子)
样本均值的抽样分布(例子)
样本均值的抽样分布(例子)
样本均值的抽样分布(例子)
❖ 总体分布和抽样分布的比较:
样本均值的抽样分布(一般规律)
❖1. 当总体服从正态分布时,来自该总体的所有样本量
为n的样本的均值也服从正态分布,且的均值(数学 期望)为,方差为。即
样本均值的抽样分布(一般规律)
❖2. 中心极限定理 (Central Limit Theorem):从均值为,
方差为的任意总体(不一定服从正态分布)中抽取 样本量为的样本。只要样本量足够大,样本均值的 抽样分布将近似服从均值为,方差为的正态分布:
第二讲:推断性统计分析
统计推断的过程
主要内容
1. 抽样分布 2. 参数估计 3. 假设检验
1. 抽样分布
总体分布、样本分布、和抽样分布
❖ 总体分布:总体中所有个体在某个变量上观测 值的频次分布。
❖ 样本分布:从总体中抽取一个容量为n的样本, 这n个观测值构成的频次分布。
❖ 抽样分布:假如我们对总体进行重复抽样,根 据每个样本可以计算出一个样本统计量,从所 有这些样本得出的样本统计量构成的分布称为 抽样分布。
点估计的评判标准(一致性)
❖ 一致性(consistency):随着样本容量的增大,估 计量越来越接近被估计的总体参数的真实值。
区间估计(interval estimation)
❖❖ 区间估计:根据ຫໍສະໝຸດ Baidu本计算出一个取值范围来对总体
的未知参数进行估计,并给出置信度。 ❖ 定义:如果用 作为总体参数的估计值,那么参数的
双边检验:
统计决策方法2—值法
❖ 单边检验(右侧)值:
右侧单边检验:
统计决策方法2—值法
❖ 单边检验(左侧)值:
右侧单边检验:
统计决策方法2—值法
❖ 判定方法:
拒绝 不拒绝
❖ 任何一个统计分析软件(如SPSS或Stata)都会 计算出p值。
两类错误
❖假设检验属于统计推断,根据一个样本的有限信 息和小概率原理得出关于总体特征的判断。因此, 我们不可能做到百分之百的正确。
➢ 比如:样本均值是总体均值的一个估计量 ➢ 如果抽取一个样本,得出,5万就是的估计值
❖ 点估计的理论基础是“抽样分布”
❖ 点估计没有给出估计值接近总体参数的程度。也就是说, 从点估计,我们并不知道估计误差的大小。
点估计
❖ 用样本均值()作为总体均值()的点估计:

❖ 用样本方差()作为总体方差()的点估计:
两类错误
❖两类错误的关系:
No Image
• 其它条件不变,显著性水 平, 接受域增加,
• 其它条件不变,样本量n, ;
• 其它条件不变,真实值 (1)和H0中的值(0) 偏离程度,。
3.2 单总体假设检验
单总体均值的检验
❖ 原假设

❖ 备择假设
No
Image
单总体均值的检验
❖ 大样本
➢ 总体方差已知 ➢ 总体方差未知
❖ 标准误为点估计抽样分布的标准差 ❖ 临界值与抽样分布和有关,根据的大小,确定置信
区间有多少个标准误的宽度。
置信区间的计算
❖❖ 越大( ),置信度就变小( ),从而导致置信区间
变小( ),估计的精确度提高( ),但估错的可能 性增加了! ❖ 增加样本量,标准误减小( ),从而导致置信区间 减小( ) ,估计的精确度提高( )。
统计决策方法1—临界值比较法
❖ 比较检验统计量的“观测值”和“临界值 (critical value)”
➢ 如果观测值落在接受域,则不拒绝 ➢ 如果观测值落在拒绝域,则拒绝
统计决策方法2—值法
❖ 值:在成立条件下,出现观测值或比它更极端值 的概率。值越小,说明数据在成立时出现的可能 性越小,从而提供了拒绝的证据。
是总体均值的无偏估计量, 是总体方差的无偏估计量!
而不是总体标准差的无偏 估计!
点估计的评判标准(有效性)
❖ 有效性(efficiency):如果估计量的抽样分布的方 差小于其它任何估计量,则称是更有效的估计 量。
对服从正态分布的 总体,样本均值和 中值都是总体均值 的无偏估计,但是 更有效的估计量!
大样本时对总体分布没有要求, 可以为任意分布。
❖ 小样本:
➢ 总体方差已知
No 小样本时,要求总体服从正态分布
Image ➢ 总体方差未知
单总体均值的检验—大样本
❖❖ 已知时,检验统计量为统计量:
No ❖ 未知时,需要用样本方差来代替总体方差,得到的 检验统计量为统计量:
Image ❖ 当样本量越来越大时,分布越来越接近正态分布, 所以检验统计量可以近似为:
理解置信区间
理解置信区间
注意: 是未知参数,对于确定总体,它 是唯一的,固定的; 而样本统计量是随着样本不同而 变化的随机变量。 所以,根据不同的样本,计算出 来的CI也是变化的。因此,确切 地说,CI是一个随机区间。 对于一次抽样,它的CI可能包含 Q也可能不包含Q。
设α=0.05,那么1-α=0.95 95%CI就表示:如果重复抽取 100个样本,根据每个样本建立 一个CI,共100个CI,这100 个CI中有95(95%)个CI将包 含待估参数,有5(5%)个CI将 不包含待估参数。
即:
正态分布的特征
❖ 单峰、对称、钟形; ❖ 渐进:曲线无论向左或向右延伸,都愈来愈接近
横轴,但不会和横轴相交,以横轴为渐进线; ❖ 一个位置参数,一个描述离散程度的参数; ❖ 均值、中值、和众值都相等。 ❖ 最美的特征:
➢ 无论μ和σ为何值,也就是说对任意一个正态分布, 约68%(或者说2/3)的值落在区间;约95%的 值落在区间;约99.7%的值落在区间。
总体均值μ的置信区间—已知
❖ 假定条件:
➢总体服从正态分布,且总体方差已知 ➢总体不服从正态分布,但样本量较大
❖ 样本均值的抽样分布为正态分布: ❖ 转换为正态分布统计量:
❖ 总体均值的的置信区间:
总体均值μ的置信区间—已知
❖❖ 当时,对应95%CI:
❖ 当时,对应99%CI:
由公式可以看出,CI的宽度 受两个因素的影响: (1)总体分布的离散程度 (2)样本量 (3)置信度
❖在假设检验中有可能犯两种错误:
➢ 第一类错误 (Type I Error):弃真的错误 ➢ 第二类错误 (Type II Error):纳伪的错误
两类错误
检验功效 或效能
两类错误
❖第一类错误(弃真)
➢ 在原假设为真时,拒绝了原假设。
No ➢ 犯第一类错误的概率就是显著性水平,研究者通过 选择显著性水平来控制犯弃真错误的概率; ➢ 当减小时,拒绝域随之减小,弃真的错误就减小。
置信区间(confidence interval) 与的关系为:
➢ 显著性水平(significance level),表示置信区间不包含真实参 数的概率,即估错的概率
➢ 置信概率,置信度或置信水平(confidence level),表示这样的 置信区间包含真实参数的概率。
置信区间的计算
❖ 置信区间=点估计±临界值*标准误
No ➢ 如何检验?(请看下面的例子)
在一个“抛硬币”的游戏中,一个人抛了次,其中次是正面,请
ImNaoge 检验所用的硬币是否均匀。
❖ 大样本情况:
➢样本量满足 及;
Image ➢检验统计量是,在成立的条件下,其分布服从一个标准
正态分布:
注意:SPSS中没有该Z检验,但是可以用下页的二项检验。
单总体比例的检验
❖ 小样本情况:采用精确二项检验(Binomial Test)
➢ 二项分布 :
(x=0, I 1, 2m , …,N n) a o ge
随之向右偏移,离散度也随之增加; ➢ 随着的增加, 分布偏度和峰度都较小,将趋近于正
态分布。
两个样本方差比的抽样分布—分布
❖❖ 总体1:服从正态分布 样本1:
❖ 总体2:服从正态分布 样本2:
❖ 两个样本方差和比值的抽样分布服从分布:
2. 参数估计
参数估计
❖ 参数估计:指从总体中随机抽取一个样本,利 用样本统计量推算总体参数的过程。 参数估计
❖ 对定类变量,用样本比例()作为总体比例()的 点估计:
注意: • 一般在“总体参数”上加^来表示它的样本
估计值; • 在样本方差的公式中,分母为(n-1)而不
是n。因为只有用(n-1),得出的样本方差 才是总体方差的无偏估计!
点估计的评判标准(无偏性)
❖ 无偏性(unbiasedness):估计量的数学期望(即 所有可能样本得到的估计值所组成的抽样分布 的均值)等于被估计的总体参数。
❖ 形状由一个参数(自由度)来决定; ❖ 当样本量n很大时(n>30),就可用标准正态分
布N(0,1)来近似t分布。
样本方差的抽样分布—分布
❖ 当总体服从正态分布时,样本方差的抽样分布 服从自由度为的卡方分布:
样本方差的抽样分布—分布
分布
❖分布的特征:
➢ 非负值,最小值为; ➢ 正偏; ➢ 具体形状由来决定; ➢ 均值,方差; ➢ 均值和方差随着的增加而增加,这样,分布的均值
3. 假设检验
3.1 假设检验的基本概念
什么是假设检验?
❖ 假设检验:事先对总体参数提出一个假设,然 后通过样本信息来判断这一假设是否成立。
❖ 基本思想是“小概率原理”:
➢ 首先假设成立,得出样本统计量(点估计)的抽样 分布。经过抽样获取一组数据,如果根据该样本得 出的估计值在成立的条件下发生的概率非常小,我 们就有理由来“拒绝原假设”;反之,如果该值发 生的可能性很大,那么就“不拒绝”。
点估计
区间估计
矩阵估计 最小二乘法 最大似然法
点估计(point estimation)
❖❖ 点估计:根据样本统计量计算出一个确切的数来估计总
体的未知参数
❖ 用于估计总体某一参数的样本统计量,被称为估计量 (estimator)。估计量是一个随机变量,随着抽取的样本 的不同,取值会发生变化。对应的值称为“估计值 (estimate)”。
抽样分布
抽样分布
❖ 样本均值的抽样分布 ❖ 样本标准差的抽样分布
抽样分布
❖ 抽样分布是样本统计量的概率分布。
❖ 它只是一种理论上存在的概率分布,结果来自 无数样本量相同的所有可能样本。
❖ 依靠抽样分布,我们就能够将实际观测到的样 本结果与其他所有可能的样本结果进行比较, 从而建立起单一样本和总体之间的联系。这就 是统计推断的理论依据!
总体均值μ的置信区间—未知
❖ 假定条件:
➢总体方差未知 ➢总体必须服从正态分布
❖ 样本均值对应的统计量为统计量:
❖ 总体均值的的置信区间:
总体比例的的置信区间
❖❖ 样本比例是总体的点估计
❖ 在大样本条件下,样本统计量的抽样分布近似为正态 分布:
❖ 总体参数未知,所以用来估计标准误:
大样本总体比例 的(1- )的置信区间:
Image
两类错误
❖ 第二类错误(纳伪):
➢ 在原假设为假的情况下,接受了原假设。
No ➢ 犯纳伪错误的概率一般用来表示。
➢ 受许多因素的影响,主要有:显著性水平、样本量、 及真实值和中的值的偏离程度等。
Image ❖ 第一类错误在检验过程中由研究者自行设定。 除去第一类错误后,检验是否有效就取决于的 的大小。在统计学中,将称作检验效能(power)。
正态分布的特征
❖ 68~95~99.7规则:
均值抽样分布—分布
❖ 只有当总体方差已知的情况下,样本均值的抽 样分布才为正态分布,才能作Z转换。
❖ 总体方差未知的情况下,样本均值的抽样分布 不再服从正态分布,此时应作T转换。
分布
❖ T分布的图形是对称的,均值为0,离散程度比标准 正态分布要大,也就是说方差大于1;
单总体均值的检验—小样本
❖注意:小样本数据,我们假设样本来自正态分布 的总体!
No ❖已知时,检验统计量为统计量:
❖未知时,需要用样本方差来代替总体方差,得到
Image 的检验统计量为统计量: 此时不能将其近似为正态分布进行计算!
单总体比例的检验
❖ 假设:
➢ (落在某个类别中概率或比例等于)
No ➢ ( 或 )
➢ 显著性水平 =小概率的标准,由研究者事前确定。
什么是假设检验?
假设检验的步骤
1❖. 根据研究问题,决定是做“单边”检验还是 “双边”检验;提出原假设和备择假设;并 给定显著性水平;
2. 选择合适的检验统计量; 3. 在检验统计量的抽样分布上找到拒绝的区间; 4. 根据样本数据,计算检验统计量的观测值。 5. 根据决策方法,作出统计决策。
相关文档
最新文档