第五章 2 假设检验-统计分析-标准化-概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2 若增大n,在样本平均数的分布 X ~N ( , )中, 就会 n n 变小, 变小,则分布就瘦长, 从而减少了两种错误的 n 概率与。
统计显著性
统计显著性是根据P值而定的。 选择显著性水平是控制犯错误风险的一种方式
一旦选定了显著性水平 ,就确定了一个参考概率。对于 10% 的显著性水平,其参考概率是
(1)与是两个前提下的概率。是拒绝原假设H0时犯错误的概率,这时前 提是H0为真; 是接受原假设H0时犯错误的概率,这时前提是H0为伪。 +不等于1。 (2) 对于固定的n, 与一般情况下不能同时减小。对于固定的n, 越小, Z/2越大,从而接受假设区间(-Z/2, Z/2)越大, H0就越容易被接受,从而“取 伪”的概率就越大; 反之亦然。即样本容量一定时,“弃真”概率和 “取伪”概率不能同时减少,一个减少,另一个就增大。 (3)要想减少与,一个方法就是要增大样本容量n。
统计分析
(2)
(3)研究变量之间的关系 条件1 各指标之间无自变量与因变量之分 研究变量之间的相互关系有直线相关分析、曲线相关分析、典型相关 分析等; 研究多个变量内部的从属关系,并寻找综合指标,降低变量的维数, 其常 用的方 法有主成分分析、因子分析、对应分析; 研究多个变量内部或多个样品之间的亲疏关系有聚类分析; 研究多个变量内部的各种复杂关系有线性结构方程的 协方差分析。 条件2 各指标之间有自变量与因变量之分 研究变量之间的依存关系有直线回归分析、曲线回归分析、多项式回 归分析、多元线性回归分析、 logistic概率模型回归分析、寿命资料的参 数模型回归分析、COX模型回归分析和对数线性模型分析; (4)判别分析 根据一些明确分类的总体所提供的信息,对未知个体的归属进行分类 的判别分析。
' i
使标准化之后的值变化在0~1,-1 ~+1。消除量纲 的影响
许多统计方法依赖于样本是来自正态分布总体这
样的假设,而有些方法又依赖于样本其它分布特
征的假设。这种依赖于某种分布假设的统计方法 通常称为参数方法。
还有一些统计方法并不需要假设数据的分布类型,
这种不依赖于数据分布类型的统计方法通常称为
非参数方法 。
假设检验的步骤:
1. 目标----建立原假设和备择假设; 2. 确定适当的检验统计量; 3. 指定检验中的显著性水平;
4. 建立拒绝原假设的规则;
5. 搜集样本数据,计算检验统计量的值; 6. 作出统计决策—接受或拒绝假设 (1) 根据检验统计量的值 (2) 根据检验统计量计算的p值.
第二节 统计分析 内容概要
统计分析
(1)
(1) 假设检验 关于定量资料类型的假设检验、关于定量资料方差(或 方差阵)的假设检验、关于定量资料均值(或均值向量)的假设 检验;关于定性资料情况或位置的假设检验、2属性之间的 独立性检验以及2种 方法判断结果的一致性检验等。 (2) 区间估计 置信区间的估计,即对总体参数(均值、率、方差等)进行 区间估计; 容许区间的估计, 即对总体中一定比例的个体某指标取 值范围的估计。
参考值是在零假设为真的情况下所期望的值。比较该计算 所得“统计量值”比“统计量期望值”差异是否够大的结 果是一个概率值,即P值。这个P值的大小(是否小于或 大于某一个概率的界值__ )会告诉你是否应该相信或否 决零假设。 =0.01,0.05。 P值也就是在零假设为真的条件下所计算的统计量的值与
假设检验
与
统计分析 概 要
第一节 假设检验
某种假设是否成立?
建立零假设
对于正态性检验: “零假设”为“这组数据来自正态分布总体 N(0,1) ” ; “对立假设”则为“这组数据不是来自正态分布总体”。
建立检验统计量和值
建立了零假设和对立假设,需要计算一个“统计量”来检
验这个零假设,然后把这个统计量的值(由数据算出)同参 考值相比较以决定 “拒绝” 或 “接受” 零假设。
=0.10,它就是显著性水平用小数表示的形式。 参考概率称为水平
当进行假设检验时,如果计算得到的概率 (P 值 ) 比参 考概率 ( 水平 ) 小,即 |P|< ,则认为结果是统计显著 的; 所以你应该拒绝零假设。 小概率事件
相反:
如果计算得到的概率(P值)比参考概率(水平)
大,即|P|>,则认为结果是统计不显著的;所以你不 应该拒绝零假设,但绝不能说接受零假设。
第三节 数据参数化方法
随机变量的数字特征:参数
期望: E(X) ----- 样本均值 方差:D(X)or Var(X)=E{[X-E(X)]2} 标准差:(X)=[(E(X)-x]2 变异系数:x= (X)/E(X) 协方差:Cov(X,Y)=E[(X-EX)(Y-EY)] 标准协方差(相关系数):
下可能取到“计算值 =期望值”,就不能拒绝零假设。
------- 但绝不能因此就接受零假设,只是不能拒绝零假设。 除非你已测量了整个总体,否则就没有足够的证据来肯定总体 恰好为零假设所描述的那种情况 。(在概率下)
两类错误的关系:
H0为真时 X 1 的分布 0 H0为真时 X 的分布
1
H1为真时 X 1 的分布
预期“零假设”为真时的统计量值无 (有)显著差异的概率。 ---可理解为“零假设”为真的概率
显著性水平与P值的关系
如果|P|<,表明统计量“计算值=期望值”是不可 能的,只能偶然取到,所以应该拒绝零假设,认为零 假设不真。--------“小概率事件”
如果|P|>,表明统计量的值在零假设是真这个条件
xy
Cov( X , Y ) D( X ) D(Y )
样本标准差
1 S *2 (Xi X ) ˆ n 1 n1 n 2
1 s ( xi x) ˆ n 1 n1
*2
n
2
为修正的样本方差。Leabharlann 为修正的样本方差 的观测值。
1 n S (Xi X ) ˆ n n 1
P值的进一步说明
假设检验,即在一个事先指定的水平下拒绝零假设或不
拒绝零假设,------判断零假设的正确性。
在有些情况下,可以用P值作为描述否定零假设的证据的 一个概括性度量(一般用于人们进行基础性、探索性的研
究工作中)。
P值越小,则越有理由怀疑零假设。 如果P=0.003,则有很强的证据否定零假设; 如果P=0.25,就没有足够的证据来否定零假设。
2
1 s ( xi x) ˆ n n 1
n
2
S为样本标准差。s为样本标准差的观测值 。与x量纲保持一致。
数据标准化的一些方法
标准化:
xi x x S
' i
极差标准化
xi x x xmax xmin
' i
正规化
xi xmin x xmax xmin
选择显著性水平
根据你所选择的显著性水平(水平),决定了你想冒犯第一类错误 的险有多大。 习惯上通常使用三个水平: 0.10,0.05,0.01, 越小,显著性 水平越高。犯错误的概率越低。
如果你拒绝零假设所造成的后果不是特别严重,则显著性水
平(水平)可以取0.05或0.10比较合适。
如α=0.10,则意为:若取100个样本,进行100次假设检验,得出错误结论的次数大于 等于10次。“错误”指备择假设(对立假设H1)不正确耽误认为是正确的。 例:H0:μ=0(总体均值为0) H1:μ≠0 (总体均值不为0)
X
1 H1为真时 X 1 的分布
0
X
1
假设检验中的两类错误
假设检验是依据样本提供的信息进行推断的,即由部分来推断总体,因 而假设检验不可能绝对准确,是可能犯错误的。
两类错误:
错误(I型错误): H0为真时却被拒绝,弃真错误;
错误(II型错误): H0为假时却被接受,取伪错误。 假设检验中各种可能结果的概率 接受H0 H0为真 1- (正确决策) H0为伪 (取伪错误) 拒绝H0,接受H1 (弃真错误) 1- (正确决策)
实际显著性和统计显著性
实际显著性以常识为基础。 你不应该只根据P值来采取行动。样本容量、数据、数据 的变异性和有关数据的来源、是否正确的假定等,都可能
使基于P值的判断和常识不同。
为了避免这种情况的发生,在设计试验时,应使样本量足 够大以便能够检测出实际上显著的差异。---样本代表性
参数与非参数检验的假设不同