高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版23 精品
高中数学课件-独立性检验(新课)
现在的K2≈56.632的观测值远大于6.635,小概率
事件的发生说明假设H0不成立!
所以吸烟和患肺癌有关!
1.对分类变量X与Y的随机变量K2的观测值k,说法正确 的是( B )
A.k越大,“ X与Y有关系”可信程度越小 B.k越小,“ X与Y有关系”可信程度越小 C.k越接近于0,“X与Y无关”程度越小 D.k越大,“X与Y无关”程度越大
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
0.54%
不吸烟
等高条 形图
0.54%
患肺癌 不患肺癌
吸烟
(1)反映分类变量的频率(百分比)
(2)直观判断两个分类变量是否相关 差异性越大,越有关联
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
(a + b)(c + d)(a + c)(b + d)
作为检验在多大程度上可以认为“两个变量有关系” 的标准 。
若H0(吸烟和患肺癌没有关系)成立,则K2应该很小.
独立性检验
H0:假设吸烟和患肺癌没有关系
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775
42
7817
吸烟
2099
49
2148
总计
所以根据列联表的数据,可以有 97.5 %的把握认为该学校15至16周 岁的男生的身高和体重之间有关系。
1.(2013·深圳二模)2013年3月14
CCTV 财经
频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.
为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大
学实验室随机抽取了60个样本,得到了相关数据如下表:
假设检验方法
假设检验-1Hypothesis Testing假设检验方法【例】一种机床加工的零件尺寸绝对平均误差允许值为1.35mm 。
生产厂家现采用一种新的机床进行加工以期进一步降低误差。
为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。
利用这些样本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低?(α=0.1),数据见:”Parts .mtw ”左侧检验1.061.220.911.971.982.031.011.241.450.990.590.501.500.741.23 1.131.020.951.121.12 1.161.031.121.100.98 1.122.371.540.961.1950个零件尺寸的误差数据(mm)0.821.601.101.000.970.861.231.171.261.381.70 1.641.081.110.941.061.13 1.811.311.261-Sample Z Test —例题应用Minitab 检验假设检验-31-Sample Z Test—习题1. 请打开“1-Sample Z Test .mtw”C1为某钢丝绳索制造商声称其生产的钢丝绳的平均抗断强度为大于5磅,已经知道总体标准差为1,请判断其声明是否正确?注意:Ⅰ.当小样本时(n<25~30),且总体标准差未知时使用1-Sample T Test.使用1-Sample T Test前,一定要检验正态性.如果非正态时,可以考虑:a.增加样本量,达到n≥25.b.使用非参量设计(绿带教程一般不涉及)Ⅱ. 当大样本时(n≥25~30),使用1-Sample Z Test.不一定要求正态性.如果不知道总体标准差时,可以使用样本标准差代替.Ⅲ.当小样本时(n<25~30),但总体标准差已知时,也是使用1-Sample Z Test.注意:小样本时;一定要保证正态性.第一步设定H0和H a1. H0: 钢丝绳的平均抗断强度≤5H a:钢丝绳的平均抗断强度>5磅2. 取α=0.05假设检验-5第二步比较均值结论One-Sample Z: ValuesTest of mu= 5 vs mu> 5The assumed sigma = 1Variable N Mean StDev SE MeanValues 30 5.435 0.984 0.183Variable 95.0% Lower Bound Z PValues 5.134 2.38 0.009因为P小于0.05,所以对立假设成立。
3.1独立性检验
在日常生活中,我们常常关心两个分类变量之间是否 有关系:
在统计学中,独立性检验就是检验两个分类变量是否 有关系的一种统计方法。
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人): 吸烟与患肺癌列联表(列出两个分类变量的频数表):
总计 a+b c+d a+b+c+d
假设H0:吸烟和患病之间没有关系 用A表示不吸烟,B表示不患病
应有 ad bc.
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于
上述分析,我们构造一个随机变量
7817 2148 9874 91
怎样判断K2的观测值k是大还是小呢?
值
这仅需要确定一个正数 k0 ,当 k k大。此时相应于 k 0 的判断规则为:
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
在H0成立的情况下,统计学家估算出如下的概率: P(K 2 6.635) 0.01
即有99%的把握认为“秃顶患心脏病有关”。
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信没有发现
反对H0 的充分证据。
(人教课标版)普通高中课程标准实验教科书《数学》目录(B版)
(人教课标版)普通高中课程标准实验教科书《数学》目录(B版)(人教课标版)普通高中课程标准实验教科书《数学》目录(B版)必修一第一章集合1.1集合与集合的表示方法1.1.1集合的概念1.1.2集合的表示方法1.2集合之间的关系与运算1.2.1集合之间的关系1.2.2集合的运算本章小结阅读与欣赏聪明在于学习,天才由于积累第二章函数2.1函数2.1.1函数2.1.2函数的表示方法2.1.3函数的单调性2.1.4函数的奇偶性2.1.5用计算机作函数的图象(选学)2.2一次函数和二次函数2.2.1一次函数的性质与图象2.2.3待定系数法2.3函数的应用(Ⅰ)2.4函数与方程2.4.1函数的零点2.4.2求函数零点近似解的一种计算方法——二分法本章小结阅读与欣赏函数概念的形成与发展第三章基本初等函数(Ⅰ)3.1指数与指数函数3.1.1实数指数幂及其运算3.1.2指数函数3.2对数与对数函数3.2.1对数及其运算3.2.2对数函数3.2.3指数函数与对数函数的关系3.3幂函数3.4函数的应用(Ⅱ)本章小结阅读与欣赏对数的发明必修二第一章立体几何初步1.1空间几何体1.1.1构成空间几何体的基本元素1.1.2棱柱、棱锥和棱台的结构特征1.1.3圆柱、圆锥、圆台和球1.1.4投影与直观图1.1.5三视图1.1.6棱柱、棱锥、棱台和球的表面积1.1.7柱、锥、台和球的体积实习作业1.2点、线、面之间的位置关系1.2.1平面的基本性质与推论1.2.2空间中的平行关系1.2.3空间中的垂直关系本章小结阅读与欣赏散发着数学芳香的碑文第二章平面解析几何初步2.1平面直角坐标系中的基本公式2.1.1数轴上的基本公式2.1.2平面直角坐标系中的基本公式2.2直线的方程2.2.1直线方程的概念与直线的斜率2.2.2直线方程的几种形式2.2.3两条直线的位置关系2.2.4点到直线的距离2.3圆的方程2.3.1圆的标准方程2.3.2圆的一般方程2.3.3直线与圆的位置关系2.3.4圆与圆的位置关系2.4空间直角坐标系2.4.1空间直角坐标系2.4.2空间两点的距离公式本章小结阅读与欣赏笛卡儿必修三第一章算法初步1.1算法与程序框图1.1.1算法的概念1.1.2程序框图1.1.3算法的三种基本逻辑结构和框图表示1.2基本算法语句1.2.1赋值、输入和输出语句1.2.2条件语句1.2.3循环语句1.3中国古代数学中的算法案例本章小结阅读与欣赏我国古代数学家秦九韶附录1解三元一次方程组的算法、框图和程序附录2Scilab部分函数指令表第二章统计2.1随机抽样2.1.2系统抽样2.1.4数据的收集2.2用样本估计总体2.2.1用样本的频率分布估计总体的分布2.2.2用样本的数字特征估计总体的数字特征2.3变量的相关性2.3.1变量间的相关关系2.3.2两个变量的线性相关本章小结阅读与欣赏蚂蚁和大象谁的力气更大附录随机数表第三章概率3.1事件与概率3.1.1随机现象3.1.2事件与基本事件空间3.1.3频率与概率3.1.4概率的加法公式3.2古典概型3.2.1古典概型3.2.2概率的一般加法公式(选学)3.3随机数的含义与应用3.3.1几何概型3.3.2随机数的含义与应用3.4概率的应用本章小结阅读与欣赏概率论的起源必修四第一章基本初等函数(Ⅱ)1.1任意角的概念与弧度制1.1.1角的概念的推广1.1.2弧度制和弧度制与角度制的换算1.2任意角的三角函数1.2.1三角函数的定义1.2.2单位圆与三角函数线1.2.3同角三角函数的基本关系式1.2.4诱导公式1.3三角函数的图象与性质1.3.1正弦函数的图象与性质1.3.2余弦函数、正切函数的图象与性质1.3.3已知三角函数值求角教学建模活动本章小结阅读与欣赏三角学的发展第二章平面向量2.1向量的线性运算2.1.1向量的概念2.1.2向量的加法2.1.3向量的减法2.1.4数乘向量2.1.5向量共线的条件与轴上向量坐标运算2.2向量的分解与向量的坐标运算2.2.1平面向量基本定理2.2.2向量的正交分解与向量的直角坐标运算2.2.3用平面向量坐标表示向量共线条件2.3平面向量的数量积2.3.1向量数量积的物理背景与定义2.3.2向量数量积的运算律2.3.3向量数量积的坐标运算与度量公式2.4向量的应用2.4.1向量在几何中的应用2.4.2向量在物理中的应用本章小结阅读与欣赏向量概念的推广与应用第三章三角恒等变换3.1和角公式3.1.1两角和与差的余弦3.1.2两角和与差的正弦3.1.3两角和与差的正切3.2倍角公式和半角公式3.2.1倍角公式3.2.2半角的正弦、余弦和正切3.3三角函数的积化和差与和差化积本章小结阅读与欣赏和角公式与旋转对称必修五第一章解三角形1.1正弦定理和余弦定理1.1.1正弦定理1.1.2余弦定理1.2应用举例本章小结阅读与欣赏亚历山大时期的三角测量第二章数列2.1数列2.1.1数列2.1.2数列的递推公式(选学)2.2等差数列2.2.1等差数列2.2.2等差数列的前n项和2.3等比数列2.3.1等比数列2.3.2等比数列的前n项和本章小结阅读与欣赏级数趣题无穷与悖论第三章不等式3.1不等关系与不等式3.1.1不等关系与不等式3.1.2不等式的性质3.2均值不等式3.3一元二次不等式及其解法3.4不等式的实际应用3.5二元一次不等式(组)与简单的线性规划问题3.5.1二元一次不等式(组)所表示的平面区域3.5.2简单线性规划本章小结选修1-1第一章常用逻辑用语1.1命题与量词1.1.1命题1.1.2量词1.2基本逻辑联结词1.2.1“且”与“或”1.2.2“非”(否定)1.3充分条件、必要条件与命题的四种形式1.3.1推出与充分条件、必要条件1.3.2命题的四种形式本章小结阅读与欣赏什么是数理逻辑第二章圆锥曲线与方程2.1椭圆2.1.1椭圆及其标准方程2.1.2椭圆的几何性质2.2双曲线2.2.1双曲线及其标准方程2.2.2双曲线的几何性质2.3抛物线2.3.1抛物线级其标准方程2.3.2抛物线的几何性质本章小结阅读与欣赏圆锥面与圆锥曲线第三章导数及其应用3.1导数3.1.1函数的平均变化率3.1.2瞬时速度与导数3.1.3导数的几何意义3.2导数的运算3.2.1常数与幂函数的导数3.2.2导数公式表3.2.3导数的四则运算法则3.3导数的应用3.3.1利用导数判断函数的单调性3.3.2利用导数研究函数的极值3.3.3导数的实际应用本章小结阅读与欣赏微积分与极限思想选修1-2第一章统计案例1.1独立性检验1.2回归分析本章小结“回归”一词的由来附表相关性检验的临界值表第二章推理与证明2.1合情推理与演绎推理2.1.1合情推理2.1.2演绎推理2.2直接证明与间接证明2.2.1综合法与分析法2.2.2反证法本章小结阅读与欣赏《原本》与公理化思想数学证明的机械化——机器证明第三章数系的扩充与复数的引入3.1数系的扩充与复数的引入3.1.1实数系3.1.2复数的引入3.2复数的运算3.2.1复数的加法和减法3.2.2复数的乘法和除法本章小结复平面与高斯第四章框图4.1流程图4.2结构图本章小结阅读与欣赏冯·诺伊曼选修2-1第一章常用逻辑用语1.1命题与量词1.1.1命题1.1.2量词1.2基本逻辑联结词1.2.1“且”与“或”1.2.2“非”(否定)1.3充分条件、必要条件与命题的四种形式1.3.1推出与充分条件、必要条件本章小结阅读与欣赏什么是数理逻辑第二章圆锥曲线与方程2.1曲线与方程2.1.1曲线与方程的概念2.1.2由曲线求它的方程、由方程研究曲线的性质2.2椭圆2.2.1椭圆的标准方程2.2.2椭圆的几何性质2.3双曲线2.3.1双曲线的标准方程2.3.2双曲线的几何性质2.4抛物线2.4.1抛物线的标准方程2.4.2抛物线的几何性质2.5直线与圆锥曲线本章小结阅读与欣赏圆锥面与圆锥曲线第三章空间向量与立体几何3.1空间向量及其运算3.1.1空间向量的线性运算3.1.2空间向量的基本定理3.1.3两个向量的数量积3.1.4空间向量的直角坐标运算3.2空间向量在立体几何中的应用3.2.1直线的方向向量与直线的向量方程3.2.2平面的法向量与平面的向量表示3.2.3直线与平面的夹角3.2.4二面角及其度量3.2.5距离(选学)本章小结阅读与欣赏向量的叉积及其性质选修2-2第一章导数及其应用1.1导数1.1.1函数的平均变化率1.1.2瞬时速度与导数1.1.3导数的几何意义1.2导数的运算1.2.1常数函数与冥函数的导数1.2.2导数公式表及数学软件的应用1.2.3导数的四则运算法则1.3导数的应用1.3.1利用导数判断函数的单调性1.3.2利用导数研究函数的极值1.3.3导数的实际应用1.4定积分与微积分基本定理1.4.1曲边梯形面积与定积分1.4.2微积分基本定理本章小结阅读与欣赏微积分与极限思想第二章推理与证明2.1合情推理与演绎推理2.1.1合情推理2.1.2演绎推理2.2直接证明与间接证明2.2.1综合法与分析法2.2.2反证法2.3数学归纳法2.3.1数学归纳法2.3.2数学归纳法应用举例本意小结阅读与欣赏《原本》与公理化思想第三章数系的扩充与复数3.1数系的扩充与复数的概念3.1.1实数系3.1.2复数的概念3.1.3复数的几何意义3.2复数的运算3.2.1复数的加法与减法3.2.2复数的乘法3.2.3复数的除法本章小节阅读与欣赏复平面与高斯选修2-3第一章计数原理1.1基本计数原理1.2排列与组合1.2.1排列1.2.2组合1.3二项式定理1.3二项式定理1.3.2杨辉三角本章小结第二章概率2.1离散型随机变量及其分布列2.1.1离散型随机变量2.1.2离散型随机变量的分布列2.1.3超几何分布2.2条件概率与事件的独立性2.2.1条件概率2.2.2事件的独立性2.2.3独立重复试验与二项分布2.3随机变量的数字特征2.3.1离散型随机变量的数学期望2.3.2离散型随机变量的方差2.4正态分布本章小结阅读与欣赏关于“玛丽莲问题”的争论第三章统计案例3.1独立性检验3.2回归分析本章小结阅读与欣赏“回归”一词的由来附表选修3-1第一讲早期的算术与几何一古埃及的数学二两河流域的数学三丰富多彩的记数制度第二讲古希腊数学一希腊数学的先行者二毕达哥拉斯学派三欧几里得与《原本》四数学之神──阿基米德第三讲中国古代数学瑰宝一《周髀算经》与赵爽弦图二《九章算术》三大衍求一术四中国古代数学家第四讲平面解析几何的产生一坐标思想的早期萌芽二笛卡儿坐标系三费马的解析几何思想四解析几何的进一步发展第五讲微积分的诞生一微积分产生的历史背景二科学巨人牛顿的工作三莱布尼茨的“微积分”第六讲近代数学两巨星一分析的化身──欧拉二数学王子──高斯第七讲千古谜题一三次、四次方程求根公式的发现二高次方程可解性问题的解决三伽罗瓦与群论四古希腊三大几何问题的解决第八讲对无穷的深入思考一古代的无穷观念二无穷集合论的创立三集合论的进一步发展与完善第九讲中国现代数学的开拓与发展一中国现代数学发展概观二人民的数学家──华罗庚三当代几何大师──陈省身选修3-2暂缺选修3-3第一讲从欧氏几何看球面一平面与球面的位置关系二直线与球面的位置关系和球幂定理三球面的对称性第二讲球面上的距离和角一球面上的距离二球面上的角第三讲球面上的基本图形一极与赤道二球面二角形三球面三角形1.球面三角形2.三面角3.对顶三角形4.球极三角形第四讲球面三角形一球面三角形三边之间的关系二、球面“等腰”三角形三球面三角形的周长四球面三角形的内角和第五讲球面三角形的全等1.“边边边”(s.s.s)判定定理2.“边角边”(s.a.s.)判定定理3.“角边角”(a.s.a.)判定定理4.“角角角”(a.a.a.)判定定理第六讲球面多边形与欧拉公式一球面多边形及其内角和公式二简单多面体的欧拉公式三用球面多边形的内角和公式证明欧拉公式第七讲球面三角形的边角关系一球面上的正弦定理和余弦定理二用向量方法证明球面上的余弦定理1.向量的向量积2.球面上余弦定理的向量证明三从球面上的正弦定理看球面与平面四球面上余弦定理的应用──求地球上两城市间的距离第八讲欧氏几何与非欧几何一平面几何与球面几何的比较二欧氏平行公理与非欧几何模型──庞加莱模型三欧氏几何与非欧几何的意义阅读与思考非欧几何简史选修3-4第一讲平面图形的对称群一平面刚体运动1.平面刚体运动的定义2.平面刚体运动的性质二对称变换1.对称变换的定义2.正多边形的对称变换3.对称变换的合成4.对称变换的性质5.对称变换的逆变换三平面图形的对称群第二讲代数学中的对称与抽象群的概念一n元对称群Sn二多项式的对称变换三抽象群的概念1.群的一般概念2.直积第三讲对称与群的故事一带饰和面饰二化学分子的对称群三晶体的分类四伽罗瓦理论选修4-1第一讲相似三角形的判定及有关性质一平行线等分线段定理二平行线分线段成比例定理三相似三角形的判定及性质1.相似三角形的判定2.相似三角形的性质四直角三角形的射影定理第二讲直线与圆的位置关系一圆周角定理二圆内接四边形的性质与判定定理三圆的切线的性质及判定定理四弦切角的性质五与圆有关的比例线段第三讲圆锥曲线性质的探讨一平行摄影二平面与圆柱面的截线三平面与圆锥面的截线选修4-2引言第一讲线性变换与二阶矩阵一线性变换与二阶矩阵(一)几类特殊线性变换及其二阶矩阵1.旋转变换2.反射变换3.伸缩变换4.投影变换5.切变变换(二)变换、矩阵的相等二二阶矩阵与平面向量的乘法(二)一些重要线性变换对单位正方形区域的作用第二讲变换的复合与二阶矩阵的乘法一复合变换与二阶矩阵的乘法二矩阵乘法的性质第三讲逆变换与逆矩阵一逆变换与逆矩阵1.逆变换与逆矩阵2.逆矩阵的性质二二阶行列式与逆矩阵三逆矩阵与二元一次方程组1.二元一次方程组的矩阵形式2.逆矩阵与二元一次方程组第四讲变换的不变量与矩阵的特征向量一变换的不变量——矩阵的特征向量1.特征值与特征向量2.特征值与特征向量的计算二特征向量的应用1.Aa的简单表示2.特征向量在实际问题中的应用选修4-5第一章不等式的基本性质和证明的基本方法1.1 不等式的基本性质和一元二次不等式的解法1.2基本不等式1.3绝对值不等式的解法1.4绝对值的三角不等式1.5不等式证明的基本方法本章小结第二章柯西不等式与排序不等式及其应用2.1 柯西不等式2.2排序不等式2.3平均值不等式(选学)2.4最大值与最小值问题,优化的数学模型本章小结阅读与欣赏第三章数学归纳法与贝努利不等式3.1数学归纳法原理3.2用数学归纳法证明不等式,贝努利不等式本章小结阅读与欣赏附录部分中英文词汇对照表后记选修4-6引言第一讲整数的整除一整除1.整除的概念和性质2.带余除法3.素数及其判别法二最大公因数与最小公倍数1.最大公因数2.最小公倍数三算术基本定理第二讲同余与同余方程一同余1.同余的概念2.同余的性质二剩余类及其运算三费马小定理和欧拉定理四一次同余方程五拉格朗日插值法和孙子定理六弃九验算法第三讲一次不定方程一二元一次不定方程二二元一次不定方程的特解三多元一次不定方程第四讲数伦在密码中的应用一信息的加密与去密二大数分解和公开密钥学习总结报告附录一剩余系和欧拉函数附录二多项式的整除性选修4-7引言第一讲优选法一什么叫优选法二单峰函数三黄金分割法——0.618法1.黄金分割常数2.黄金分割法——0.618法阅读与思考黄金分割研究简史四分数法1.分数法阅读与思考斐波那契数列和黄金分割2.分数法的最优性五其他几种常用的优越法1.对分法2.盲人爬山法3.分批试验法4.多峰的情形六多因素方法1.纵横对折法和从好点出发法2.平行线法3.双因素盲人爬山法第二讲试验设计初步一正交试验设计法1.正交表2.正交试验设计3.试验结果的分析4.正交表的特性二正交试验的应用选修4-9引言第一讲风险与决策的基本概念一风险与决策的关系二风险与决策的基本概念1.风险(平均损失)2.平均收益3.损益矩阵4.风险型决策探究与发现风险相差不大时该如何决策第二讲决策树方法第三讲风险型决策的敏感性分析第四讲马尔可夫型决策简介一马尔可夫链简介1.马尔可夫性与马尔可夫链2.转移概率与转移概率矩阵二马尔可夫型决策简介三长期准则下的马尔可夫型决策理论1.马尔可夫链的平稳分布2.平稳分布与马尔可夫型决策的长期准则3.平稳准则的应用案例说明:A版适用于文件生使用,B版适用于理科生使用,B 版比A版略难。
第三章--统计案例-3.2-独立性检验的基本思想及其初步应用
解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验
步
骤
③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.
数学选修23第三章统计案例教案
第三章统计案例§独立性检验〔1〕1.某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病〔简称患病〕,183人未患呼吸道疾病〔简称未患病〕;不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关〞?为了研究这个问题,〔1〕引导学生将上述数据用下表来表示:患病未患病合计吸烟37183220不吸烟21274295合计58457515一.建构数学1.独立性检验:〔1〕假设H0:患病与吸烟没有关系.假设将表中“观测值〞用字母表示,那么得下表:患病未患病合计吸烟a b a b不吸烟c d c d合计ac b d ab cd如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据〔观测值〕不能否认假设H0.否那么,应认为假设H0不能接受,即可作出与假设H0相反的结论.〔2〕卡方统计量:为了消除样本对上式的影响,通常用卡方统计量〔2(观测值预期值)2χ〕来进行估计.预期值2卡方χ统计量公式:2χ2nad bc〔其中n a b c d〕a b c d a c b d由此假设H0成立,即患病与吸烟没有关系,那么2183,c21,d274代入计算得χ的值应该很小.把a37,b2H0成立的情况下,随机事件“2〞χ,统计学中有明确的结论,在发生的概率约为,即P(26.635)2,也就是说,在H0成立的情况下,对统计量χ进行屡次观测,观测值超过的频率约为.由此,我们有99%的把握认为H0不成立,即有99%的把握认为“患病与吸烟有关系〞.2象以上这种用统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A和类B〔如吸烟与不吸烟〕,Ⅱ也有两类取值:类1和类2〔如患呼吸道疾病与不患呼吸道疾病〕,得到如下表所示:Ⅱ类1类2合计类A a b a bⅠc d c d类B合计ac bd ab cd 推断“Ⅰ和Ⅱ有关系〞的步骤为:第一步,提出假设H0:两个分类变量Ⅰ和Ⅱ没有关系;第二步,根据2×2列联表和公式计算χ2统计量;第三步,查对课本中临界值表,作出判断.3.独立性检验与反证法:反证法原理:在一个假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验〔假设检验〕原理:在一个假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.四.数学运用1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比拟,结果如表所示.问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000分析:在使用该种血清的人中,有24248.4%的人患过感冒;在没有使用该种血清的人中,有28456.8%的500500人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设H0:感冒与是否使用该种血清没有关系.由列联表中的数据,求得21000(258284242216)2474526500500∵当H0成立时,2的概率约为,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式〔口服或注射〕和药的效果〔有效与无效〕是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效合计口服584098注射643195合计12271193分析:在口服的病人中,有586459%的人有效;在注射的病人中,有67%的人有效.从直观上来看,口服9895与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设H0:药的效果与给药方式没有关系.由列联表中的数据,求得2193(58314064)2122719895当H0成立时,2的概率大于15%,这个概率比拟大,所以根据目前的调查数据,不能否认假设H0,即不能作出药的效果与给药方式有关的结论.说明:如果观测值2,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系〞,但也不能作出结论“H0成立〞,即Ⅰ与Ⅱ没有关系.§独立性检验〔2〕二.数学运用1.练习题:1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
高中数学选修课件第三章§独立性检验
针对性解决策略和建议
深入理解独立性概念
明确事件独立与随机变量独立的区别,熟练掌握 相关公式和定理的适用条件。
正确选择统计性检验。
ABCD
重视样本容量的选择
在进行独立性检验时,应根据实际情况选择合适 的样本容量,以保证结果的准确性。
明确显著性水平的意义
结果分析与讨论
结果描述
详细阐述检验结果,包 括统计量、显著性水平
等信息。
结果解释
结合研究问题和假设, 对检验结果进行合理解
释。
结果比较
将本研究结果与已有研 究进行比较,分析异同
点。
结果推广与应用
探讨本研究结果的推广 价值和应用前景。
06
独立性检验常见问题及解决方法
常见错误类型及原因剖析
错误理解独立性概念
在判断两个分类变量是否独立时,需 要结合实际情况和专业知识进行综合 判断,避免盲目依赖统计结果。
在计算卡方统计量时,需要注意期望 频数的计算方法,避免出现计算错误 。
需要注意独立性检验只能判断两个分 类变量之间是否存在关联,但不能确 定它们之间的因果关系。
03
独立性检验在统计学中应用
统计分析中作用
实际操作流程演示
确定研究问题和假设
明确研究目的,提出假设并确定检验标准 。
结果解释与报告
对检验结果进行解释,得出结论并撰写报 告。
收集数据
根据研究问题和假设,选择合适的方法收 集数据。
进行独立性检验
根据所选用的检验方法,对数据进行计算 和分析。
数据整理与预处理
对收集到的数据进行整理、清洗和转换, 以便于后续分析。
独立性检验可以帮助我们更好 地理解概率论中的基本概念, 如条件概率、联合概率等。
高中数学独立性检验
结论的可靠 程度如何?
通过数据和图表分析,得到结论是: 吸烟与患呼吸道病有关
H0: 吸烟 和患呼吸道疾病没有关系
完整版课件ppt
12
3、计算 2
吸烟与患呼吸道疾病关系列联表
吸烟 不吸烟
总计
患病
n11 n21
n 1
不患病
n12
n 22
n2
吸烟的人中患病的比例:
不吸烟的人中患病的比例:
n 11 n 1
不吸烟
吸烟
完整版课件ppt
患病 比例
患患病肺癌 不不患患病肺癌
不患病 比例
7
初步结论:
问题1:吸烟与不吸烟,患病的可能性的大小是 否有差异?
吸烟者和不吸烟者患呼吸道疾病的可能性存在差 异,吸烟者患呼吸道疾病的可能性大
问题2:差异大到什么程度才能作出“吸烟与患病有 关”的判断?
问题3:能否用数量刻画出“有关”的程度?
250 200 150 100
50 0
不患患肺病癌 患患病肺癌
吸烟 不吸烟
三维柱 状图
不吸烟 吸烟
完整版课件ppt
5
2) 通过图形直观判断
350 300 250 200 150 100
50 0 不吸烟
吸烟
完整版课件ppt
二维条 形图
患肺病癌 不患患肺病癌
6
3)通过图形直观判断
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
吸烟 37
183 220
不吸烟 21
274 295
总计 58
通过公式计算
457 515
2 n(n11n12n12n21)2
n1n2n1n2
高中数学 第三章 统计案例 3.1 独立性检验 假设检验(h
假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
高中数学 3.1独立性检验课件 新人教B版选修2-3
响有没有关系.
[解析] 这是一个 2×2 列联表的独立性检验问题,由公式 知
χ2=3921×963×9×19166×7-681×573×24292≈1.780. ∵1.780<3.841,我们没有理由说“心脏搭桥手术”与“又 发作过心脏病”有关,可以认为病人又发作心脏病与否跟他做 过何种手术无关.
动,得到如下的列联表:
男 女 总计
爱好
40 20
60
不爱好
20 30
50
总计
60 50
110
由
χ2
=
nad-bc2 a+bc+da+cb+d
算
得
,
K2
=
110×60×405×0×306-0×205×0 202≈7.8.
附表:
P(K2ห้องสมุดไป่ตู้k)
0.050 0.010 0.001
χ
3.841 6.635 10.828
3.1 独立性检验 第三章
1 课前自主预习 2 课堂典例探究 3 课时作业
课前自主预习
饮用水的质量是人类普遍关心的问题.据统计,饮用优质 水的518人中,身体状况优秀的有466人,饮用一般水的312人 中,身体状况优秀的有218人.
人的身体健康状况与饮用水的质量之间有关系吗?
相互独立事件的概念与性质 1.定义:事件A是否发生对事件B发生的概率_没__有__影__响_, 即P(B|A)=__P__(B_)___,这时,我们称两个事件A,B相互独立, 并把这两个事件叫做相互独立事件. 2 . 性 质 : 当 事 件 A , B 相 互 独 立 时 , ____A____ 与 ____B____,____A____与____B____,___A_____与_____B___也相互 独立.
3.1独立性检验(1)
4)若P( 2>5.024)= 0.025表示有97.5%的把握认为”Ⅰ与Ⅱ”有关系;
2 >3.841)= 0.05表示有95%的把握认为”Ⅰ与Ⅱ”有关系; 5)若P( 2 >2.706)= 0.10表示有90%的把握认为”Ⅰ与Ⅱ”有关系; 6)若P( 2 7)若P( ≤2.706),就认为没有充分的证据显示”Ⅰ与Ⅱ”有关系,
H 但也不能做出结论“ 0 成立”,即”Ⅰ与Ⅱ”没有关
分层训练:
P91:2,3
第三章:统计案例
某医疗机构为了了解呼吸道疾病与吸烟 是否有关,进行了一次抽样调查,共调查了 515个成年人,其中吸烟者220人,不吸烟者 295人,调查结果是:吸烟的220 人中37人患 呼吸道疾病, 183人不患呼吸道疾病;不吸 烟的295人中21人患呼吸道疾病, 274人不患 呼吸道疾病。
根据这些数据能否断定:患呼吸道疾 病与吸烟有关?
医生对患者提出忠告:“你这气管炎是长期吸烟 的结果,为了减缓症状,请快戒烟吧!”
呼吸道疾病真的与吸烟有关吗? 研究人员开发了一种新疫苗,怎样检验该疫苗 的有效性呢?
公安人员在勘测案发现场时,总是非常仔细地搜 查罪犯的脚印,理由之一是可以根据脚的大小来预测 罪犯的身高。这里,推理的依据是什么?
无论是一个家庭,还是一个企业,“量入为出”是 管理与经营的基本原则。支出与收入具有怎样的关系?
化简得
χ
2
n ad bc a c b d a b c d 其中n a b c d
2
1
根据表3-1-1中的数据,利用公式(1)计算 吸烟与呼吸道疾病列联表 患病 不患病 总计 吸烟 37 183 220
不吸烟 总计
2
3.1独立性检验
n
n
同理可得:吸烟但未患病人数:n P( AB) n a b b d
n
n
不吸烟但患病人数: n P( AB) n c d a c
n
n
不吸烟且未患病人数:nຫໍສະໝຸດ P( AB) n c d b d
n
n
实际观测值
如果实际观测值与预 期估计值差异不“大”, 那么我们就可以认为 这些差异是由随机误 差造成的,即假设 H 0 不能被所给数据否定。 否则,应认为假设 H0 不能接受
将以上数据代入公式得:
2 11.8634,
吸烟
这个值是大还是小呢? 不吸烟
总计
患病 37 21 58
不患病 183 274 457
总计 220 295 515
统计学家估算出如下的概率: P( 2 6.635 ) 0.01
即在H0成立的情况下,2的值大于6.635的概率非常小,近似于0.01,即1%.
问题一:我们想要研究“吸烟与患呼吸道疾病的关系”时,需要研究 哪些量呢?
吸烟且患病的人数、不吸烟但患病的人数
为了研究这个问题,我们将是否吸烟与患病的数据用2×2列联表表示:
列联表:分类变量的汇总统计表(频数表)
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为
{x1,x2}和{y1,y2},其样本频数表称为列联表 ,又称为 2×2 列联表,其形式为
(b n a b b d )2 (c n c d a c )2 (d n c d b d )2
n n
n n
nn
n a b bd
n cd a c
n cd bd
nn
nn
nn
化简得: 2 =
n(adb)c2
3.1假设检验 独立性检验
500 500 1000
感冒与是否使用该血清没有关系. 解:设H0:感冒与是否使用该血清没有关系.
1000(258× 284 242× 216) 2 χ = ≈ 7.075 474×526×500×500 因当H 成立时, 的概率约为0.01,故有 因当 0成立时,χ2≥6.635的概率约为 的概率约为 ,故有99%的把握认 的把握认 为该血清能起到预防感冒的作用. 为该血清能起到预防感冒的作用.
0.54% 2.28%
通过图形直观判断
9000 8000 7000 6000 5000 4000 3000 2000 1000 0 不吸烟 吸烟 患肺癌 不患肺癌
二维条 形图
通过图形直观判断 患肺癌 比例
患肺癌 不患肺癌
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
χ 2的值; 根据2 (2)根据2× 2列表与公式计算 的值;
(3)查对临界值,作出判断. 查对临界值,作出判断. 由于抽样的随机性, 由于抽样的随机性,由样本得到的推断 2 有可能正确,也有可能错误. 有可能正确,也有可能错误.利用 χ 进 行独立性检验, 行独立性检验,可以对推断的正确性的概 率作出估计,样本量n越大,估计越准确. 率作出估计,样本量n越大,估计越准确.
表示不吸烟 用A表示不吸烟, 表示不吸烟, 用B表示不患肺癌, 表示不患肺癌, 表示不患肺癌
则"吸烟与患肺癌没有关系"等价于"吸烟与患肺癌独立", 吸烟与患肺癌没有关系"等价于"吸烟与患肺癌独立"
即假设H 即假设 0等价于 P(AB)=P(A)P(B).
不吸烟 吸烟 总计
不患肺癌 a c a+c
假设检验(HypothesisTesting)
假设检验(HypothesisTesting)假设检验的定义假设检验:先对总体参数提出某种假设,然后利⽤样本数据判断假设是否成⽴。
在逻辑上,假设检验采⽤了反证法,即先提出假设,再通过适当的统计学⽅法证明这个假设基本不可能是真的。
(说“基本”是因为统计得出的结果来⾃于随机样本,结论不可能是绝对的,所以我们只能根据概率上的⼀些依据进⾏相关的判断。
)假设检验依据的是⼩概率思想,即⼩概率事件在⼀次试验中基本上不会发⽣。
如果样本数据拒绝该假设,那么我们说该假设检验结果具有统计显著性。
⼀项检验结果在统计上是“显著的”,意思是指样本和总体之间的差别不是由于抽样误差或偶然⽽造成的。
假设检验的术语零假设(null hypothesis):是试验者想收集证据予以反对的假设,也称为原假设,通常记为 H0。
例如:零假设是测试版本的指标均值⼩于等于原始版本的指标均值。
备择假设(alternative hypothesis):是试验者想收集证据予以⽀持的假设,通常记为H1或 Ha。
例如:备择假设是测试版本的指标均值⼤于原始版本的指标均值。
双尾检验(two-tailed test):如果备择假设没有特定的⽅向性,并含有符号“=”,这样的检验称为双尾检验。
例如:零假设是测试版本的指标均值等于原始版本的指标均值,备择假设是测试版本的指标均值不等于原始版本的指标均值。
单尾检验(one-tailed test):如果备择假设具有特定的⽅向性,并含有符号 “>” 或 “<” ,这样的检验称为单尾检验。
单尾检验分为左尾(lower tail)和右尾(upper tail)。
例如:零假设是测试版本的指标均值⼩于等于原始版本的指标均值,备择假设是测试版本的指标均值⼤于原始版本的指标均值。
检验统计量(test statistic):⽤于假设检验计算的统计量。
例如:Z值、t值、F值、卡⽅值。
显著性⽔平(level of significance):当零假设为真时,错误拒绝零假设的临界概率,即犯第⼀类错误的最⼤概率,⽤α表⽰。
高中数学第三章统计案例3.1独立性检验卡方检验素材苏教版选修(1)
2χ检验(一) 掌握内容 1. 2χ检验的用途。
2. 四格表的2χ检验。
(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验。
(二) 熟悉内容频数分布拟合优度的2χ检验。
(三) 了解内容 1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi-square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。
2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency )。
四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8-1)np p S p )1(-=, p 为样本率; (8-2) 2.总体率的可信区间当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。
总体率的可信区间:(p p S u p S u p ⨯+⨯-2/2/,αα)。
(8-3) (四)2χ检验的基本计算见表8-1。
表8-1 2χ检验的用途、假设的设立及基本计算公式资料形式用途H、1H的设立与计算公式自由度四格表①独立资料两样本率的比较②配对资料两样本率的比较H:两总体率相等1H:两总体率不等①专用公式))()()(()(22dbcadcbanbcad++++-=χ②当n≥40但1≤T<5时,校正公式))()()(()2/(22dbcadcbannbcad++++--=χ③配对设计cbcb+--=22)1(χ1R⨯C表①多个样本率、构成比的比较②两个变量之间关联性分析H:多个总体率(构成比)相等(H:两种属性间存在关联)1H:多个总体率(构成比)不全相等(H:两种属性间存在关联))1(22-=∑CRnnAnχ(R-1)(C-1)频数分布表频数分布的拟合优度检验H:资料服从某已知的理论分布1H:资料不服从某已知的理论分布∑-TTA2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n<40时,宜用四格表的确切概率法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。
2建立零假设和备择假设。
确定问题是属于双尾检验、左尾检验还是右尾检验。
3选择显著性水平。
4计算检验统计量,可借助计算机软件。
5用统计分布的统计表或计算机程序等来确定检验统计量的P值。
对于z检验可用表A.1正态曲线以下的曲线。
6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。
否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。
➢备择步骤步骤1~4同上。
然后:5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。
以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。
6比较检验统计量和拒绝域。
如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。
否则,不拒绝零假设,结论是没有足够的证据支持备择假设。
➢示例:t检验一家食品杂货店从一供应商处购买几箱苹果,每箱质量为50磅(1lb=0.455kg),固定价格。
供应商保证每箱的平均质量确实是50磅。
产品小组随机抽取10箱称量。
质量分别为:50.1 49.6 50.3 49.9 49.5 49.7 50.0 49.6 49.7 50.2杂货店受骗没有?统计上讲,产品小组的问题是:“我们接受的苹果箱的平均质量少于50磅吗?”零假设是“苹果箱的平均质量等于50磅”,备择假设是“苹果箱的平均质量小于50磅”计划用5%的显著性水平。
在表5.7中找均值与给定的值作比较的检验。
σ未知,样本容量小于30个,假设箱子的质量服从正态分布。
因此用t检验。
因为备择假设是“小于”,所以需要左尾检验。
向在线计算器中输入数据得到以下结果:样本均值= 49.86 标准方差=0.28 t=-1.583 P=0.07因为P值大于0.05,所以不能拒绝零假设,没证据表明他们受骗。
图表5.99显示了t分布,检验统计量t=-1.583,曲线下这个值以外的区域是P=0.07。
用备择步骤,从t表中确定a=0. 05,自由度为9,临界值为t a=-1. 833。
因为是左尾检验,拒绝域是任何小于-1. 833的z值。
检验统计量为-1.583,没有落在拒绝城,所以不拒绝零假设。
图表5.100显示了t分面、临界值、拒绝域和曲线下相等于a=0. 05的区域。
两幅图的比较表明两个实施步骤如何以不同方式得到相同结论的过程。
对左尾情况,只要检验统计量t大于临界值t a,曲线下t值左边的区域即P值就比a大,a就是曲线下t a左边的区域。
➢示例:卡方检验1一家服装零售商想了解其提议的生产线的变化是否会在不同地区被同样地接受。
他们随机挑选了750名顾客,描述了提议的新产品,然后让顾客估计购买的可能性。
他们按地理位置对数据分组,建立了五行、四列的关联表,见图表5.17的关联表。
从表5.8看出,卡方检验是最合适的,比较了各组的分布。
这种检验总是有尾的。
零假设可陈述为“五个地区的顾客在购买可能性分布上没有差异”,备择假没是“五组购买的可能性分布有差异”。
选择显著性水平为5%,计算出自由度为df=12。
大多卡方表按备择步骤设计,可以查询a或l-a,读取临界值。
对a =0. 05和df=12来说,χ2临界值为21.026。
如果检验统计量大于它就拒绝零假设。
用电子制表软件计算每一单元的E。
E代表着零假设为真时的期望值,也就是每个地区的购买可能性分布和整体分布一样时的期望值。
接着计算每单元的(O-E)2÷E,加起来得到检验统计量χ2=22. 53,比临界值21. 026大,所以拒绝零假设。
购买可能性分布随区域而不同。
这个检验等同于检验两个变量是否独立。
结果表明地理区域和购买可能性两个变量不独立。
已知顾客所在的地区就能预测他是否更有可能购买新生产线。
➢另一示例:卡方检验2相同的零售商计划改变产品目录的格式和风格并想了解新的格式是否会有效提高订单。
作为测试,他们随机挑选顾客送出去200 000本新春装目录册,另外1 800 000本目录册是传统版本。
参考关联表例子,用图表5. 18的2×2的关联表来组织数据。
卡方检验比较两者的比例。
零假设是“顾客从测试目录和从标准目录购买的比例相同。
”选用5%的显著性水平。
比较比例,自由度就是l。
a=0. 05和df=1时,χ2临界值为3. 841,检验统计量χ2=278。
因此拒绝零假设,结论是顾客从新格式目录和从旧目录购买的比例显著不同。
➢注意事项·和许多学科一样,统计学有自己专门的语言表达常用的概念。
以下是在实施步骤中常用的定义术语:检验:一种统计检验,如z检验、t检验、F检验或卡方检验。
要知道选用哪种检验是实施步骤中最难的一部分,取决于数据的种类以及想从数据中得出结论的种类。
假设:陈述一事实,由检验证明或反驳。
零假设,H0:是想检验的假没,数据是随机的。
称为“零”是因为通常(不总是)零假设意味着两组数据中或从数据中计算的参数与给定的值之间没有差异。
备择假设,H。
:如果零假设为假,备择假设肯定为真。
通常备择假设暗含数据来自真实的影响而非随机的。
统计量:表征样本数据某些方面的变量。
平均数、均值、方差和比例都是统计量。
检验统计量:用来检验零假设的统计量。
对每种检验都有一个公式表达适当的检验统计量。
这样做如果零假设是真(数据随机),统计量就来自一有名分布,如z检验的正态分布。
双尾、右尾、左尾:描述检验是否涉及频率分布的双侧(双尾)或只是单侧。
如果备择假设表达式中包合≠(不等于),需要双尾检验。
如果包含<(小于)需要左尾检差验,包含>(大于),需要右尾检验。
卡方检验通常是双尾检验。
P值:检验统计量在已知分布下随机发生的概率。
P值等于曲线下检验统计量以外的那个区域(见图表5.99)。
P值越小,越能肯定结果是真的,不只是随机的。
由于各种检验分布都很有名,这些概率能在表中或计算机程序中得到。
显著性水平,a:能确定结果是真的以前反映我们能多大程度确信结果不是随机产生的数值。
通常取1%、5%、10%( a =0.01、0.05、0.10)。
例如:单侧检验a =0.05,只要随机得到的结果小于5%即P<0.05则可断定结果为真。
临界值:概率正好等于a时的检验统计量的值。
曲线尾部临界值以外的区域面积等于a。
对双尾检验来说有两个临界值(见图表5. 100),每一尾部一个,每个临界值以外的区域都等于a/2。
临界值由表或计算机程序确定,记为±z a或±z a/2。
拒绝域:如果检验统计量落在这个区域,零假设就被拒绝的频率分布区域。
对左尾检验来说,这些值位于小于临界值的分布曲线尾部。
对右尾检验而言,则位于大于临界值的曲线尾部。
双尾检验拒绝域包含两头。
置信水平,(1-a)。
置信区间:事件随机发生时以很大概率包含检验统计量的区间范围。
拒绝域是置信区间以外的区域。
显著水平、置信水平、置信区间之间的关系为:a=0.05,置信水平等于95%,则认为落在95%置信区间的值是最有可能单独地随机发生的,不能拒绝零假设。
置信区间的定义讲究技巧。
95%置信区间不是分布所有值的95%落在这一区间而是当一个值属于这个分布时,基于样本数据建立的所有区间95%地包含这个值。
·假设检验中,观察检验分布曲线,计算位于图形水平轴某处的检验统计量。
如果曲线下检验统计量以外的区域P足够小(小于显著水平a),则此统计检验量可能就不服从这个分布。
·因为曲线是频率分布,曲线任何部分以下的区域就是事件发生可能性的度量,标在水平轴上。
这就是在曲线下区域能找到a和P值的原因。
·由于假设检验涉及样本和概率,所以有可能得到错误的结论。
第一类错误就是零假设为真而被拒绝(见图表5. 101)。
第一类错误的概率是:显著性水平a。
在第二个例子中,有5%的可能性就是区域间分布差异确实是随机的。
第二类错误是零假设为假而没有被拒绝。
如果食品杂货店真的在苹果箱的重量上被欺骗则第二类错误发生。
第二类错误的概率β的计算更复杂,超出本书讨论范围。
不幸的是,“a越小,β越大。
但是给定a,增加样本容量,β将变小。
·因为第二类错误概率的存在,当零假设没被拒绝时,不能得出备择假设是错的结论,只能说数据没有提供足够的证据支持备择假设。
·很多网站上有计算器,可以计算检验统计量和检验分布值。
输人数据,计算器计算检验统计量、概率和临界值。
但是要知道采用哪种检验以及如何解释结果,这点很重要。
·成对样本就是两组样本集包含配对的有关联的观察值。
例如:处理前、后相同样本的测量值或者同一样本被不同仪器测量所得的值。
检验假设通常是两组样本的均值相等,换句话说,两组间的均值差是零。