统计 独立性检验
独立性检验资料
50 0
不患患肺病癌 患患病肺癌
吸烟 不吸烟
三维柱 状图
不吸烟 吸烟
2) 经过图形直观判断
350 300 250 200 150 100
50 0 不吸烟
吸烟
二维条 形图
患肺病癌 不患患肺病癌
3)经过图形直观判断
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
5、下结论
已知在 H0成立旳情况下,
P( 2 11.8634) 0.001以下
故有99.9%旳把握以为H0不成立,即有99.9% 旳把握以为“患呼吸道疾病与吸烟有关系”。
网络链接——检验成果
DNA亲子鉴定旳原理和程序
DNA是从几滴血,腮细胞或培养旳组织纤内提取而 来.用畴素将DNA样本切成小段,放进喱胶内,用电泳槽推动 DNA小块使之分离--最细旳在最远,最大旳近来. 之後, 分 离开旳基因放在尼龙薄膜上,使用尤其旳DNA探针去寻找基 因, 相同旳基因会凝聚于一,然後,利用尤其旳染料,在X光 旳环境下,便显示由DNA探针凝聚于一旳黑色条码.小孩这 种肉眼可见旳条码很尤其 ----二分之一与母亲旳吻合,二 分之一与爸爸旳吻合.这过程重覆几次,每一种探针用于寻 找DNA旳不同部位并影成独特旳条码,用几组不同旳探针, 可得到超出99,9%旳父系或然率或辨别率.
患其他病 175 597 772
总计 389 1048 1437
600 500 400 300 200 100
0 患心脏病 患其他病
不秃顶 秃顶
秃顶 不秃顶
2 1437 (214 597 175 451)2 16.373 6.635
3891048 665 772 有99%旳把握以为“秃顶与患心脏病有关”
统计学中的独立性检验
统计学中的独立性检验统计学中的独立性检验(Test of Independence)是一种常用的统计方法,用于研究两个或多个分类变量之间是否存在相互独立的关系。
通过对随机抽样数据进行分析,可以判断不同变量之间是否有关联,并衡量关联的强度。
本文将介绍独立性检验的基本原理、常用的检验方法以及实际应用。
一、独立性检验的基本原理独立性检验的基本原理是基于统计学中的卡方检验(Chi-Square Test)。
卡方检验是一种非参数检验方法,用于比较观察值频数与期望频数之间的差异。
在独立性检验中,我们首先建立一个原假设,即所研究的两个或多个变量之间不存在关联,然后通过计算卡方统计量来判断观察值与期望值之间的差异是否显著。
二、常用的独立性检验方法1. 皮尔逊卡方检验(Pearson's Chi-Square Test):这是最常见的独立性检验方法,适用于有两个以上分类变量的情况。
它基于观察频数和期望频数之间的差异,计算出一个卡方统计量,并根据卡方分布表给出显著性水平。
2. Fisher精确检验(Fisher's Exact Test):当样本量较小或者某些期望频数很小的情况下,皮尔逊卡方检验可能存在一定的偏差。
在这种情况下,可以使用Fisher精确检验来代替皮尔逊卡方检验,得到更准确的结果。
3. McNemar检验:适用于配对数据比较的独立性检验,例如一个样本在两个时间点上的观察结果。
三、独立性检验的实际应用独立性检验在各个领域都有广泛的应用,以下是几个常见的实际应用场景:1. 医学研究:独立性检验可以用于研究某种药物治疗方法是否具有显著的疗效,或者判断不同年龄组和性别之间是否存在患病率的差异。
2. 教育领域:独立性检验可用于研究学生成绩与家庭背景、教育水平之间是否存在关联。
3. 市场调研:在市场调研中,可以通过独立性检验来分析不同年龄、性别、收入水平等因素对消费者购买习惯的影响。
4. 社会科学研究:独立性检验可以帮助社会科学研究人员探索个体特征与社会行为之间的关系,例如政治倾向与不同年龄群体之间的关联性等。
高考必备——独立性检验-独立性检验
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.82
P( K 2 k0 )
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
例 1:研究吸烟与患肺癌的关系. 1.确定研究对象:吸烟与患肺癌的关系. 2.采集数据——列联表: 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
不吸烟不患肺癌 吸烟不患肺癌 a c .即“ ” ab cd 不吸烟总数 吸烟总数
得 ad bc 0 ,所以 | ad bc | 越小,说明吸烟与患肺癌关系越弱,反之越强. (2)构造随机变量 K 2
n(ad bc) 2 (其中 n a b c d ) (a b)(c d )(a c)(b d )
2 2
0.15 2.072
0.10 2.706
0.05 3.841
0.025 5.024
0.010 6.635
0.005 7.879
0.001 10.828
,其中 n=a+b+c+d)
5.某校在规划课程设置方案的调研中, 随机抽取 160 名理科学生, 想调查男生、 女生对 “坐标系与参数方程” 与“不等式选讲”这两道题的选择倾向性,调研中发现选择“坐标系与参数方程”的男生人数与选择“不等 式选讲”的总人数相等,且选择“坐标系与参数方程”的女生人数比选择“不等式选讲”的女生人数多 25 人,根据调研情况制成如下图所示的列联表: 选择坐标系与参数方程 男生 女生 合计 160 60 选择不等式选讲 合计
第三章--统计案例-3.2-独立性检验的基本思想及其初步应用
解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验
步
骤
③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.
高中数学 第三章 统计案例 3.1 独立性检验 假设检验(h
假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
新教材2023高中数学第八章成对数据的统计分析8.3列联表与独立性检验8.3.2独立性检验课件新人教
(2)考查独立性检验的综合问题时,常与统计、概率等
知识综合,一般需要根据条件列出 2×2 列联表,计算 χ2 的值,
从而解决问题.
【跟踪训练】
2.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病的效果是否有区别;
③吸烟者得肺病的概率;
④吸烟是否与性别有关联;
2
≈4.514.
探索点一
独立性检验
【例 1】在 500 人身上试验某种血清预防感冒的情况,把
他们一年中的感冒记录与另外 500 名未使用血清的人的感冒
记录进行比较,结果如下表所示.问:依据小概率值 α=0.01 的独
立性检验,能否认为该种血清能起到预防感冒的作用?
单位:人
感冒
血清
合计
未感冒 感冒
258
和 Y 有关联.
α
0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解析:因为 χ2>7.879,在临界值表中与 7.879 对应的是
0.005,所以可以在犯错误的概率不超过 0.005 的前提下,认为
X 和 Y 有关联.
5.某科研团队对 1 050 例某肺炎确诊患者的临床特征进
的海上航行中男乘客比女乘客更容易晕船?
解: 零假设为
H0:在 2~3 级风的海上航行中晕船和性别没有关联.
根据列联表中的数据,经计算得
2
2 71×(12×24-10×25)
χ=
22×49×37×34
≈0.076<2.706=x0.1.
根据小概率值 α=0.1 的独立性检验,没有充分证据推断
概率论与数理统计课件 L5.8独立性检验
pij P{X Ai ,Y Bj}, i 1,..., r, j 1,..., q
pi P{X Ai}, i 1,..., r
p j P{Y Bj}, j 1,..., q
则有
q
r
pi pij , p j pij , i 1,...,r, j 1,...,q
j 1
i1
估计。当H0成立时,似然函数为
rq
rq
L( pi, p j )
p Ni j ij
( pi p j )Ni j
i1 j1
i1 j1
r i 1
p Ni i
q j 1
p N j
j
6
利用前面的方法 我们可以进行列联表的独立性检验
首先 可以证明 参数pi·与pj的最大似然估计为
pˆi
Ni n
pˆ j
N j n
i1
r
j1
q
r
q
其次 由于 pi p j 1 故 rq 个参数 pi·与 p·j 中仅有 rq2 个
i1
j 1
独立参数 于是相应的统计量
02
n
r i1
q j1
Nij
NiN n
NiN j
j
2
渐近服从2(rq(rq2)1)(即2((r1)(q1)))分布
(520)
拒绝域相应为
N2.
… …
… … …
r
Nr1 Nr2 … Nrq
r
N j Nij N.1 N.2 … N.q i 1
Nr. n
5
二、独立性检验问题
考虑二元总体(X Y)的非参数假设检验问题
H0 X与Y独立 上述假设检验问题可转化为多参数假设检验问题
统计案例之独立性检验
统计案例之独立性检验班级姓名学号参考公式:,其中.1.在中学生综合素质评价某个维度的测评中,分优秀、合格、尚待改进三个等级进行学生互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:表一:男生表二:女生(1)从表二的非优秀学生中随机抽取2人交谈,求所选2人中恰有1人测评等级为合格的概率;(2)由表中统计数据填写下面的列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.2.东亚运动会将于2013年10月6日在天津举行.为了搞好接待工作,组委会打算学习北京奥运会招募大量志愿者的经验,在某学院招募了16名男志愿者和14名女志愿者,调查发现,男女志愿者中分别有10人和6人喜爱运动,其余人不喜欢运动.(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?(3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,那么抽出的志愿者中至少有1人能胜任翻译工作的概率是多少?3.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,现从高一学生中抽取人做调查,得到如下列联表:已知在这人中随机抽取一人抽到喜欢游泳的学生的概率为,(Ⅰ)请将上述列联表补充完整,并判断是否有%的把握认为喜欢游泳与性别有关?并说明你的理由;(Ⅱ)针对问卷调查的名学生,学校决定从喜欢游泳的人中按分层抽样的方法随机抽取人成立游泳科普知识宣传组,并在这人中任选两人作为宣传组的组长,求这两人中至少有一名女生的概率,4.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A 类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标(1)完成上表;5.某校进行文科、理科数学成绩对比,某次考试后,各随机抽取100名同学的数学考试成绩进行统计,其频率分布表如下.(Ⅰ)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;(Ⅱ)请填写下面的列联表,并根据列联表判断是否有90%的把握认为数学成绩与文理科有关:(Ⅲ)设文理科数学成绩相互独立,记表示事件“文科、理科数学成绩都大于等于120分”,估计的概率.答案:1.(1)设从高一年级男生中抽出人,则,,则从女生中抽取20人,所以,.表二中非优秀学生共5人,记测评等级为合格的3人为,,,尚待改进的2人为,,则从这5人中任选2人的所有可能结果为,,,,,,,,,,共10种,设事件表示“从表二的非优秀学生中随机选取2人,恰有1人测评等级为合格”,则的结果为,,,,,,共6种,所以,即所求概率为.(2)列联表如下:因为,,而,所以没有90%的把握认为“测评结果优秀与性别有关”.(2)根据已知数据可求得:K2=≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.(3)喜欢运动的女志愿者有6人,设喜欢运动的女志愿者分别为A,B,C,D,E,F,其中A,B,C,D会外语,则从这6人中任取2人,共15种取法.其中两人都不会外语的只有EF一种取法.故抽出的志愿者之中至少有1人能胜任翻译工作的概率是P=1-=.3.5.。
第五章 第二次课 第二节独立性检验
第五章 第二节独立性检验独立性检验的定义又叫列联表(contigency table )χ2检验,它是研究两个或两个以上因子彼此之间是独立还是相互影响的一类统计方法。
2×2 列联表的独立性检验设A ,B 是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B 可能出现c1、c2个结果,两因子相互作用形成4格数,分别以O11 、O12 、O21 、O22表示,下表是2×2列联表的一般形式检验步骤1.提出无效假设H0 :事件A 和事件B 无关, 同时给出HA :事件A 和事件B 有关联关系;2.给出显著水平α3.依据H0 ,可以推算出理论数,计算χ2值4.确定自由度,df=(r-1)(c-1),进行推断。
给药方式与给药效果的2×2列联表H 0 H A H 0 H A1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α=0.053.根据H0,运用概率乘法法则:事件A 与事件B 同时出现的概率为:P(AB)=P(A)P(B) 口服与有效同时出现的理论频率=口服频率×有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193理论频数Ei =理论频率×总数= (98/193 ×122/193) ×193 =(98 × 122)/193=61.95即Eij =Ri ×Cj/T=行总数×列总数/总数E11= R1 × C1/T=61.95 E12= R1 × C2/T=36.05 E21= R2 × C1/T=60.05 E22= R2 × C2/T=34.95 给药方式与给药效果的2×2列联表计算χ2值:由于df=(r-1)(c-1)=(2-1)(2-1)=1,故所计算的χ2值需进行连续性矫正:4.P >0.05,应接受T/22×c列联表的独立性检验由于例:检测甲、乙、丙三种农药对烟蚜的毒杀效果,结果如下,使分析这三种农药对烟蚜的毒杀效果是否一致?三种农药毒杀烟蚜的死亡情况1. H0 :对烟蚜毒杀效果与农药无关,农药类型间互相独立;HA :二者有关2.取显著水平α=0.053.统计数的计算χ值的计算:(4)查χ2值表,进行推断查χ2表,当df=(2-1)(3-1)=2时,χ20.05 =5.99,现实得χ2=7.694>χ20.05 ,则拒绝H0 ,接受HA ,说明三种农药对烟蚜的毒杀效果不一致。
独立性检验在统计学中的应用及解读原理
独立性检验在统计学中的应用及解读原理统计学中的独立性检验是一种重要的统计工具,用于检验两个或多个变量之间是否存在相关性或独立性。
它在各个领域的研究中都有广泛的应用,如医学、社会科学、商业等。
本文将对独立性检验在统计学中的应用及解读原理进行详细介绍。
首先,我们需要了解独立性检验的基本概念。
独立性检验是用来判断两个或多个变量是否呈现无关的统计方法。
在进行独立性检验时,我们通常使用卡方检验(Chi-square test),这是一种常用的非参数检验方法。
它通过计算观察值和期望值之间的差异来判断变量之间的关联性。
卡方检验适用于分类变量或频数资料。
独立性检验在统计学中的应用非常广泛。
一方面,它可以用于研究两个变量之间的关系。
例如,在医学研究中,我们可以使用独立性检验来判断一种药物是否与某种疾病的发生有关。
另一方面,独立性检验也可以用于确定两个变量之间的独立性。
例如,在市场调研中,我们可以使用独立性检验来判断某种广告宣传方式是否影响消费者的购买行为。
在进行独立性检验时,首先需要明确研究的目标和假设。
假设检验通常分为原假设和备择假设。
原假设(H0)认为两个变量之间不存在关联,备择假设(H1)认为两个变量之间存在关联。
接下来,我们使用卡方检验计算卡方统计量(χ2),该统计量表示观察值和期望值之间的差异。
卡方统计量的计算可以参考以下公式:χ2 = Σ (Oi - Ei)2 / Ei其中,Oi表示观察到的频数,Ei表示期望的频数。
卡方统计量的计算结果将会与自由度(df)一起用于查找一个临界值。
自由度的计算公式为:df = (r - 1) * (c - 1)其中,r表示行数,c表示列数。
通过比较卡方统计量和临界值,我们可以得出是否拒绝原假设的结论。
解读独立性检验结果时,我们需要关注两个指标:卡方统计量和P值。
卡方统计量的数值越大,表示观察值和期望值之间的差异越大,变量之间的关联性越强。
而P值则表示在原假设成立的情况下,观察到统计量或更极端结果的概率。
高中数学第三章统计案例1独立性检验卡方检验素材苏教版
2χ检验(一)掌握内容1. 2χ检验的用途。
2. 四格表的2χ检验.(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验. (二) 熟悉内容频数分布拟合优度的2χ检验. (三) 了解内容1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi —square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠).2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency ).四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8—1)np p S p )1(-=,p为样本率;(8—2)2.总体率的可信区间当n 足够大,且p 和1—p 均不太小,p 的抽样分布逼近正态分布.总体率的可信区间:(ppS u p S u p ⨯+⨯-2/2/,αα)。
(8—3)(四)2χ检验的基本计算见表8-1。
表8—1 2χ检验的用途、假设的设立及基本计算公式资料形式 用途 0H 、1H 的设立与计算公式 自由度 四格表 ①独立资料两 样本率的比较②配对资料两样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式))()()(()(22d b c a d c b a n bc ad ++++-=χ②当n ≥40但1≤T 〈5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ③配对设计cb c b +--=22)1(χ1 R ⨯C 表 ①多个样本率、 0H :多个总体率(构成比)相等 (R —1)构成比的比较②两个变量之间关联性分析(0H:两种属性间存在关联)1H:多个总体率(构成比)不全相等(H:两种属性间存在关联))1(22-=∑CRnnAnχ(C—1)频数分布表频数分布的拟合优度检验H:资料服从某已知的理论分布1H:资料不服从某已知的理论分布∑-TTA2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n〈40时,宜用四格表的确切概率法。
独立性检验的方法
独立性检验的方法
独立性检验是用来判断两个变量之间是否存在关联或者依赖关系的统计方法。
常见的独立性检验方法有以下几种:
1. 卡方检验(Chi-square test):用于检验两个分类变量之间的独立性。
它将观察到的频数与期望频数进行比较,判断是否存在显著的差异。
2. Fisher精确检验(Fisher's exact test):在小样本数据中使用的一种精确方法,用于检验两个分类变量之间的独立性。
该方法不依赖于样本的分布假设,适用于小样本和稀有事件的情况。
3. 独立样本t检验(Independent samples t-test):用于检验两个组的均值是否存在显著差异。
这种方法适用于两个互不相关的样本。
4. 方差分析(Analysis of Variance, ANOVA):用于检验多个组之间均值的差异是否显著。
ANOVA分为单因素和多因素两种,前者适用于一个自变量,后者适用于多个自变量的情况。
5. 斯皮尔曼相关系数(Spearman's rank correlation coefficient):用于衡量两个变量之间的非线性关系。
斯皮尔曼相关系数是一种非参数的方法,适用于顺序变量或非正态分布的变量。
以上是常见的几种独立性检验方法,不同的方法适用于不同的情况和变量类型。
在进行独立性检验时,需要根据实际情况选择合适的方法进行分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
联表的独立性检验:
如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张 的表,如下:
状态
状态
合计
状态
状态
如果有调查得来的四个数据 ,并希望根据这样的 个数据来检验上述的两种状态 与 是否有关,就称之为 联表的独立性检验.
六.回归分析
1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性.
一.随机抽样
1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:
⑴简单随机抽样:从元素个数为 的总体中不放回地抽取容量为 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.
③将各个数据的“叶”在分界线的一侧对应茎处同行列出.
四.统计数据的数字特征
用样本平均数估计总体平均数;用样本标准差估计总体标准差.
数据的离散程序可以用极差、方差或标准差来描述.
极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.
系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.
⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.
分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.
有效
无效
合计
复方江剪刀草
184
61
245
胆黄片
91
9
100
合计
275
70
345
【例13】在对人们的休闲方式的一次调查中,共调查了 人,其中女性 人,男性 人.女性中有 人主要的休闲方式是看电视,另外 人主要的休闲方式是运动;男性中有 人主要的休闲方式是看电视,另外 人主要的休闲方式是运动.
⑴根据以上数据建立一个 的联表;⑵判断性别与休闲方式是否有关系.
⑶这里的 是对抽样数据而言的.有时即使 ,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.
题型一 独立性检验
【例1】对变量 与 的卡方统计量 的值,说法正确的是()
A. 越大,“ 与 有关系”可信程度越小;
B. 越小,“ 与 有关系”可信程度越小;
C. 越接近0,“ 与 无关”程度越小;
⑶ 越接近于0, 的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.
7.转化思想:
根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.
8.一些备案
①回归(regression)一词的来历:“回归”这个词英国统计学家Francils Galton提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
一般地,设样本的元素为 样本的平均数为 ,
定义样本方差为 ,
样本标准差
简化公式: .
五.独立性检验
1.两个变量之间的关系;
常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.
若 不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等,为 .
二.频率直方图
列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差;
②决定组距与组数:取组距,用 决定组数;
当 取值 时, 的相应观察值为 ,差 刻画了实际观察值 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.
我们希望这 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.
记 ,回归直线就是所有直线中 取最小值的那条.
这种使“离差平方和为最小”的方法,叫做最小二乘法.
用最小二乘法求回归系数 有如下的公式:
, ,其中 上方加“ ”,表示是由观察值按最小二乘法求得的回归系数.
3.线性回归模型:将用于估计 值的线性函数 作为确定性函数; 的实际值与估计值之间的误差记为 ,称之为随机误差;将 称为线性回归模型.
产生随机误差的主要原因有:
①所用的确定性函数不恰当即模型近似引起的误差;
②忽略了某些因素的影响,通常这些影响都比较小;
D. 越大,“ 与 无关”程度越大.
【例2】若由一个 列联表中的数据计算得 ,那么有把握认为两个变量有关系.
【例3】若由一个 列联表中的数据计算得 ,那么确认两个变量有关系的把握性有()
A. B. C. D.
【例4】提出统计假设 ,计算出 的值,则拒绝 的是()
A. B. C. D.
【例5】给出假设 ,下列结论中不能接受 的是()
③由于测量工具等原因,存在观测误差.
4.线性回归系数的最佳估计值:
利用最小二乘法可以得到 的计算公式为
, ,其中 ,
由此得到的直线 就称为回归直线,此直线方程即为线性回归方程.其中 , 分别为 , 的估计值, 称为回归截距, 称为回归系数, 称为回归值.
5.相关系数:
6.相关系数 的性质:
⑴ ;
⑵ 越接近于1, 的线性相关程度越强;
③决定分点:决定起点,进行分组;
④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.
⑤绘制频率分布直方图:以数据的值为横坐标,以 的值为纵坐标绘制直方图,
知小长方形的面积=组距× =频率.
频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
女生
16
122
138
总计
93
526
619
【例9】在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有 人,不晕机的有 人;女乘客晕机的有 人,不晕机的有 人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.
【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?
回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.最小二乘法:
记回归直线方程为: ,称为变量 对变量 的回归直线方程,其中 叫做回归系数.
是为了区分 的实际值 ,当 取值 时,变量 的相应观察值为 ,而直线上对应于 的纵坐标是 .
设 的一组观察值为 , ,且回归直线方程为 ,
②回归系数的推导过程:
,
把上式看成 的二次函数, 的系数 ,
因此当 时取最小值.
同理,把 的展开式按 的降幂排列,看成 的二次函数,当 时取最小值.
解得: , ,
其中 , 是样本平均数.
9.对相关系数 进行相关性检验的步骤:
①提出统计假设 :变量 不具有线性相关关系;
②如果以 的把握作出推断,那么可以根据 与 ( 是样本容量)在相关性检验的临界值表中查出一个 的临界值 (其中 称为检验水平);
有效
无效
合计
口服
58
40
98
注射
64
31
95
合计
122
71
193
【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据,请问种子经过处理跟是否生病有关?
【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?
26
24
50
则学生的性别与作业量的大小有关系的把握大约为()
A.99%了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?
喝过酒
没喝过酒
总计
男生
77
404
481
③计算样本相关系数 ;
④作出统计推断:若 ,则否定 ,表明有 的把握认为变量 与 之间具有线性相关关系;若 ,则没有理由拒绝 ,即就目前数据而言,没有充分理由认为变量 与 之间具有线性相关关系.
说明:
⑴对相关系数 进行显著性检验,一般取检验水平 ,即可靠程度为 .
⑵这里的 指的是线性相关系数, 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.
2.散点图:将样本中的 个数据点 描在平面直角坐标系中,就得到了散点图.