变量的相关性、回归分析、独立性检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
甲校 优秀 非优秀 总计 15 45 60 乙校 20 30 50 总计 35 75 110
复习目标
课前预习
高频考点
课时小结
2 110 × ( 15 × 30 - 20 × 45 ) K2的观测值k= ≈2.829>2.706, 60×50×35×75
故在犯错误的概率不超过0.10的前提下认为两个学校的数学 成绩有差异.
n
.
通过求 Q= [yi-(b xi+a )]2 的最小值而得出回
i=1
归直线的方法, 即求回归直线, 使得样本数据的点到它 的距离的平方和最小,这一方法叫作最小二乘法.
复习目标 课前预习 高频考点 课时小结
- x· y xiyi-n-
i =1
n
(5) 相关系数: r=
n 2 2 -2 xi -n- x y2 i -n y i=1 i=1
高频考点
课时小结
解析 (1)从甲校抽取 110× 1 000
1 200 1 200+1 000
=60(人),
从乙校抽取 110× 故 x=10,y=7.
1 200+1 000
=50(人),
复习目标
课前预习
高频考点
课时小结
1学成绩的优秀率为50×100%=40%. (3)表格填写如图,
甲校 优秀 非优秀 总计 乙校 总计
复习目标
课前预习
高频考点
课时小结
参考数据与公式:
2 n ( ad - bc ) 由列联表中数据计算K2= . (a+b)(c+d)(a+c)(b+d)
临界值表
P(K2≥k0) k0 0.10 0.05 0.010
2.706 3.841 6.635
复习目标
课前预习
变量的相关性、回归分析、独 立性检验
复习目标
课前预习
高频考点
课时小结
1.会作两个有关联变量的散点图,会利用散点图 认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回 归方程系数公式建立线性回归方程. 3.了解独立检验(只要求2×2列联表)的基本思 想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应 用.
复习目标
课前预习
高频考点
课时小结
题型三 例3
独立性检验
(2016· 人大附中模拟)大家知道,莫言是中国首位获得
诺贝尔奖的文学家,某高校文学社从男女生中各抽取50名同学 调查对莫言作品的了解程度,结果如下:
阅读过莫言的 作品数(篇) 男生 女生 0~25 26~50 51~75 76~100 101~130 3 4 6 8 11 13 18 15 12 10
复习目标 课前预习 高频考点 课时小结
解:(1)设成绩优秀的学生的人数为 x, x 2 由105=7,得 x=30. 故列联表为 优秀 非优秀 总计 甲班 乙班 总计 10 20 30 45 30 75 55 50 105
2 105 10 × 30 - 20 × 45 (2)K2= ≈6.109>3.841. 55×50×30×75
答案:D
复习目标
课前预习
高频考点
课时小结
2.有甲乙两个班级进行数学考试成绩分析,按照大于或等于 85 分为优秀,85 分以下为非优秀,统计成绩后,得到如下列联表: 优秀 非优秀 总计 甲班 乙班 总计 10 30 105
2 已知在全部 105 人中随机抽取 1 人为优秀的概率为7. (1)请完成上面的列联表; (2)根据列联表的数据, 若按 95%的可靠性要求, 能否认为“成 绩与班级有关系”.
分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10 y 3
(1)计算x,y的值; (2)若规定考试成绩在[120,150]内为优秀,请分别估计两所 学校数学成绩的优秀率;
复习目标
课前预习
高频考点
课时小结
(3)由以上统计数据填写下面的2×2列联表,并判断能否在 犯错误的概率不超过0.10的前提下认为两所学校的数学成绩有差 异.
高频考点
课时小结
2 n ( ad - bc ) 附:K2= (a+b)(c+d)(a+c)(b+d)
P(K2≥k0) k0
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010 6.635
0.455 0.708 1.323 2.072 2.706 3.841 5.024
复习目标
课前预习
复习目标
课前预习
高频考点
课时小结
(1)试估计该校学生阅读莫言作品超过50篇的概率; (2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了 解”,否则为“一般了解”.根据题意完成下表,并判断能否 有75%的把握认为对莫言作品非常了解与性别有关?
非常了解 男生 女生 合计 一般了解 合计
复习目标
课前预习
复习目标
课前预习
高频考点
课时小结
4. 甲、乙、丙、丁四位同学各自对 A、B 两变量的线性 相关性做试验,并用回归分析方法分别求得相关系数 r 与残 差平方和 m 如下表: 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现 A、B 两变量更强的线性相 关性?( A.甲 ) B.乙 C.丙 D.丁
,它
n
主要用于相关量的显著性检验,以衡量它们之间的线性 相关程度. 当 r>0 时,表示两个变量正相关;当 r<0 时,表示 两个变量负相关;|r|越接近 1,表明两个变量的线性相关 性越强; 当|r|接近 0 时, 表明两个变量间几乎不存在线性 相关关系.
复习目标 课前预习 高频考点 课时小结
分组 频数 [70,80) 3 [80,90) 4 [90,100) 8 [100,110) 15
分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x 3 2
复习目标
课前预习
高频考点
课时小结
乙校:
分组 频数 [70,80) 1 [80,90) 2 [90,100) 8 [100,110) 9
高频考点
课时小结
【解析】 (1)由抽样调查得阅读莫言作品在50篇以上的频 11+18+12+13+15+10 79 率为 = .据此估计该校学生阅读莫言 100 50+50 79 作品超过50篇的概率约为100.
复习目标
课前预习
高频考点
课时小结
(2)
非常了解 男生 女生 合计 30 25 55 一般了解 合计 20 25 45 50 50 100
解释 变量,
预报
变量.
复习目标
课前预习
高频考点
课时小结
(4)回归直线的方程为 y =b x+a ,其中 - x yi-- y xiyi-n- x· y xi--
i=1 i=1 n n
b =
= x xi--
i =1 n 2 2 - - n x x2 i i=1 n
,
a =
复习目标
课前预习
高频考点
课时小结
②当 K2>2.706 时,有 90%的把握认为变量 x,y 有 关系; ③当 K2>3.841 时,有 95%的把握认为变量 x,y 有 关系; ④当 K2>6.635 时,有 99%的把握认为变量 x,y 有 关系; ⑤当 K2>10.828 时,有 99.9%的把握认为变量 x,y 有关系.
根据列联表数据得:
2 100 × ( 30 × 25 - 20 × 25 ) K2= ≈1.010<1.323, 50×50×55×45
所以没有75%的把握认为对莫言作品非常了解与性别有关.
复习目标
课前预习
高频考点
课时小结
5.甲、乙两所学校高三年级分别有1 200人,1 000人,为 了了解两所学校全体高三年级学生在该地区六校联考的数学成 绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的 数学成绩,并作出了频数分布统计表如下: 甲校:
复习目标 课前预习 高频考点
负相关
.
课时小结
(3)回归分析: 对具有
相关关系
的两个变量进行统
计分析的方法叫作回归分析.通俗地讲,回归分析是寻找 相关关系中非确定关系的某种确定性. 在线性回归模型 y=bx+a+e 中, 因变量 y 的值由自变 量 x 和随机误差 e 共同确定,即自变量 x 只能解释部分 y 的变化,在统计中,我们把自变量 x 叫作 因变量 y 称为
2 n ad - bc 构造随机变量 K2= , 其中 n a+bc+da+cb+d
=a+b+c+d 为样本容量.
复习目标 课前预习 高频考点 课时小结
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为 “两个分类变量 有关系 量的独立性检验. 先假设两个分类变量 x 与 y 无关系,计算 K2 的值, 则 K2 的值应该很小,若 K2 值较大,就拒绝假设,只要 K2>2.706,就认为 x 与 y 有关系. (4)两个分类变量 x 和 y 是否有关系的判断方法: ①当 K2≤2.706 时,没有充分的证据判断变量 x,y 有关系,可以认为变量 x,y 没有关系; ”的方法,称为两个分类变
复习目标
课前预习
高频考点
课时小结
解:可用相关系数 r 描述线性相关关系的强弱,|r|越接 近 1,表示两个变量有更强的相关关系;可用残差平方和描 述回归模型的拟合效果,残差平方和越小,其相关指数 R2 越小,表明回归模型的拟合效果越好.因此,丁同学的试 验结果体现 A,B 两变量有更强的相关性.选 D.
所以有 95%的把握认为成绩与班级有关系,即按 95%的 可靠性要求,可认为“成绩与班级有关系”.
复习目标 课前预习 高频考点 课时小结
2.独立性检验的一般步骤: (1)假设两个分类变量 X 与 Y 无关系. (2)作出 2×2 列联表. (3)计算 K2 的观测值 nad-bc2 k= . a+ ba+cb+dc+d (4)把 k 的观测值与临界值比较确定 X 与 Y 有关的程 度或无关系.
复习目标
课前预习
高频考点
课时小结
n
疑数据,这方面的工作称为残差分析. 2.独立性检验 (1)分类变量:如果某种变量的不同“值”表示个体 所属的不同类别,像这样的变量称为
分类变量
.
复习目标
课前预习
高频考点
课时小结
(2)列联表:列出的两个分类变量的 频数表 ,称为 列联表.假设有两个分类变量 X 和 Y,它们的可能取值 分别为{x1, x2}, {y1, y2}, 其样本频数列联表(称为 2×2 列联表)为 x1 x2 总计 2×2 列联表 y1 a c a+c y2 b d b+d 总计 a+b c+d n
(6)残差及残差平方和:残差 ei= 方和为 .
,残差平
(7)用相关指数来刻画回归的效果,其计算公式是 R=
2
1—
,R2 的值越大,说明残差平方和 .
越 小 ,说明回归模型的拟合效果越 好
复习目标
课前预习
高频考点
课时小结
(8)残差分析:在研究两个变量的关系时,首先要根 据散点图来粗略地判断它们是否线性相关,是否可用线 ^ ,e ^ ,„ , 性回归模型来拟合数据.然后可以通过残差e 1 2 ^ 来判断模型的拟合效果,判断原始数据中是否存在可 e
复习目标
课前预习
高频考点
课时小结
1.变量的相关关系 (1)相关关系: 当自变量的取值一定时, 因变量的取值 带有一定 随机性 的两个变量之间的关系, 叫相关关系, 与函数关系不同,相关关系是一种 不确定 关系. (2)散点图: 在平面直角坐标系中描点, 得到关于两个 变量的一组数据的图形,这样的图形叫作散点图.它可直 观地判断两个变量关系是否是可以用线性关系表示. 若这 些点分布在从左下角到右上角的区域内, 两个变量的这种 相关关系称为 正相关 ,若这些点分布在左上角到右下 角的区域内,两个变量的相关关系为
复习目标
课前预习
高频考点
课时小结
2 110 × ( 15 × 30 - 20 × 45 ) K2的观测值k= ≈2.829>2.706, 60×50×35×75
故在犯错误的概率不超过0.10的前提下认为两个学校的数学 成绩有差异.
n
.
通过求 Q= [yi-(b xi+a )]2 的最小值而得出回
i=1
归直线的方法, 即求回归直线, 使得样本数据的点到它 的距离的平方和最小,这一方法叫作最小二乘法.
复习目标 课前预习 高频考点 课时小结
- x· y xiyi-n-
i =1
n
(5) 相关系数: r=
n 2 2 -2 xi -n- x y2 i -n y i=1 i=1
高频考点
课时小结
解析 (1)从甲校抽取 110× 1 000
1 200 1 200+1 000
=60(人),
从乙校抽取 110× 故 x=10,y=7.
1 200+1 000
=50(人),
复习目标
课前预习
高频考点
课时小结
1学成绩的优秀率为50×100%=40%. (3)表格填写如图,
甲校 优秀 非优秀 总计 乙校 总计
复习目标
课前预习
高频考点
课时小结
参考数据与公式:
2 n ( ad - bc ) 由列联表中数据计算K2= . (a+b)(c+d)(a+c)(b+d)
临界值表
P(K2≥k0) k0 0.10 0.05 0.010
2.706 3.841 6.635
复习目标
课前预习
变量的相关性、回归分析、独 立性检验
复习目标
课前预习
高频考点
课时小结
1.会作两个有关联变量的散点图,会利用散点图 认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回 归方程系数公式建立线性回归方程. 3.了解独立检验(只要求2×2列联表)的基本思 想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应 用.
复习目标
课前预习
高频考点
课时小结
题型三 例3
独立性检验
(2016· 人大附中模拟)大家知道,莫言是中国首位获得
诺贝尔奖的文学家,某高校文学社从男女生中各抽取50名同学 调查对莫言作品的了解程度,结果如下:
阅读过莫言的 作品数(篇) 男生 女生 0~25 26~50 51~75 76~100 101~130 3 4 6 8 11 13 18 15 12 10
复习目标 课前预习 高频考点 课时小结
解:(1)设成绩优秀的学生的人数为 x, x 2 由105=7,得 x=30. 故列联表为 优秀 非优秀 总计 甲班 乙班 总计 10 20 30 45 30 75 55 50 105
2 105 10 × 30 - 20 × 45 (2)K2= ≈6.109>3.841. 55×50×30×75
答案:D
复习目标
课前预习
高频考点
课时小结
2.有甲乙两个班级进行数学考试成绩分析,按照大于或等于 85 分为优秀,85 分以下为非优秀,统计成绩后,得到如下列联表: 优秀 非优秀 总计 甲班 乙班 总计 10 30 105
2 已知在全部 105 人中随机抽取 1 人为优秀的概率为7. (1)请完成上面的列联表; (2)根据列联表的数据, 若按 95%的可靠性要求, 能否认为“成 绩与班级有关系”.
分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10 y 3
(1)计算x,y的值; (2)若规定考试成绩在[120,150]内为优秀,请分别估计两所 学校数学成绩的优秀率;
复习目标
课前预习
高频考点
课时小结
(3)由以上统计数据填写下面的2×2列联表,并判断能否在 犯错误的概率不超过0.10的前提下认为两所学校的数学成绩有差 异.
高频考点
课时小结
2 n ( ad - bc ) 附:K2= (a+b)(c+d)(a+c)(b+d)
P(K2≥k0) k0
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010 6.635
0.455 0.708 1.323 2.072 2.706 3.841 5.024
复习目标
课前预习
复习目标
课前预习
高频考点
课时小结
(1)试估计该校学生阅读莫言作品超过50篇的概率; (2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了 解”,否则为“一般了解”.根据题意完成下表,并判断能否 有75%的把握认为对莫言作品非常了解与性别有关?
非常了解 男生 女生 合计 一般了解 合计
复习目标
课前预习
复习目标
课前预习
高频考点
课时小结
4. 甲、乙、丙、丁四位同学各自对 A、B 两变量的线性 相关性做试验,并用回归分析方法分别求得相关系数 r 与残 差平方和 m 如下表: 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现 A、B 两变量更强的线性相 关性?( A.甲 ) B.乙 C.丙 D.丁
,它
n
主要用于相关量的显著性检验,以衡量它们之间的线性 相关程度. 当 r>0 时,表示两个变量正相关;当 r<0 时,表示 两个变量负相关;|r|越接近 1,表明两个变量的线性相关 性越强; 当|r|接近 0 时, 表明两个变量间几乎不存在线性 相关关系.
复习目标 课前预习 高频考点 课时小结
分组 频数 [70,80) 3 [80,90) 4 [90,100) 8 [100,110) 15
分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x 3 2
复习目标
课前预习
高频考点
课时小结
乙校:
分组 频数 [70,80) 1 [80,90) 2 [90,100) 8 [100,110) 9
高频考点
课时小结
【解析】 (1)由抽样调查得阅读莫言作品在50篇以上的频 11+18+12+13+15+10 79 率为 = .据此估计该校学生阅读莫言 100 50+50 79 作品超过50篇的概率约为100.
复习目标
课前预习
高频考点
课时小结
(2)
非常了解 男生 女生 合计 30 25 55 一般了解 合计 20 25 45 50 50 100
解释 变量,
预报
变量.
复习目标
课前预习
高频考点
课时小结
(4)回归直线的方程为 y =b x+a ,其中 - x yi-- y xiyi-n- x· y xi--
i=1 i=1 n n
b =
= x xi--
i =1 n 2 2 - - n x x2 i i=1 n
,
a =
复习目标
课前预习
高频考点
课时小结
②当 K2>2.706 时,有 90%的把握认为变量 x,y 有 关系; ③当 K2>3.841 时,有 95%的把握认为变量 x,y 有 关系; ④当 K2>6.635 时,有 99%的把握认为变量 x,y 有 关系; ⑤当 K2>10.828 时,有 99.9%的把握认为变量 x,y 有关系.
根据列联表数据得:
2 100 × ( 30 × 25 - 20 × 25 ) K2= ≈1.010<1.323, 50×50×55×45
所以没有75%的把握认为对莫言作品非常了解与性别有关.
复习目标
课前预习
高频考点
课时小结
5.甲、乙两所学校高三年级分别有1 200人,1 000人,为 了了解两所学校全体高三年级学生在该地区六校联考的数学成 绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的 数学成绩,并作出了频数分布统计表如下: 甲校:
复习目标 课前预习 高频考点
负相关
.
课时小结
(3)回归分析: 对具有
相关关系
的两个变量进行统
计分析的方法叫作回归分析.通俗地讲,回归分析是寻找 相关关系中非确定关系的某种确定性. 在线性回归模型 y=bx+a+e 中, 因变量 y 的值由自变 量 x 和随机误差 e 共同确定,即自变量 x 只能解释部分 y 的变化,在统计中,我们把自变量 x 叫作 因变量 y 称为
2 n ad - bc 构造随机变量 K2= , 其中 n a+bc+da+cb+d
=a+b+c+d 为样本容量.
复习目标 课前预习 高频考点 课时小结
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为 “两个分类变量 有关系 量的独立性检验. 先假设两个分类变量 x 与 y 无关系,计算 K2 的值, 则 K2 的值应该很小,若 K2 值较大,就拒绝假设,只要 K2>2.706,就认为 x 与 y 有关系. (4)两个分类变量 x 和 y 是否有关系的判断方法: ①当 K2≤2.706 时,没有充分的证据判断变量 x,y 有关系,可以认为变量 x,y 没有关系; ”的方法,称为两个分类变
复习目标
课前预习
高频考点
课时小结
解:可用相关系数 r 描述线性相关关系的强弱,|r|越接 近 1,表示两个变量有更强的相关关系;可用残差平方和描 述回归模型的拟合效果,残差平方和越小,其相关指数 R2 越小,表明回归模型的拟合效果越好.因此,丁同学的试 验结果体现 A,B 两变量有更强的相关性.选 D.
所以有 95%的把握认为成绩与班级有关系,即按 95%的 可靠性要求,可认为“成绩与班级有关系”.
复习目标 课前预习 高频考点 课时小结
2.独立性检验的一般步骤: (1)假设两个分类变量 X 与 Y 无关系. (2)作出 2×2 列联表. (3)计算 K2 的观测值 nad-bc2 k= . a+ ba+cb+dc+d (4)把 k 的观测值与临界值比较确定 X 与 Y 有关的程 度或无关系.
复习目标
课前预习
高频考点
课时小结
n
疑数据,这方面的工作称为残差分析. 2.独立性检验 (1)分类变量:如果某种变量的不同“值”表示个体 所属的不同类别,像这样的变量称为
分类变量
.
复习目标
课前预习
高频考点
课时小结
(2)列联表:列出的两个分类变量的 频数表 ,称为 列联表.假设有两个分类变量 X 和 Y,它们的可能取值 分别为{x1, x2}, {y1, y2}, 其样本频数列联表(称为 2×2 列联表)为 x1 x2 总计 2×2 列联表 y1 a c a+c y2 b d b+d 总计 a+b c+d n
(6)残差及残差平方和:残差 ei= 方和为 .
,残差平
(7)用相关指数来刻画回归的效果,其计算公式是 R=
2
1—
,R2 的值越大,说明残差平方和 .
越 小 ,说明回归模型的拟合效果越 好
复习目标
课前预习
高频考点
课时小结
(8)残差分析:在研究两个变量的关系时,首先要根 据散点图来粗略地判断它们是否线性相关,是否可用线 ^ ,e ^ ,„ , 性回归模型来拟合数据.然后可以通过残差e 1 2 ^ 来判断模型的拟合效果,判断原始数据中是否存在可 e
复习目标
课前预习
高频考点
课时小结
1.变量的相关关系 (1)相关关系: 当自变量的取值一定时, 因变量的取值 带有一定 随机性 的两个变量之间的关系, 叫相关关系, 与函数关系不同,相关关系是一种 不确定 关系. (2)散点图: 在平面直角坐标系中描点, 得到关于两个 变量的一组数据的图形,这样的图形叫作散点图.它可直 观地判断两个变量关系是否是可以用线性关系表示. 若这 些点分布在从左下角到右上角的区域内, 两个变量的这种 相关关系称为 正相关 ,若这些点分布在左上角到右下 角的区域内,两个变量的相关关系为