(完整word版)高中数学统计与统计案例概率知识点,推荐文档

合集下载

高考数学(理)一轮复习课件:统计与概率-3变量间的相关关系与统计案例(人教A版)

高考数学(理)一轮复习课件:统计与概率-3变量间的相关关系与统计案例(人教A版)
第十章 统计与概率
第3课时 变量间的相关关系与统计案例
考纲下载 1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立性检验(只要求 2×2 列联表)的基本思想、 方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
y2 总计
x1
a
x2
2
总计 b
21 73 25 27 46
则表中a、b处的值分别为( )
A.94、96
B.52、50
C.52、54
D.54、52
答案:C 解析:a=73-21=52,b=a+2=54,故选C.
5. [原创]某医疗研究所为了了解某种血清预防感冒的 作用,把 500 名使用过血清的人与另外 500 名未使用血清 的人一年中的感冒记录作比较,提出假设 H0:“这种血清 不能起到预防感冒的作用”,利用 2×2 列联表计算得 K2 ≈3.918,经查临界值表知 P(K2≥3.841)≈0.05.则下列结论 中,正确结论的序号是________.
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
随机变量 K2=(a+b)(cn+(da)d-(bac+)c2)(b+d), 其中 n=a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为“两
个分分类类变变量量有有关关系系”的方法称为两个分类变量的独立性
nn
(xi - x )(y i- y )
ii==11
为:^b=
, ^a=y-y---^b^bx-x- .

(完整word版)福建省厦门市高中数学教材人教A版目录(详细版)

(完整word版)福建省厦门市高中数学教材人教A版目录(详细版)

考试范围:文科:必考内容:必修①②③④⑤+选修1-1,1—2选考内容:无选考内容理科:必考内容:必修①②③④⑤+选修2—1,2—2,2—3选考内容(三选二):选修4-2,4—4,4—5文、理科必考内容:数学①必修第一章集合与函数概念1。

1 集合1。

1。

1 集合的含义与表示1。

1。

2 集合间的基本关系1.1.3 集合的基本运算1.2 函数及其表示1。

2.1 函数的概念1。

2。

2 函数的表示法1.3 函数的基本性质1。

3。

1 单调性与最大(小)值1.3。

2 奇偶性第二章基本初等函数(I)2.1 指数函数2.1.1 指数与指数幂的运算2。

1。

2 指数函数及其性质2。

2 对数函数2。

2。

1 对数与对数运算2.2.2 对数函数及其性质2。

3 幂函数第三章函数的应用3。

1 函数与方程3.1。

1 方程的根与函数的零点3.1.2 用二分法求方程的近似解3.2 函数模型及其应用3。

2.1 几类不同增长的函数模型3。

2.2 函数模型的应用实例数学②必修第一章空间几何体1。

1 空间几何体的结构1.1。

1 柱、锥、台、球的结构特征1.1.2 简单组合体的结构特征1。

2 空间几何体的三视图和直观图1。

2。

1 空间几何体的三视图1.2.2 空间几何体的直观图1.2.3 平行投影与中心投影1.3 空间几何体的表面积与体积1.3。

1 柱体、锥体、台体的表面积与体积1.3。

2 球的体积和表面积第二章点、直线、平面之间的位置关系2。

1 空间点、直线、平面之间的位置关系2。

1。

1 平面2.1.2 空间中直线与直线之间的位置关系2.1.3 空间中直线与平面之间的位置关系2。

1。

4 平面与平面之间的位置关系2.2 直线、平面平行的判定及其性质2.2。

1 直线与平面平行的判定2.2。

2 平面与平面平行的判定2.2。

3 直线与平面平行的性质2.2。

4 平面与平面平行的性质2.3 直线、平面垂直的判定及其性质2.3。

1 直线与平面垂直的判定2。

高中数学人教A版必修3《概率与统计》中的高考热点问题

高中数学人教A版必修3《概率与统计》中的高考热点问题

上一页
图2
返回首页
下一页
高三一轮总复习
(1)求频率分布直方图中 a 的值; (2)估计该企业的职工对该部门评分不低于 80 的概率; (3)从评分在[40,60)的受访职工中,随机抽取 2 人,求此 2 人的评分都在[40,50) 的概率. [规范解答] (1)因为(0.004+a+0.018+0.022×2+0.028)×10=1,所以 a =0.006.3 分 (2)由所给频率分布直方图知,50 名受访职工评分不低于 80 的频率为(0.022 +0.018)×10=0.4,所以该企业职工对该部门评分不低于 80 的概率的估计值为 0.4.6 分
上一页
返回首页
下一页
高三一轮总复习
[规律方法] 1.本题(1)中,指针连续地变化,是几何概型,第(2)问是顾客获 得优惠券的各种可能,是有限的可以一一列举的离散问题,满足古典概型.
2.题目以“市场销售手段”为背景,认真审题,实现知识迁移,恰当选择 概型是解题的关键.
上一页
返回首页
下一页
高三一轮总复习
下一页
高三一轮总复习
[温馨提示] 1.本题的易失分点: (1)不能利用频率分布直方图的频率求出 a 值. (2)求错评分落在[50,60),[40,50)间的人数. (3)没有指出基本事件总数与事件 M 包含的基本事件个数,或者只指出事件 个数,没有一一列举出 10 个基本事件及事件 M 包含的基本事件,导致扣 3 分或 2 分.
18
30
总计
36
24
60
2分
在患“三高”疾病人群中抽 9 人,则抽取比例为396=14,
所以女性应该抽取 12×14=3(人).5 分
上一页

2019届高三数学(理)复习题:模块六概率与统计第19讲 概率、统计、统计案例Word版含答案

2019届高三数学(理)复习题:模块六概率与统计第19讲 概率、统计、统计案例Word版含答案

第19讲概率、统计、统计案例1.[2018·全国卷Ⅱ]我国数学家陈景润在哥德巴赫猜想的研究中取得了世界领先的成果.哥德巴赫猜想是“每个大于2的偶数可以表示为两个素数的和”,如30=7+23.在不超过30的素数中,随机选取两个不同的数,其和等于30的概率是()A.B.C.D.[试做]命题角度古典概型①求古典概型概率的方法:直接法:将所求事件的概率分解为一些彼此互斥的事件的概率,再运用互斥事件概率的加法公式计算.间接法:先求事件的对立事件的概率,再用公式P(A)=1-P()求概率,即运用逆向思维(正难则反),特别是对“至多”“至少”型题目,用间接法求解更简便.②易错点:当事件A,B为互斥事件时,有P(A+B)=P(A)+P(B),否则P(A+B)=P(A)+P(B)-P(A∩B).2.(1)[2018·全国卷Ⅰ]如图M6-19-1所示,来自古希腊数学家希波克拉底所研究的几何图形.此图由三个半圆构成,三个半圆的直径分别为直角三角形ABC的斜边BC,直角边AB,AC.△ABC的三边所围成的区域记为Ⅰ,黑色部分记为Ⅱ,其余部分记为Ⅲ.在整个图形中随机取一点,此点取自Ⅰ,Ⅱ,Ⅲ的概率分别记为p1,p2,p3,则()图M6-19-1A.p1=p2B.p1=p3C.p2=p3D.p1=p2+p3(2)[2017·全国卷Ⅰ]如图M6-19-2所示,正方形ABCD内的图形来自中国古代的太极图,正方形内切圆中的黑色部分和白色部分关于正方形的中心成中心对称.在正方形内随机取一点,则此点取自黑色部分的概率是()图M6-19-2A. B.C. D.[试做]命题角度几何概型①利用几何概型概率公式求解.②处理几何概型与非几何知识的综合问题的关键是,通过转化,将某一事件所包含的事件用“长度”“角度”“面积”“体积”等表示出来,如把这两个变量分别作为一个点的横坐标和纵坐标,这样基本事件就构成了平面上一个区域,进而转化为面积的度量来解决.③易错点:利用几何概型的概率公式时,不要忽视事件是否等可能.3.[2018·全国卷Ⅲ]某群体中的每位成员使用移动支付的概率都为p,各成员的支付方式相互独立.设X为该群体的10位成员中使用移动支付的人数,DX=2.4,P(X=4)<P(X=6),则p= () A.0.7 B.0.6C.0.4D.0.3[试做]命题角度n次独立重复试验的期望与方差关键一:确定n的值;关键二:利用方差公式D(X)=np(1-p)求解.小题1用样本估计总体1 (1)某机构为了解“跑团”每月跑步的平均里程,收集并整理了2017年1月至2017年11月期间“跑团”每月跑步的平均里程(单位:km)的数据,得到如图M6-19-3所示的折线图.图M6-19-3根据折线图,下列结论正确的是()A.月跑步平均里程的中位数为6月份对应的里程数B.月跑步平均里程逐月增加C.月跑步平均里程的峰值出现在9月份D.1月至5月的月跑步的平均里程相对于6月至11月,波动性较小,变化比较平稳(2)为了了解一批产品的长度(单位:mm)情况,现抽取容量为400的样本进行检测,如图M6-19-4所示是检测结果的频率分布直方图,根据产品标准,单件产品长度在[25,30)的为一等品,在[20,25)和[30,35)的为二等品,其余均为三等品,则样本中三等品的件数为.图M6-19-4[听课笔记]【考场点拨】用频率分布直方图估计总体的数字特征应注意以下几点:(1)频率分布直方图的纵轴是,而不是频率;(2)在频率分布直方图中每个小长方形的面积才是相应区间的频率,在应用和作频率分布直方图时要注意;(3)最高的小长方形底边中点的横坐标是众数;(4)平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标是中位数;(5)频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和是中位数.【自我检测】1.甲、乙两名同学6次考试的成绩统计如图M6-19-5所示,甲、乙两组数据的平均数分别为,,标准差分别为σ甲,σ乙,则()图M6-19-5A.<,σ甲<σ乙B.<,σ甲>σ乙C.>,σ甲<σ乙D.>,σ甲>σ乙2.从某中学甲、乙两班中各随机抽取10名同学,测量他们的身高(单位:cm),所得数据用茎叶图表示,如图M6-19-6,由此可估计甲、乙两班同学的身高情况,则下列结论正确的是()图M6-19-6A.甲班同学身高的方差较大B.甲班同学身高的平均值较大C.甲班同学身高的中位数较大D.甲班同学身高在175 cm以上的人数较多3.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则()A.=4,s2<2B.=4,s2>2C.>4,s2<2D.>4,s2>24.为了解某校一次期中考试数学成绩的情况,抽取100位学生的数学成绩(单位:分),得到如图M6-19-7所示的频率分布直方图,其中成绩分组区间是[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则估计该次考试数学成绩的中位数是()图M6-19-7A.71.5B.71.8C.72D.75小题2变量间的相关关系、统计案例2 (1)随着国家“二孩政策”的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机附表:841 6.635由K2=算得,K的观测值k=≈9.616,参照附表,得到的正确结论是()A.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”B.有99%以上的把握认为“生育意愿与城市级别有关”C.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别无关”D.有99%以上的把握认为“生育意愿与城市级别无关”(2)某公司在对一种新产品进行合理定价前,将该产品按事先拟定的价格进行试销,得到如下数由表中数据,求得线性回归方程为=-4x+,当产品的销量为76件时,产品的单价大致为元.[听课笔记]【考场点拨】(1)回归直线一定过样本点的中心(,).(2)随机变量K2的观测值k越大,说明“两个变量有关系”的可能性越大.【自我检测】1.某中学的兴趣小组将在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图M6-19-8所示,则下列说法错误的是()①②图M6-19-8A.沸点与海拔高度呈正相关B.沸点与气压呈正相关C.沸点与海拔高度呈负相关D.沸点与海拔高度、沸点与气压的相关性都很强A.a=45,c=15B.a=40,c=20C.a=35,c=25D.a=30,c=301若y关于x的回归方程为=1.3x-1,则m=.小题3古典概型与几何概型3 (1)已知甲袋中有1个黄球和1个红球,乙袋中有2个黄球和2个红球.现随机地从甲袋中取出1个球放入乙袋,再从乙袋中随机取出1个球,则从乙袋中取出红球的概率为()A.B.C.D.(2)如图M6-19-9,E,F,G,H是平面四边形ABCD各边的中点,若在平面四边形ABCD内任取一点,则该点取自阴影部分的概率是()图M6-19-9A.B.C.D.[听课笔记]【考场点拨】求解概率题的几个失分点:(1)不能正确判断事件是古典概型还是几何概型导致错误;(2)古典概型问题中如涉及“至多”“至少”等事件的概率计算时,没有转化为求其对立事件的概率,来简化运算;(3)几何概型中,基本事件对应的区域测度把握不准导致错误;(4)利用概率公式时,忽视验证事件是否等可能导致错误.【自我检测】1.为了弘扬我国优秀传统文化,某中学广播站在中国传统节日:春节,元宵节,清明节,端午节,中秋节五个节日中随机选取两个节日来讲解其文化内涵,那么春节和端午节至少有一个被选中的概率是()A.0.3B.0.4C.0.6D.0.72.如图M6-19-10,半径为R的圆O内有四个半径相等的小圆,其圆心分别为A,B,C,D,这四个小圆都与圆O内切,且相邻两小圆外切,图M6-19-10则在圆O内任取一点,该点恰好取自阴影部分的概率为()A.12-8B.6-4C.9-6D.3-23.已知M是半径为R的圆上的一个定点,在圆上等可能地任取一点N,连接MN,则弦MN的长度超过R的概率是()A.B.C.D.4.连续2次抛掷一颗质地均匀的骰子,观察向上的点数,则事件“点数之积是3的倍数”的概率为.小题4条件概率、相互独立事件与独立重复试验4 (1)从装有若干个大小相同的红球、白球和黄球的袋中随机摸出1个球,摸到红球、白球和黄球的概率分别为,,.若从袋中随机摸出1个球,记下颜色后放回,连续摸3次,则记下的颜色中有红有白但没有黄的概率为()A.B.C.D.(2),其中A的各位数字中,a1=1,a k(k=2,3,4,5)出现0的概率为,出现1的概率为.若启动一次出现的数字为A=10101,则称这次试验成功,若成功一次得2分,失败一次得-1分,则100次重复试验的总得分X的方差为.[听课笔记]【考场点拨】求相互独立事件同时发生的概率的方法:(1)相互独立事件同时发生的概率等于他们各自发生的概率之积;(2)正面计算较复杂或难以入手时,可从其对立事件入手计算.特别提醒:利用独立重复试验的概率公式计算概率时,其计算量往往很大,计算时要小心谨慎,以确保计算的正确.【自我检测】1.某电视台“夏日水上闯关”节目中的前三关的过关率分别为0.8,0.7,0.6,只有通过前一关才能进入下一关,且是否通过每关相互独立.一选手参加该节目,则该选手只闯过前两关的概率为()A.0.56B.0.336C.0.32D.0.2242.据统计,连续熬夜48小时诱发心脏病的概率为0.055,连续熬夜72小时诱发心脏病的概率为0.19.现有一人已连续熬夜48小时未诱发心脏病,则他还能继续连续熬夜24小时不诱发心脏病的概率为()A.B.C.D.0.193.设随机变量ξ~B(2,p),η~B(4,p),若P(ξ≥1)=,则P(η≥2)的值为()A.B.C.D.4.设随机变量X~B,则P(X=3)=.第19讲概率、统计、统计案例典型真题研析1.C[解析] 不超过30的素数有2,3,5,7,11,13,17,19,23,29,共10个,从中任取两个有种取法,其中和为30的有3种,即(7,23),(11,19),(13,17),所以所求概率P==.2.(1)A(2)B[解析] (1)设AB=a,AC=b,BC=c,则a2+b2=c2.记△ABC的面积为S1,黑色部分的面积为S2,则S2=π+π+ab-π=π(a2+b2-c2)+ab=ab=S1.根据几何概型的概率计算公式可知p1=p2.(2)根据对称性,图中黑色部分、白色部分的面积相等.设正方形的边长为2,则正方形的面积为4,图中圆的面积为π,故黑色部分的面积为,所以所求的概率为=.3.B[解析] 由DX=10p(1-p)=2.4,解得p=0.4或p=0.6.由P(X=4)=p4(1-p)6<P(X=6)=p6(1-p)4,可知p>0.5,故p=0.6.故选B.考点考法探究小题1例1(1)D(2)100[解析] (1)由折线图知,月跑步平均里程的中位数为5月份对应的里程数,月跑步平均里程不是逐月增加的,月跑步平均里程的峰值出现在10月份,故A,B,C中结论不正确,故选D.(2)由题意得,三等品的频率为(0.012 5+0.025 0+0.012 5)×5=0.25,∴样本中三等品的件数为400×0.25=100.【自我检测】1.C[解析] 由图可知,甲同学的平均成绩高于乙同学,且甲同学的成绩更稳定,即>,σ甲<σ乙,故选C.2.A[解析] 观察茎叶图可知甲班同学身高的数据波动大,所以甲班同学身高的方差较大,A中结论正确;甲班同学身高的平均值为=169.2,乙班同学身高的平均值为=171,所以乙班同学身高的平均值较大,B中结论错误;甲班同学身高的中位数为=168,乙班同学身高的中位数为=171.5,所以乙班同学身高的中位数较大,C中结论错误;甲班同学身高在175 cm以上的有3人,乙班同学身高在175 cm以上的有4人,所以乙班同学身高在175 cm以上的人数较多,D中结论错误.故选A.3.A[解析] ∵某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,∴==4,s2==<2,故选A.4.C[解析] 由题,0.04+10a+0.3+0.4+0.1+10a=1,得a=0.008.因为成绩在[40,50),[50,60),[60,70)的频率之和为0.04+0.08+0.3=0.42,所以中位数位于区间[70,80)内,由=0.2,得中位数约为70+0.2×10=72.故选C.小题2例2(1)B(2)7.5[解析] (1)根据K2的观测值k=≈9.616>6.635,可得有99%以上的把握认为“生育意愿与城市级别有关”,或在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”,所以选B.(2)由表中数据得,=6.5,=80,∴=80+4×6.5=106,∴回归方程为=-4x+106.当y=76时,76=-4x+106,∴x=7.5.【自我检测】1.A[解析] 结合散点图可得,沸点与气压呈正相关,气压与海拔高度呈负相关,所以沸点与海拔高度呈负相关,且沸点与海拔高度、沸点与气压的相关性都很强.故选A.2.A[解析] 由题意易知,若|a-c|越大,则X与Y有关系的可能性越大,结合选项计算可得A选项符合题意.故选A.3.3.1[解析] 由题意得==2.5,代入到线性回归方程=1.3x-1,得=2.25.∴0.1+1.8+m+4=4×2.25=9,∴m=3.1.小题3例3(1)B(2)B[解析] (1)先从甲袋中取出1个球放入乙袋,再从乙袋中取出1个球的基本事件总数为=10,取出红球的基本事件总数为+=5,所以从乙袋中取出红球的概率P==.故选B.(2)连接AC,与HE,FG分别交于点M,N,如图所示,设点D到AC的距离为h,则S△ADC=AC·h,S四边形HGNM=HG××h=×AC·h,∴S四边形HGNM=S△ADC,∴S四边形HGFE=S四边形ABCD,∴所求概率是,故选B.【自我检测】1.D[解析] 春节和端午节至少有一个被选中的对立事件是春节和端午节都没有被选中,而春节和端午节都没有被选中的概率为=0.3,所以春节和端午节至少有一个被选中的概率为1-0.3=0.7.故选D.2.A[解析] 设小圆的半径为r,根据题意可知四边形ABDC为正方形,OA=r.由R-r=r,得r==(-1)R,所以大圆的面积为πR2,四个小圆的面积为4π(-1)2R2.由几何概型的概率计算公式可得,所求概率为=12-8.故选A.3.D[解析] 本题可利用几何概型求解.如图,O为圆心,NP为直径,且MO⊥NP.根据题意可得,该圆的周长为2πR,满足条件“弦MN的长度超过R”的点N所在的弧是,且其长度为πR,则弦MN的长度超过R的概率P=.故选D.4.[解析] 总事件数为6×6=36.当第1次掷骰子向上的点数为1,2,4,5时,满足条件的事件有(1,3),(1,6),(2,3),(2,6),(4,3),(4,6),(5,3),(5,6),共8个;当第1次掷骰子向上的点数为3,6时,满足条件的事件有2×6=12(个).所以所有满足条件的事件共20个,所求概率P==.小题4例4(1)C(2)[解析] (1)满足题意时,记下的颜色应是2个红1个白或者2个白1个红,据此可得,所求概率为××+××=.(2)启动一次出现数字为A=10101的概率P=×=.设100次独立重复试验中成功的次数为η,则η~B,∴D(η)=100××=.∵X=2η-1×(100-η)=3η-100,∴D(X)=D(3η-100)=9D(η)=.【自我检测】1.D[解析] 该选手只闯过前两关的概率为0.8×0.7×(1-0.6)=0.224,故选D.2.A[解析] 设事件A为连续熬夜48小时诱发心脏病,事件B为连续熬夜72小时诱发心脏病.由题意可知,P(A)=0.055,P(B)=0.19,则P()=0.945,P()=0.81,由条件概率计算公式可得,P(|)====.3.B[解析] 由P(ξ≥1)=,得p(1-p)+p2=2p-p2=,∴p=,∴P(η≥2)=p2(1-p)2+p3(1-p)+p4=6××+4××+=,故选B.4.[解析] 因为X~B,所以P(X=3)=××=.[备选理由] 例1主要考查条形图的识别以及应用;例2为高考试题,考查2×2列联表的应用;例3考查古典概型,需要在一定的排列组合计数的基础上完成;例4考查几何概型,涉及数学史,可以开拓学生的视野和应用意识;例5需要对所给的问题进行判断,属于二项分布问题,考查二项分布的方差.例1[配例1使用]下图是某企业在2008年—2017年企业产值的年增量(即当年产值比前一年产值增加的量)统计图(单位:万元),下列说法正确的是()A.2009年产值比2008年产值少B.从2011年到2015年,产值年增量逐年减少C.产值年增量的增量最大的是2017年D.2016年的产值年增长率可能比2012年的产值年增长率低[解析] D由图,2009年产值比2008年产值多29 565万元,故A中说法错误;2013年的产值年增量大于2012年的,故B中说法错误;产值年增量的增量最大的不是2017年,故C中说法错误;因为增长率等于增长量除以上一年产值,由于上一年产值不确定,所以2016年的产值年增长率可能比2012年的产值年增长率低,故D中说法正确.故选D.例2[配例2使用] [2014·江西卷]某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1A.成绩B.C.智商D.阅读量[解析] D根据独立性检验计算可知,阅读量与性别有关联的可能性较大.例3[配例3使用]若20件产品中有16件一级品,4件二级品,从中任取2件,则这2件中至少有1件二级品的概率是()A.B.C.D.[解析] C由题意,从20件产品中任取2件的情况总数为=190,其中至少有1件二级品的情况数为+=70,由古典概型的概率计算公式可得所求概率为=,故选C.例4[配例3使用]中国古代三国时期的数学家赵爽,创作了一幅“勾股弦方图”,通过数形结合,给出了勾股定理的详细证明.如图所示,在“勾股弦方图”中,以弦为边长得到的正方形ABCD是由4个全等的直角三角形和中间的小正方形组成,这一图形被称作“赵爽弦图”.若cos 2∠BAE=,则在正方形ABCD内随机取一点,该点恰好在正方形EFGH内的概率为() A.B.C.D.[解析] D如图可知,正方形EFGH的边长为a-b,正方形ABCD的边长为.由题意知cos 2∠BAE=2cos2∠BAE-1=2×-1=,得9a2=16b2,即a= b.∴所求概率为==.故选D.例5[配例4使用] [2017·全国卷Ⅱ]一批产品的二等品率为0.02,从这批产品中每次随机取一件,有放回地抽取100次,X表示抽到的二等品件数,则D(X)=.[答案] 1.96[解析] X~B(100,0.02),故D(X)=100×0.02×0.98=1.96.。

8-1统计与统计案例

8-1统计与统计案例

专题8 第1讲统计与统计案例一、选择题1.(2011·湛江测试)某学校进行问卷调查,将全校4200名同学分为100组,每组42人按1~42随机编号,每组的第34号同学参与调查,这种抽样方法是() A.简单随机抽样B.分层抽样C.系统抽样D.分组抽样[答案] C[解析]一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.2.(文)(2011·重庆文,4)从一堆苹果中任取10只,称得它们的质量如下(单位:克):12512012210513011411695120134则样本数据落在[114.5,124.5)内的频率为()A.0.2 B.0.3C.0.4 D.0.5[答案] C[解析]在[114.5,124.5]范围内的频数m=4,样本容量n=10,∴所求频率410=0.4. (理)(2011·四川理,1)有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5)2[15.5,19.5) 4[19.5,23.5)9[23.5,27.5)18[27.5,31.5)11[31.5,35.5)12[35.5,39.5)7[39.5,43.5) 3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是()A.16B.13C.12D.23[答案] B[解析]因为[31.5,35.5)12[35.5,39.5)7[39.5,43.5)3故[31.5,43.5)的概率为12+7+366=13,故选B.3.(2011·山东理,7)某产品的广告费用x与销售额y的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额大约为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元[答案] B[解析] 依题意:x =3.5,y =42, 又b ^=9.4,∴42=9.4×3.5+a ^. 而a ^=9.1,∴y ^=9.4x +9.1, 当x =6时,y ^=65.5,故选B.4.(2011·大连模拟)某养兔场引进了一批新品种,严格按照科学配方进行喂养,四个月后管理员称其体重(单位:kg),将有关数据进行整理后分为五组,并绘制频率分布直方图(如图所示).根据标准,体重超过6kg 属于超重,低于5kg 的不够分量.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.20,0.10,0.05,第二小组的频数为400,则该批兔子的总数和体重正常的频率分别为( )A .1000,0.50B .800,0.50C .800,0.60D .1000,0.60[答案] D[解析] 第二组的频率为1-0.25-0.20-0.10-0.05=0.40,所以兔子总数为4000.40=1000只,体重正常的频率为0.40+0.20=0.60.故选D.5.(文)(2011·江西文,7)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x ,则( )A .m e =m 0=xB .m e =m 0<xC .m e <m 0<xD .m 0<m e <x[答案] D[解析] 由图可以不难发现众数为5.中位数为5+62=5.5,平均值x =2×3+4×3+5×10+6×6+7×3+8×2+9×2+10×230=17930(理)(2011·江西理,6)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0 B. 0<r 2<r 1 C. r 2<0<r 1 D .r 2=r 1[答案] C[解析] 对于第一组数据x -=10+11.3+11.8+12.5+135=11.75,y -=1+2+3+4+55=3.∑i =15(x i -x -)(y i -y -)=(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)…(x 5-x -)(y 5-y -)=1.75×(-2)+(-0.45)×(-1)+0.05×0+0.75×1+1.25×2=0.2. ∑i =15(x i -x -)2=(x 1-x -)2+(x 2-x -)2+…+(x 5-x -)2=1.752+(-0.45)2+0.052+0.752+1.252=5.3925.∑i =15(y i -y -)2=(y 1-y -)2+(y 2-y -)2+…+(y 5-y -)2=(-2)2+(-1)2+02+12+22=10, 代入公式中有r 1=0.25.3925×10=0.27.09≈0.0282.同理r 2中∑i =15(x i -x -)(y i -y -)=-4.36<0,故r 2<0,∴r 2<0<r 1,故选C.6.(2011·湖南理,4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” [答案] C[解析] ∵6.635<K 2=7.8<10.828,∴我们有99%的把握认为二者有关,或者说在犯错的概率不超过1%的前提下二者有关. 7.(2011·合肥二检)甲、乙两名学生的六次数学测验成绩(百分制)的茎叶图如图所示.①甲同学成绩的中位数大于乙同学成绩的中位数; ②甲同学的平均分比乙同学的平均分高; ③甲同学的平均分比乙同学的平均分低;④甲同学成绩的方差小于乙同学成绩的方差. 上面说法正确的是( ) A .③④ B .①②④ C .②④ D .①③④[答案] A[解析] 由茎叶图知甲同学的成绩为72,76,80,82,86,90;乙同学的成绩为69,78,87,88,92,96.故甲同学成绩的中位数小于乙同学成绩的中位数,①错;计算得甲同学的平均分为81,乙同学的平均分为85,故甲同学的平均分比乙同学的平均分低,因此②错、③对;计算得甲同学成绩的方差小于乙同学成绩的方差,故④对.所以说法正确的是③④,选A.8.(2011·东北四市联考)在2011年5月1日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y ^=-3.2x +a (参考公式:回归方程y ^=bx +a ,a =y --b x -),则a =( )A .-24B .35.6C .40.5D .40[答案] D[解析] 价格的平均数是x -=9+9.5+10+10.5+115=10,销售量的平均数是y -=11+10+8+6+55=8,由y ^=-3.2x +a 知b =-3.2,所以a =y --b x -=8+3.2×10=40,故选D.二、填空题9.(2011·湖北文,11)某市有大型超市200家、中型超市400家、小型超市1400家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市________家.[答案] 20[解析] 属简单题,关键是清楚每一层的抽取比例都一样是n N.由于所有超市共计200+400+1400=2000家,需抽取100家,则抽取比例为1002000所以中型超市抽取400×1002000=20家.10.(文)(2011·广东文,13)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________.[答案] 0.5 0.53[解析] 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故回归直线方程为y ^=0.47+0.01x ,将x =6代入得6号打6小时篮球的投篮命中率约为0.53.(理)(2011·广东理,13)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.[答案] 185[解析] 设儿子身高y 与父亲身高x 有关系,列表如下:∵x =13(173+170+176)=173,y =13+176+182)=176,∑i =13x i y i =173×170+170×176+176×182=91362,∑i =13x 2i =1732+1702+1762=89805, ∴b ^=91362-3×173×17689805-3×1732=1,a ^=y -b ^x =176-173=3 ∴回归直线方程为y ^=x +3, ∴x =182时,y ^=182+3=185(cm).11.(文)(2011·西城抽样)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有________名.[答案] 40[解析] 由题知,成绩大于等于80分且小于90分的学生所占的频率为1-(0.005×2+0.025+0.045)×10=0.2,所以这200名同学中成绩大于等于80分且小于90分的学生有200×0.2=40名.(理)(2011·福州二检)若样本a 1,a 2,a 3,a 4,a 5的方差是3,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的方差是________.[答案] 12[解析] 若a -表示样本a 1,a 2,a 3,a 4,a 5的均值,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的均值为2a -+3.又15∑i =15 (a i -a -)2=3,∴15∑i =15[(2a i +3)-(2a -+3)]2=15∑i =15 (2a i -2a -)2=12. 12.把容量为1000的某个样本数据分为10组,并填写频率分布表.若前3组的频率依次构成公差为0.05的等差数列,且后7组的频率之和是0.79.则前3组中频率最小的一组的频数是________.[答案] 20[解析] 设前3组中频率最小的一组的频率是x .由题意得前3组的频率之和是1-0.79=0.21,则x +(x +0.05)+(x +0.05×2)=0.21,由此解得x =0.02,即前3组中频率最小的一组的频率是0.02,相应的频数是0.02×1000=20.三、解答题13.(2010·广东文,17)某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.[解析](1)由于大于40岁的42人中有27人收看新闻节目,而20至40岁的58人中,只有18人收看新闻节目,故收看新闻节目的观众与年龄有关.(2)27×545=3,∴大于40岁的观众应抽取3名.(3)由题意知,设抽取的5名观众中,年龄在20岁至40岁的为a1,a2,大于40岁的为b1,b2,b3,从中随机取2名,基本事件有:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共十个,设恰有一名观众年龄在20至40岁为事件A,则A中含有基本事件6个:(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),∴P(A)=610=3 5.14.(文)(2011·郑州二次质检)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.参考公式及数据:K2=(a+b)(c+d)(a+c)(b+d),[解析] 甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%. (2)因为K 2=100×(50×50×55×45=99≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(理)(2011·广东广州)某校高三(1)班的一次数学测试成绩的茎叶图如图所示和频率分布直方图如图所示,都受到不同程度的破坏,但可见部分如下,据此回答如下问题:(1)求全班人数;(2)求分数在[80,90)之间的人数;并计算频率分布直方图中[80,90)间的矩形的高; (3)若要从分数在[80,100]之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,求至少有一份分数在[90,100]之间的概率.[解析] (1)由茎叶图知,分数在[50,60)之间的频数为2,由频率分布直方图知,分数在[50,60)之间的频率为0.008×10=0.08,所以,全班人数为20.08=25(人).(2)分数在[80,90)之间的人数为25-2-7-10-2=4人,分数在[80,90)之间的频率为425=0.16,所以频率分布直方图中[80,90)间的矩形的高为0.1610=0.016.(3)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5,6. 则在[80,100)之间的试卷中任取两份的基本事件为:(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15个,其中至少有一个在[90,100]之间的基本事件有(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6)共9个,故至少有一份分数在[90,100]之间的概率是915=35.15.(2011·安徽文,20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.[解析] 由所给数据分析,年需求量与年份之间近似直线上升,可对数据进行预处理如下表对预处理后的数据,容易算出x =0,y =3.2∑i =15x i y i =-4×(-21)+(-2)×(-11)+2×19+4×29=260∑i =15x 2i =16+4+0+4+16=40∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=26040=6.5,∴a ^=y -b ^x =3.2 ∴所求回归直线方程y -257=6.5(x -2006)+3.2即y =6.5(x -2006)+260.2(2)当x =2012时,y =6.5(2012-2006)+260.2=299.2万吨=300万吨 故预测2012年粮食需求量约为300万吨.。

(完整word版)统计案例教学设计(word文档良心出品)

(完整word版)统计案例教学设计(word文档良心出品)

§3.1 回归分析的基本思想及其应用(1)教学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法; (3)能求出简单实际问题的线性回归方程.教学重点,难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法.教学过程一. 引言:我们知道函数关系是一种确定性关系,而相关关系是一种非确定性关系。

回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。

在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其解题步骤是:画散点图,求回归直线方程,并用回归直线方程进行预报。

二.探究一对于一组具有线性相关关系的数据),(),(),,(2211n n y x y x y x ,我们知道其回归方程的截据和斜率的最小二乘估计公式为1122211()()()()nni i iii i nni ii i x x y y x ynx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ 其中11n i i x x n ==∑, 11ni i y y n ==∑你能推倒出这两个计算公式吗?-------教材-P 80-81《必修3》知道,截距aˆ和斜率b ˆ分别是使 21)(),(∑=--=ni i i x y Q αββα取最小值时,βα,的值,如何求21)(),(∑=--=ni i ix yQ αββα的最小值?------见教材P 80-81三、问题情境求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm 的女大学生的体重。

根据《数学3(必修)》中的有关内容,解决这个问题的方法是:先作散点图,如下图所示:从散点图中可以看出,样本点呈条状分布,身高与体重有着较好的线性关系.因此可以用回归直线a bx y +=来刻画它们之间的关系.根据线性回归的系数公式,1221()ni i i ni i x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 得: 可以得到线性回归方程为0.84985.712y x =-,期中849.0=b是回归直线的斜率的估计值,说明身高x 每增加1个单位时,体重y 就增加849.0个单位,这表明身高与体重具有正的线性相关关系。

【精编范文】大数定律案例-word范文模板 (35页)

【精编范文】大数定律案例-word范文模板 (35页)

本文部分内容来自网络整理,本司不为其真实性负责,如有异议或侵权请及时联系,本司将立即删除!== 本文为word格式,下载后可方便编辑和修改! ==大数定律案例篇一:大数定律性的暗示。

大数定律【基本概念】概率论历史上第一个极限定理属于贝努里,后人称之为“大数定律”。

概率论中讨论随机变量序列的算术平均值向常数收敛的定律。

概率论与数理统计学的基本定律之一。

又称弱大数理论。

【主要含义】在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。

通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。

比如,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。

偶然中包含着必然。

小概率事件的必然发生,并非仅仅是一个统计学命题。

在统计学上,大数定律叙述了这样一种现象:某一个极小概率事件,当它发生的次数趋向于无穷大的时候,纵观整个发展历程,该事件“发生”的概率可趋向于1,即必然发生。

小概率事件必然发生。

这里谈到极小概率事件,一般用独立同分布的某个随机变量描述,它的发生次数用同分布的随机变量的个数来描述,遍历性可以保证:一个随机变量在不同时间上的取值行为,与独立同分布的随机变量在同一时点上的取值行为,这两者之间没有什么不同。

人们常用购买彩票的行为来举例说明:你买的彩票没有中奖,我买的也没有,但是总有个人中奖。

这是因为买彩票的人足够多。

以上的解释是给mak以外的读者看的(因为为了便于理解,我把大数定律稍稍做了一下歪曲,所以请mak不要追究,毕竟有遍历性作保),接下来的则是写给所有人。

在我们的生活中,mak提到的“微小的”事件无数次地发生着。

数量大到足以使大数定律发生作用。

其中有那么几件产生了不相称的大影响。

mak认为这些事情可以追根溯源,从而规范这些意外事件的效果。

【数学】高中数学统计与统计案例全章预习复习题型完美版

【数学】高中数学统计与统计案例全章预习复习题型完美版

【关键字】数学第八章统计与统计案例第1节随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.(1)先将总体的N个个体编号.(2)确定分段间隔K,对编号进行分段,当是整数时,取k=,当不是整数时,随机从总体中剔除余数,再取k=(N′为从总体中剔除余数后的总数).(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k).(4)按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.【例1】下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1C.2D.3【例2】(2017•葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A.12B.33C.06D.16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( ) A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3【变式1】(2017•大连二模)某单位员工按年龄分为A,B,C三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到的概率是,则该单位员工总数为()A.110B.10C.90D.80【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18D.19【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是,则男运动员应抽取()A.18人B.16人C.14人D.12人1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9B.10C.12D.134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为( )A.700B.669C.695D.6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )A.1030人B.97人C.950人D.970人第2节用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征题型一茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A.91.5和91.5B.91.5和92C.91和91.5D.92和92【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017•肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.3 课后作业1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是() A.19B.20C.21.5D.232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()A .45B .50C .55D .604.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温高于20 ℃的月份有5个5.(2015•广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图. (1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节 线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i ixn x yx n yx x x y y x xb 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y轴上 的截距. 3.相关系数1 知识梳理a .计算公式:∑∑∑===----=ni ni iini ii y yx x y yx x r 11221)()())((b .当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r |大于0.75时,认为两个变量有很强的线性相关性.题型一 相关关系的判断【例】某公司2010~2015年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如下表所示:根据统计资料,则( )A .利润中位数是16,x 与y 有正线性相关关系B .利润中位数是17,x 与y 有正线性相关关系C .利润中位数是17,x 与y 有负线性相关关系D .利润中位数是18,x 与y 有负线性相关关系【变式】对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关题型二 线性回归分析【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据,根据表中提供的数据,求出y 关于x 的线性回归方程为yˆ=0.7x +0.35,则下列结论错误的是( )A .线性回归直线一定过点(4.5,3.5)B .产品的生产能耗与产量呈正相关C .t 的取值必定是3.15D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017•南昌一模)设某中学的高中女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为yˆ=0.85x−85.71,2 题型分类则下列结论中不正确的是( )A .y 与x 具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加0.85kgD .若该中学某高中女生身高为160cm ,则可断定其体重必为50.29kg【例2】(2017•西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【变式2】(2017•成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x y ˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A .101.2B .108.8C .111.2D .118.2题型三 线性相关关系检验【例1】(2017•广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的为( )A .模型①的相关指数为0.976 C .模型③的相关指数为0.076B .模型②的相关指数为0.776 D .模型④的相关指数为0.351【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表: 求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017•泉州模拟)关于衡量两个变量y 与x 之间线性相关关系的相关系数r 与相关指数R 2中,下列说法中正确的是( )A .r 越大,两变量的线性相关性越强 C .r 的取值范围为(-∞,+∞)B .R 2越大,两变量的线性相关性越强 D .R 2的取值范围为[0,+∞)题型四 线性回归方程【例1】(2017•乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x (百元)与日销售量y (件)之间有如下关系: (1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017•全国模拟)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑==10180i ix,∑==10120i iy,∑==101184i ii yx ,∑==1012720i ix.(1)求家庭的月储蓄y 关于月收入x 的线性回归方程a x b yˆˆˆ+=; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017•甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图 (1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量. 参考数据:32.971=∑=i iy,17.4071=∑=i ii yt ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,=.a y bt -【例3】(2017•河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率; (2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度;②求y 与x 、z 与x 的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i ix x,456)(812≈-∑=i iy y,550)(812≈-∑=i iz z,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017•汕头一模)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据: 下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a b ˆ,ˆ小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年? 参考数据:4.18761=∑=i ii yx ,64.4761=∑=i ii zx ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.46.6 56.36.8289.81.61469108.8表中i w =i x ,w =1881i i w =∑.(1)根据散点图判断,y a bx =+与y c d x =+,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(I )的判断结果及表中数据,建立y 关于x 的回归方程.附:对于一组数据),(),,(2211v u v u ,……,),(n n v u ,其回归线u v βα+=的斜率和截距的最小二乘估计分别为:∑∑==---=ni ini i iu uv v u u121)())((ˆβ.【变式3】(2017•衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x (天数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中ii x w 1=,∑==101101i i w w .(1)根据散点图判断,a bx y+=ˆ,c xdy ˆˆˆ+=哪一个更适宜作价格y 关于时间x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程;求该产品投放市场第几天的销售额最高?最高为多少元?1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:第3_____kg. 3.(2017•合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x (亿元)与当年度该电商的销售收入y (亿元)的数据如下表:):(1)求y 关于x 的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用(Ⅰ)中的回归方程,预测该电商2017年的销售收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=ni ini i ix xy y x xb 121)())((,选用数据:1.1231=∑=ni ii yx ,4.(2017•包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业污水净化量; (3)请用数据说明回归方程预报的效果. 附注:参考数据:54=y ,21))((71=--∑=i i iy y t t,74.314≈,49)ˆ(712=-∑=i i iyy. 3 课后作业参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式为第4节 独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。

(完整版)高中数学统计与概率知识点归纳(全)

(完整版)高中数学统计与概率知识点归纳(全)

高中数学统计与概率知识点(文)一、众数: 一组数据中出现次数最多的那个数据。

众数与平均数的区别: 众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中表示平均每份的数量。

二、.中位数: 一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)三 .众数、中位数及平均数的求法。

①众数由所给数据可直接求出;②求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,最中间两个数的平均数就是中位数。

③求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。

四、中位数与众数的特点。

⑴中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不是这组数据中的数据; ⑵求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数; ⑶中位数的单位与数据的单位相同; ⑷众数考察的是一组数据中出现的频数;⑸众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同;(6)众数可能是一个或多个甚至没有;(7)平均数、众数和中位数都是描述一组数据集中趋势的量。

五.平均数、中位数与众数的异同:⑴平均数、众数和中位数都是描述一组数据集中趋势的量; ⑵平均数、众数和中位数都有单位; ⑶平均数反映一组数据的平均水平,与这组数据中的每个数都有关系,所以最为重要,应用最广; ⑷中位数不受个别偏大或偏小数据的影响;⑸众数与各组数据出现的频数有关,不受个别数据的影响,有时是我们最为关心的数据。

六、对于样本数据x 1,x 2,…,x n ,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s 表示.假设样本数据x 1,x 2,…,x n 的平均数为x ,则标准差的计算公式是:七、简单随即抽样的含义一般地,设一个总体有N 个个体, 从中逐个不放回地抽取n 个个体作为样本(n≤N), 如果每次12||||||n x x xx x x n22212()()()n x x x x x x sn抽取时总体内的各个个体被抽到的机会都相等, 则这种抽样方法叫做简单随机抽样.八、根据你的理解,简单随机抽样有哪些主要特点?(1)总体的个体数有限;(2)样本的抽取是逐个进行的,每次只抽取一个个体;(3)抽取的样本不放回,样本中无重复个体;(4)每个个体被抽到的机会都相等,抽样具有公平性.九、抽签法的操作步骤?第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上.第二步,将号签放在一个容器中,并搅拌均匀第三步,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.十一、抽签法有哪些优点和缺点?优点:简单易行,当总体个数不多的时候搅拌均匀很容易,个体有均等的机会被抽中,从而能保证样本的代表性.缺点:当总体个数较多时很难搅拌均匀,产生的样本代表性差的可能性很大.十一、利用随机数表法从含有N个个体的总体中抽取一个容量为n的样本,其抽样步骤如何?第一步,将总体中的所有个体编号.第二步,在随机数表中任选一个数作为起始数.第三步,从选定的数开始依次向右(向左、向上、向下)读,将编号范围内的数取出,编号范围外的数去掉,直到取满n个号码为止,就得到一个容量为n的样本.简单随机抽样一般采用两种方法:抽签法和随机数表法。

高中数学 概率与统计知识点总结

高中数学 概率与统计知识点总结

概率与统计一、概率及随机变量的分布列、期望与方差 (一)概率及其计算1.几个互斥事件和事件概率的加法公式①如果事件A 与事件B 互斥,则()P A B =()()P A P B +.推广:如果事件1A ,2A ,…,n A 两两互斥(彼此互斥),那么事件12n A A A +++发生的概率,等于这n 个事件分别发生的概率的和,即()12n P A A A +++=()()()12n P A P A P A ++. ②若事件B 与事件A 互为对立事件,则()P A =()1P B -. 2.古典概型的概率公式P (A )=A 包含的基本事件的个数基本事件的总数.(二)随机变量的分布列、期望与方差 1. 常用的离散型随机变量的分布列 (1)二项分布如果随机变量X 的可能取值为0,1,2,…,n ,且X 取值的概率()P X k ==C k k n kn p q-(其中0,1,2,,,1k n q p ==-),其随机变量分布列为X1 … k… nPC nnp q111C n np q- …C k kn knp q- …C n n n p q则称X ,X B n p ~(2)超几何分布在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,则事件{}X k =发生的概率为C CC k n kM N M n N--()0,1,2,,k m =,其中{}min ,m M n =,且n N ,M N ,n ,M ,*N ∈N .此时称随机变量X 的分布列为超几何分布列,称随机变量X 服从超几何分布.2.条件概率及相互独立事件同时发生的概率 I.条件概率一般地,设A ,B 为两个事件,且()0P A >,称()()()P AB P B A P A =为事件A 发生的条件下,事件B 发生的条件概率.在古典概型中,若用()n A 表示事件A 中基本事件的个数,则()()()()()n AB P AB P B A n A P A ==. II .相互独立事件(1)若,A B 相互独立.则()P AB =()()P A P B .(3)若A 与B 相互独立,则A 与B ,A 与B ,A 与B 也都相互独立. III .独立重复试验与二项分布在n 次独立重复试验中,事件A 发生k 次的概率为(每次试验中事件A 发生的概率为p )()C 1n kk kn p p --,事件A 发生的次数是一个随机变量X ,其分布列为()01)2()C 1(n kk k nP X k k n p p -===-⋯,,,,,此时称随机变量X 服从二项分布. 学科*网3.离散型随机变量的数学期望(均值)与方差 (1)若离散型随机变量X 的概率分布列为Xx 1 x 2 … x i … x nP p 1 p 2 … p i … p n则称EX =1122i i n n x p x p x p x p ++++⋯+⋯X . (2)若Y aX b =+,则EY =aEX b +,) (D aX b +=2a DX . (3)若()X B n p ~,,则EX np =.()(1)D X np p -=. 4.正态分布(1)正态曲线的性质:①曲线位于x 轴上方,与x 轴不相交;②曲线是单峰的,它关于直线x μ=对称;③曲线在x μ=2πσ;④曲线与x 轴之间的面积为1;⑤当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿x 轴平移,⑥当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越集中;σ越大,曲线越“矮胖”,表示总体的分布越分散,如图乙所示.(3)服从正态分布的变量在三个特殊区间内取值的概率 ①0().6826P X μσμσ-<+=;②2209().544P X μσμσ-<+=; ③3309().974P X μσμσ-<+=. 二、统计与统计案例 (一)抽样方法 1.简单随机抽样设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本()n N ,如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样,最常用的简单随机抽样的方法:抽签法和随机数表法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.(1)先将总体的N 个个体编号.(2)确定分段间隔k ,对编号进行分段,当Nn是整数时,取N k n =.如果遇到Nn不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除(3)在第1段用简单随机抽样确定第一个个体编号()l l k .(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号()l k +,再加k 得到第3个个体编号()2l k +,依次进行下去,直到获取整个样本.3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.分层抽样的应用范围:当总体是由差异明显的几个部分组成的,往往选用分层抽样.注:不论哪种抽样方法,总体中的每一个个体入样的概率是相同的. (二)统计图表的含义 1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差).(2)决定组距和组数.(3)将数据分组.(4)列频率分布表. (5)画频率分布直方图. (三)样本的数字特征1.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.2.中位数:将一组数据按大小依次排列,把处在中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数3.平均数:样本数据的算术平均数,即x =()121n x x x n+++.4.方差:()()()2222121ns x x x x x x n ⎡⎤=-+-++-⎢⎥⎣⎦(nx 是样本数据,n 是样本容量,x 是样本平均数).5.标准差:()()()222121n s x x x x x x n ⎡⎤=-+-++-⎢⎥⎣⎦. (四)线性回归直线方程 1.两个变量的线性相关(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为正相关;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为负相关. (3)相关系数r =∑∑∑===----ni nj jini iiy yx x y yx x 11221)()())((,当0r >时,表示两个变量正相关;当0r <时,表示两个变量负相关.r 的绝对值越接近1,表示两个变量的线性相关性越强;r 的绝对值越接近0,表示两个变量的线性相关性越弱.通常当r 的绝对值大于0.75时,便认为两个变量具有很强的线性相关关系.当1r =时,两个变量在回归直线上 2.回归直线方程(1)通过求21()ni i i Q y x αβ==--∑的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.该式取最小值时的α,β的值即分别为aˆ,b ˆ. (2)两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…,()n n x y ,,其回归方程为a x b y ˆˆˆ+=,则1122211()()ˆ()ˆˆnni i i ii i n ni ii i x x y y x ynx y b x x xnx ay bx ====⎧---⋅⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑.注:样本点的中心(),x y 一定在回归直线上.(3)相关系数22121ˆ()1()ni i i n i i y yR y y ==-∑=--∑.2R 越大,说明残差平方和越小,即模型的拟合效果越好;2R 越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,2R 表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好. (六)独立性检验(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)像下表所示列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为12(,)x x 和12(,)y y ,其样本频数列联表(称为22⨯列联表)为y 1 y 2 总计x 1 a b a b + x 2 cdc d +总计a c +b d +a b c d +++构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ ,其中n a b c d =+++为样本容量.确定临界值0k ,如果2K 的观测值0k k ,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.。

高中数学选修1-2第一章统计案例测试题带详细解答(可编辑修改word版)

高中数学选修1-2第一章统计案例测试题带详细解答(可编辑修改word版)
()
1
A、增加3个单位B、增加个单位C、减少3个单位D、减少个单位
3
【答案】C
【解析】
解释变量即回归方程里的自变量xˆ,由回归方程知预报变量yˆ减少 3 个单位
4.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U
与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之
选修 1-2 第一章、统计案例测试
一、选择题
1.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程为ybxa必过点() A.(2,2)B. (1.5 ,4)C.(1.5 ,0)D.(1,2)
【答案】B
【解析】
试题分析:由数据可知x1.5,y4,∴线性回归方程
4
为yb xa必过点(1.5,4)
5 =11.72
. Y =(1+2+3+4+5)
5 =3
∴这组数据的相关系数是r=7.2
19.172 =0.3755,
变量U与V相对应的一组数据为(10,5),(11.3,4),
(11.8,3),(12.5,2),(13,1)
. U =(5+4+3+2+1)
5 =3,
∴这组数据的相关系数是-0.3755,
【解析】
试题分析:由题意,年劳动生产率x(千元)和工人工资y(元)之间回归方程为
y1070x,
故当x增加 1 时,y要增加 70 元,
∴劳动生产率每提高1千元时,工资平均提高70元,故A正确.

压轴题07 统计与概率压轴题(原卷版)--2023年高考数学压轴题专项训练(全国通用-文)

压轴题07 统计与概率压轴题(原卷版)--2023年高考数学压轴题专项训练(全国通用-文)

压轴题07统计与概率压轴题题型/考向一:统计与概率题型/考向二:统计案例一、统计与概率热点一用样本估计总体1.频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.在频率分布直方图中各小长方形的面积之和为1.3.利用频率分布直方图求众数、中位数与平均数.(1)最高的小长方形底边中点的横坐标即众数.(2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.热点二概率1.古典概型的概率公式P(A)=事件A中包含的样本点数试验的样本点总数.2.条件概率公式设A,B为随机事件,且P(A)>0,则P(B|A)=P(AB)P(A).3.全概率公式设A1,A2,…,A n是一组两两互斥的事件,A1∪A2∪…∪A n=Ω,且P(A i)>0,i=1,2,…,n ,则对任意的事件B ⊆Ω,有P (B )=∑ni =1P (A i )P (B |A i ).○热○点○题○型一统计与概率一、单选题1.对某校中学学生的身高进行统计,并将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图),则该校学生身高数据的中位数为()A .165B .165.75C .166D .166.252.如图,一组数据123910,,,,,x x x x x ⋅⋅⋅,的平均数为5,方差为21s ,去除9x ,10x 这两个数据后,平均数为x ,方差为22s ,则()A .5x >,2212s s >B .5x <,2212s s <C .5x =,2212s s <D .5x =,2212s s >3.已知数据12,,,n x x x 是某市()*5,n n n ≥∈N 个普通职工的年收入,如果再加上世界首富的年收入1n x +,组成1n +个数据,则下列说法正确的是()A .年收入的平均数可能不变,中位数可能不变,方差可能不变B .年收入的平均数大大增加,中位数可能不变,方差变大C .年收入的平均数大大增加,中位数可能不变,方差变小D .年收入的平均数大大增加,中位数一定变大,方差可能不变4.甲、乙两名篮球运动员在8场比赛中的单场得分用茎叶图表示(图1),茎叶图中甲的得分有部分数据丢失,但甲得分的折线图(图2)完好,则()A .甲的单场平均得分比乙低B .乙的60%分位数为19C .甲、乙的极差均为11D .乙得分的中位数是16.55.某省普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考).其中“选择考”成绩根据学生考试时的原始卷面分数,由高到低进行排序,评定为,,,,A B C D E 五个等级.某高中2022年参加“选择考”总人数是2020年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平,统计了该校2020年和2022年“选择考”成绩等级结果,得到如下统计图.针对该校“选择考”情况,2022年与2020年比较,下列说法正确的是()A .获得A 等级的人数减少了B .获得B 等级的人数增加了1.5倍C .获得D 等级的人数减少了一半D .获得E 等级的人数相同6.在“2,3,5,7,11,13,17,19”这8个素数中,任取2个不同的数,则这两个数之和仍为素数的概率是()A .328B .528C .17D .3147.2022年11月30日,神舟十五号、神舟十四号乘组在太空“胜利会师”,在中国人自己的“太空家园”里留下了一张足以载入史册的太空合影.某班级开展了关于太空知识的分享交流活动,活动中有2名男生、3名女生发言,活动后从这5人中任选2人进行采访,则这2人中至少有1名男生的概率为()A .310B .25C .35D .7108.不透明箱子中装有大小相同标号为1,2,3,4,5的5个冰墩墩(北京冬奥会吉祥物),随机抽取2个冰墩墩,则被抽到的2个冰墩墩标号相邻的概率是()A .15B .25C .35D .45二、多选题9.如图是国家统计局公布的2021年5月至2021年12月的规模以上工业日均发电量的月度走势情况,则().A .2021年7月至2021年10月,规模以上工业月度日均发电量呈现下降趋势B .2021年5月至2021年12月,规模以上工业月度日均发电量的中位数为228C .2021年11月,规模以上工业发电总量约为6758亿千瓦时D .从2021年5月至2021年12月中随机抽取2个月份,规模以上工业月度日均发电量都超过230亿千瓦时的概率为32810.树人中学2006班某科研小组,持续跟踪调查了他们班全体同学一学期中16周锻炼身体的时长,经过整理得到男生、女生各周锻炼身体的平均时长(单位:h )的数据如下:男生:6.3、7.4、7.6、8.1、8.2、8.2、8.5、8.6、8.6、8.6、8.6、9.0、9.2、9.3、9.8、10.1;女生:5.1、5.6、6.0、6.3、6.5、6.8、7.2、7.3、7.5、7.7、8.1、8.2、8.4、8.6、9.2、9.4.以下判断中正确的是()A .女生每周锻炼身体的平均时长的平均值等于8B .男生每周锻炼身体的平均时长的80%分位数是9.2C .男生每周锻炼身体的平均时长大于9h 的概率的估计值为0.3125D .与男生相比,女生每周锻炼身体的平均时长波动性比较大11.已知甲袋内有a 个红球,b 个黑球,乙袋内有b 个红球,a 个黑球(),a b *∈N ,从甲、乙两袋内各随机取出1个球,记事件A =“取出的2个球中恰有1个红球”,B =“取出的2个球都是红球”,C =“取出的2个球都是黑球”,则()A .()0.75P AB +≤B .()()P A P B >C .()()P B P C <D .()()P A B P A C +=+12.某中学为了能充分调动学生对学术科技的积极性,鼓励更多的学生参与到学术科技之中,提升学生的创新意识,该学校决定邀请知名教授于9月2日和9月9日到学校做两场专题讲座.学校有东、西两个礼堂,第一次讲座地点的安排不影响下一次讲座的安排,假设选择东、西两个礼堂作为讲座地点是等可能的,则下列叙述正确的是()A .两次讲座都在东礼堂的概率是14B .两次讲座安排在东、西礼堂各一场的概率是12C .两次讲座中至少有一次安排在东礼堂的概率是34D .若第一次讲座安排在东礼堂,下一次讲座安排在西礼堂的概率是13三、解答题13.春节期间,我国高速公路继续执行“节假日高速免费政策”.某路桥公司为了解春节期间车辆出行的高峰情况,在某高速收费点发现大年初三上午9:20~10:40这一时间段内有600辆车通过,将其通过该收费点的时刻绘成频率分布直方图.其中时间段9:20~9:40记作区间[)20,40,9:40~10:00记作[)40,60,10:00~10:20记作[)60,80,10:20~10:40记作[]80,100,例如:10点04分,记作时刻64.(1)估计这600辆车在9:20~10:40时间段内通过该收费点的时刻的平均值(同一组中的数据用该组区间的中点值代表);(2)为了对数据进行分析,现采用分层抽样的方法从这600辆车中抽取5辆,再从这5辆车中随机抽取3辆,则恰有1辆为9:20~10:00之间通过的概率是多少?14.我国某医药研究所在针对某种世界疾病难题的解决方案中提到了中医疗法,为证实此方法的效用,该研究所购进若干副某种中草药,现按照每副该中草药的重量大小(单位:克)分为4组:[)0,20,[)20,40,[)40,60,[]60,80,并绘制频率分布直方图如下所示:(1)估计每副该中草药的平均重量(同一组中的数据用该区间的中点值作代表);(2)现从每副重量在[)20,40,[]60,80内的中草药中按照分层抽样的方式一共抽取6副该中草药,再从这6副中草药中随机取出2副进行分析,求取出的2副中仅有1副重量在[]60,80中的概率.二、统计案例热点一回归分析求经验回归方程的步骤(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).(2)计算出x -,y -,∑n i =1x 2i ,∑ni =1x i y i 的值.(3)计算a ^,b ^.(4)写出经验回归方程.热点二独立性检验独立性检验的一般步骤(1)根据样本数据列2×2列联表;(2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.○热○点○题○型二统计案例一、单选题1.以模型()e 0kxy c c =>去拟合一组数据时,设ln z y =,将其变换后得到线性回归方程21z x =-,则c =()A .12B .2e -C .1e -D .e2.下列说法正确的有()①对于分类变量X 与Y ,它们的随机变量2K 的观测值k 越大,说明“X 与Y 有关系”的把握越大;②我校高一、高二、高三共有学生4800人,其中高三有1200人.为调查需要,用分层抽样的方法从全校学生中抽取一个容量为200的样本,那么应从高三年级抽取40人;③若数据1x 、2x 、L 、n x 的方差为5,则另一组数据11x +、21x +、L 、1n x +的方差为6;④把六进制数()6210转换成十进制数为:()012621006162678⨯⨯⨯=++=.A .①④B .①②C .③④D .①③3.给出以下四个命题:①在回归分析中,可用相关指数2R 的值判断模型的拟合效果,2R 越大,模型的拟合效果越好;②回归模型中离差是实际值i y 与估计值ˆy的差,离差点所在的带状区域宽度越窄,说明模型拟合精度越高;③在一组样本数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅(2n ≥,12,,,n x x x ⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,,i i x y i n =⋅⋅⋅都在直线112y x =-+上,则这组样本数据的线性相关系数为12-;④对分类变量x 与y 的统计量2χ来说,2χ值越小,判断“x 与y 有关系”的把握程度越大.其中,真命题的个数为()A .1B .2C .3D .44.如图是近十年来全国城镇人口、乡村人口的折线图(数据来自国家统计局).根据该折线图,下列说法错误的是()A .城镇人口与年份呈现正相关B .乡村人口与年份的相关系数r 接近1C .城镇人口逐年增长率大致相同D .可预测乡村人口仍呈现下降趋势5.已知变量,x y 之间的线性回归方程为ˆ0.47.6yx =-+,且变量,x y 之间的一组相关数据如表所示,x681012y6m32则下列说法中错误的有()A .变量,x y 之间呈现负相关关系B .变量,x y 之间的相关系数0.4r =-C .m 的值为5D .该回归直线必过点(9,4)6.设两个相关变量x 和y 分别满足下表:x12345y128816若相关变量x 和y 可拟合为非线性回归方程ˆ2bx a y+=,则当6x =时,y 的估计值为()(参考公式:对于一组数据()11u v ,,()22u v ,,⋯,()n n u v ,,其回归直线ˆˆˆvu αβ=+的斜率和截距的最小二乘估计公式分别为:1221ˆni ii nii u v nu vunu β==-⋅=-∑∑,ˆˆav u β=-;51.152≈)A .33B .37C .65D .737.通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有16的男大学生“不看”,有13的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数可能为()A .150B .170C .240D .1758.已知一组样本数据()()()1122,,,,,,n n x y x y x y ,根据这组数据的散点图分析x 与y 之间的线性相关关系,若求得其线性回归方程为0.8587ˆ 5.yx =-,则在样本点(165,57)处的残差为()A . 2.45-B .2.45C .3.45D .54.55二、多选题9.下列关于成对数据的统计说法正确的有()A .若当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关B .样本相关系数r 的绝对值大小可以反映成对样本数据之间线性相关的程度C .通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据D .决定系数2R 越大,模型的拟合效果越差10.某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:编号12345678910身高/cm 165168170172173174175177179182体重/kg55896165677075757880由表中数据制作成如下所示的散点图:由最小二乘法计算得到经验回归直线1l 的方程为 11y bx a =+ ,相关系数为1r ,决定系数为21R ;经过残差分析确定()168,89为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线2l 的方程为 22y bx a =+ ,相关系数为2r ,决定系数为22R .则以下结论中正确的有()A . 12a a >B .12bb > C .12r r <D .2212R R >11.下列命题中为真命题的是()A .用最小二乘法求得的一元线性回归模型的残差和一定是0.B .一组数按照从小到大排列后为:1x ,2x ,…,n x ,计算得:25%17n ⨯=,则这组数的25%分位数是17x .C .在分层抽样时,如果知道各层的样本量、各层的样本均值及各层的样本方差,可以计算得出所有数据的样本均值和方差.D .从统计量中得知有97%的把握认为吸烟与患肺病有关系,是指推断有3%的可能性出现错误.12.给出下列说法,其中正确的是()A .某病8位患者的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50百分位数为5.5B .已知数据12,,x x 的平均数为2,方差为3,那么数据121x +,221x +,L 的平均数和方差分别为5,13C .在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定D .样本相关系数()1,1r ∈-三、解答题13.国家发改委和住建部等六部门发布通知,提到:2025年,农村生活垃圾无害化处理水平将明显提升.现阶段我国生活垃圾有填埋、焚烧、堆肥等三种处理方式,随着我国生态文明建设的不断深入,焚烧处理已逐渐成为主要方式.根据国家统计局公布的数据,对2013-2020年全国生活垃圾焚烧无害化处理厂的个数y (单位:座)进行统计,得到如下表格:年份20132014201520162017201820192020年份代码x 12345678垃圾焚烧无害化处理厂的个数y166188220249286331389463(1)根据表格中的数据,可用一元线性回归模型刻画变量y 与变量x 之间的线性相关关系,请用相关系数加以说明(精确到0.01);(2)求出y 关于x 的经验回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用(2)所求的经验回归方程预测吗?请简要说明理由.参考公式:相关系数()()ni i x x y y r --=∑ˆˆˆybx a =+中斜率和截距的最小二乘法估计公式分别为()()()121ˆˆˆ,n ii i ni i x x yy b a y bx x x ==--==-∑∑参考数据:88882211112292,204,730348,12041i i i i i i i i i y x y x y ========∑∑∑∑,257385.84=≈≈14.为加快推动旅游业复苏,进一步增强居民旅游消费意愿,山东省人民政府规定自2023年1月21日起至3月31日在全省实施景区门票减免,全省国有A 级旅游景区免首道门票,鼓励非国有A 级旅游景区首道门票至少半价优惠.本次门票优惠几乎涵盖了全省所有知名的重点景区,据统计,活动开展以来游客至少去过两个及以上景区的人数占比约为90%.某市旅游局从游客中随机抽取100人(其中年龄在50周岁及以下的有60人)了解他们对全省实施景区门票减免活动的满意度,并按年龄(50周岁及以下和50周岁以上)分类统计得到如下不完整的22⨯列联表:不满意满意总计50周岁及以下5550周岁以上15总计100(1)根据统计数据完成以上22⨯列联表,并根据小概率值0.001α=的独立性检验,能否认为对全省实施景区门票减免活动是否满意与年龄有关联?(2)现从本市游客中随机抽取3人了解他们的出游情况,设其中至少去过两个及以上景区的人数为X ,若以本次活动中至少去过两个及以上景区的人数的频率为概率.①求X 的分布列和数学期望;②求()11P X -≤.参考公式及数据:()()()()()22n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.()2P k αχ=≥0.1000.0500.0100.001k 2.706 3.841 6.63510.828。

高中数学统计与概率知识点归纳(全)

高中数学统计与概率知识点归纳(全)

高中数学统计与概率知识点(文)一、众数: 一组数据中出现次数最多的那个数据。

众数与平均数的区别: 众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中表示平均每份的数量。

二、.中位数: 一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)三 .众数、中位数及平均数的求法。

①众数由所给数据可直接求出;②求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,最中间两个数的平均数就是中位数。

③求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。

四、中位数与众数的特点。

⑴中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不是这组数据中的数据; ⑵求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数; ⑶中位数的单位与数据的单位相同; ⑷众数考察的是一组数据中出现的频数;⑸众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同;(6)众数可能是一个或多个甚至没有;(7)平均数、众数和中位数都是描述一组数据集中趋势的量。

五.平均数、中位数与众数的异同:⑴平均数、众数和中位数都是描述一组数据集中趋势的量; ⑵平均数、众数和中位数都有单位; ⑶平均数反映一组数据的平均水平,与这组数据中的每个数都有关系,所以最为重要,应用最广; ⑷中位数不受个别偏大或偏小数据的影响;⑸众数与各组数据出现的频数有关,不受个别数据的影响,有时是我们最为关心的数据。

六、对于样本数据x 1,x 2,…,x n ,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s 表示.假设样本数据x 1,x 2,…,x n 的平均数为x ,则标准差的计算公式是:七、简单随即抽样的含义一般地,设一个总体有N 个个体, 从中逐个不放回地抽取n 个个体作为样本(n≤N), 如果每次12||||||n x x xx x x n22212()()()n x x x x x x sn抽取时总体内的各个个体被抽到的机会都相等, 则这种抽样方法叫做简单随机抽样.八、根据你的理解,简单随机抽样有哪些主要特点?(1)总体的个体数有限;(2)样本的抽取是逐个进行的,每次只抽取一个个体;(3)抽取的样本不放回,样本中无重复个体;(4)每个个体被抽到的机会都相等,抽样具有公平性.九、抽签法的操作步骤?第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上.第二步,将号签放在一个容器中,并搅拌均匀第三步,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.十一、抽签法有哪些优点和缺点?优点:简单易行,当总体个数不多的时候搅拌均匀很容易,个体有均等的机会被抽中,从而能保证样本的代表性.缺点:当总体个数较多时很难搅拌均匀,产生的样本代表性差的可能性很大.十一、利用随机数表法从含有N个个体的总体中抽取一个容量为n的样本,其抽样步骤如何?第一步,将总体中的所有个体编号.第二步,在随机数表中任选一个数作为起始数.第三步,从选定的数开始依次向右(向左、向上、向下)读,将编号范围内的数取出,编号范围外的数去掉,直到取满n个号码为止,就得到一个容量为n的样本.简单随机抽样一般采用两种方法:抽签法和随机数表法。

第十章 统计与概率10-3变量间的相关关系与统计案例

第十章  统计与概率10-3变量间的相关关系与统计案例

第10章 第3节一、选择题1.(文)(2010·重庆文,5)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为( )A .7B .15C .25D .35[答案] B[解析] 抽取比例为350 250 150=7 5 3,因为青年职工抽取7人,所以中年职工抽取5人,老年职工抽取3人,所以样本容量为7+5+3=15人,故选B.(理)设某项试验的成功率是失败率的2倍,用随机变量ξ去描述1次试验的成功次数,则P (ξ=0)和D (ξ)的值依次为( )A .1,6 B.12,12 C.13,29D.14,516[答案] C[解析] 由题意,设ξ的分布列为即“ξ=0”表示试验失败,“ξ 由p +2p =1,得p =13∴P (ξ=0)=13,又E (ξ)=0×13+1×23=23,∴D (ξ)=⎝⎛⎭⎫0-232×13+⎝⎛⎭⎫1-232×23=29 故选C.2.(2010·安徽江南十校联考)最小二乘法的原理是( ) A .使得∑i =1n[y i -(a +bx i )]最小B .使得∑i =1n[y i -(a +bx i )2]最小C .使得∑i =1n[y i 2-(a +bx i )2]最小D .使得∑i =1n[y i -(a +bx i )]2最小[答案] D[解析] 根据回归方程表示到各点距离最小的直线方程,即总体偏差最小,亦即∑i =1n[y i -(a +bx i )]2最小.3.(2010·银川模拟)下列四个命题正确的是( )①线性相关系数r 越大,两个变量的线性相关性越强,反之,线性相关性越弱; ②残差平方和越小的模型,拟合的效果越好;③用相关指数R 2来刻画回归效果,R 2越小,说明模型的拟合效果越好; ④随机误差e 是衡量预报精确度的一个量,它满足E (e )=0. A .①③ B .②④ C .①④D .②③[答案] B[解析] 线性相关系数r 满足|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱,故①错误;相关指数是度量模型拟合效果的一种指标.相关指数R 2越接近于1,模型的拟合效果越好,R 2越大,残差平方和就越小,故残差平方和越小的模型,拟合效果越好,故②对③错.故选B.4.若两个分类变量x 、y 的列联表为则变量y 与x A .99%以上B .95%以上C .99.5%以上D .95%以下[答案] B[解析] n =15+45+30+40=130,∴χ2=130×(15×40-45×30)260×70×45×85≈4.55>3.841,∴有95%以上的把握认为y 与x 有关系,故选B.5.(2010·北京延庆县模考)在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2 3 4 6 4 1,第三组的频数为12,则本次活动参加评比作品总数、上交作品数量最多的组的作品件数依次为( )A .60、18B .60、20C .80、18D .80、30[答案] A6.(文)已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )A.y ^=1.23x +4 B.y ^=1.23x +0.08 C.y ^=1.23x +0.8D.y ^=1.23x -0.08[答案] B[解析] 由条件知,x -=4,y -=5, 设回归直线方程为y ^=1.23x +a ,则 a =y --1.23x -=0.08.(理)(2010·延边州质检)两个相关变量满足如下关系:A.y ^=0.56x +997.4 B.y ^=0.63x -231.2 C.y ^=0.56x +501.4D.y ^=60.4x +400.7[答案] A[解析] x -=20,y -=1008.6,代入公式b ^=∑i =15(x i -x -)(y i -y -)∑i =15(x i -x -)2,及a ^=y --b ^x -中可得:b ^=0.56,a ^=997.4,故选A.7.(2010·山东省实验中学)设有n 个样本x 1,x 2,…,x n ,其标准差是S x ,另有n 个样本y 1,y 2,…,y n ,且y k =3x k +5,(k =1,2,…,n ),其标准差为S y ,则下列关系正确的是( )A .S y =3S x +5B .S y =3S xC .S y =3S xD .S y =3S x +5[答案] B[解析] S y 2=32S x 2,∴S y =3S x .[点评] 一般的数据x 1,x 2,…,x n 的平均数为x -,方差为S 2,则kx 1+b ,kx 2+b ,…,kx n +b 的平均数为k x -+b ,方差为k 2S 2.8.(2010·福州市质检)在某种新型材料的研制中,实验人员获得了下列一组实验数据:( )A .y =2x -2B .y =12(x 2-1)C .y =log 3xD .y =2x -2[答案] B[解析] 把表格中的数据代入选择项的解析式中,易得所求的最接近的一个函数是y =12(x 2-1).9.(文)(2010·厦门三中阶段训练)某校举行演讲比赛,9位评委给选手A 打出的分数如茎叶图所示,统计员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清,若统计员计算无误,则数字x 应该是( )A.5B .4C .3D .2[答案] D[解析] 去掉最低分87,去掉最高分94(假设x ≤4),则7×91=80×2+9+8+90×5+2+3+2+1+x ,∴x =2,符合题意,故选D.(理)(2010·福建省龙岩市质检)一位同学种了甲、乙两种树苗各1株,分别观察了9次、10次后,得到树苗高度的数据的茎叶图如图(单位:厘米),则甲、乙两种树苗高度数据的中位数之和是( )A.44 B .54 C .50D .52[答案] D[解析] 根据茎叶图可得,观察甲树苗9次得到的树苗高度分别为:19,20,21,23,24,37,33,32,31;观察乙树苗10次得到的树苗高度分别为:10,14,10,26,24,30,44,46,46,47,易得甲树苗高度的中位数为24,乙树苗高度的中位数为26+302=28,因此24+28=52.[点评] 在茎叶图中找中位数时,n 为奇数,前后各去掉n -12个,剩下一个即是;n 为偶数,前后各去掉n -22个,剩下两个的平均数即是,用这种方法找中位数,必须注意,茎叶图中数据是按规则从小到大排列的,否则去掉两端数字时,大的从大到小找,小的从小到大找.10.(09·上海)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )A .甲地:总体均值为3,中位数为4B .乙地:总体均值为1,总体方差大于0C .丙地:中位数为2,众数为3D .丁地:总体均值为2,总体方差为3 [答案] D[解析] 逐项验证,由0,0,0,2,4,4,4,4,4,8可知,A 错;由0,0,0,0,0,0,0,0,2,8可知,B 错;由0,0,1,1,2,2,3,3,3,8可知,C 错.故选D.[点评] x -=2时,(x 1-2)2+(x 2-2)2+…+(x 10-2)210=3.即(x 1-2)2+(x 2-2)2+…+(x 10-2)2=30.显然(x i -2)2≤30(i =1,2,…,10),∵x i ∈N *,即x i ≤7.二、填空题11.(2010·广东文)某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:根据统计资料,居民家庭平均收入的中位数是________,家庭年平均收入与年平均支出有________线性相关关系.[答案] 13 正[解析] 找中位数时,将样本数据按大小顺序排列后奇数个时中间一个是中位数,而偶数个时须取中间两数的平均数,由统计资料可以看出,中位数为13万元,且年平均收入增多时,年平均支出也增多,因此两者正相关.12.观察两相关变量得到如下数据:则两变量的回归直线方程为________. [答案] y ^=0.179+0.905x [解析] x -=4.5,y -=4.25,∑i =18x i 2=204,∑i =18x i y i =191,b ^=∑i =18x i y i -8x -y-∑i =18x i 2-8x -2=191-8×4.5×4.25204-8×4.52≈0.905,a ^=y --b ^x -=4.25-0.905×4.5≈0.179, ∴所求回归直线方程为y ^=0.179+0.905x .13.(2010·湖南考试院调研)在某赛季篮球比赛中,甲、乙两名运动员每场比赛的得分统计茎叶图如图所示,则发挥较稳定的运动员是________.[答案]甲14.(2010·辽宁省实验中学模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,可以有________%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.独立性检验随机变量χ2值的计算公式:χ2=(a+b)(c+d)(a+c)(b+d).[答案]97.5三、解答题15.(2010·广东文,17)某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.[解析](1)由于大于40岁的42人中有27人收看新闻节目,而20至40岁的58人中,只有18人收看新闻节目,故收看新闻节目的观众与年龄有关.(2)27×545=3,∴大于40岁的观众应抽取3名.(3)由题意知,设抽取的5名观众中,年龄在20岁至40岁的为a 1,a 2,大于40岁的为b 1,b 2,b 3,从中随机取2名,基本事件有:(a 1,a 2),(a 1,b 1),(a 1,b 2),(a 1,b 3),(a 2,b 1),(a 2,b 2),(a 2,b 3),(b 1,b 2),(b 1,b 3),(b 2,b 3)共十个,设恰有一名观众年龄在20至40岁为事件A ,则A 中含有基本事件6个:(a 1,b 1),(a 1,b 2),(a 1,b 3),(a 2,b 1),(a 2,b 2),(a 2,b 3),∴P (A )=610=35.16.(文)(2010·新课标全国理,19)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )[解析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.(理)(09·辽宁)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸的结果如下表:甲厂乙厂(1)(2)由于以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”..[解析] (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)χ2=1000×(360×500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.17.(文)在10瓶饮料中,有2瓶是不合格产品,现质检员从这10瓶饮料中任意抽取2瓶进行检验.(1)求质检员检验到不合格产品的概率;(2)若把这10瓶饮料分成甲、乙两组,对其容量进行测量,数据如下表所示(单位:mL):[解析] (1)把10瓶饮料分别编号为1,2,3,4,5,6,7,8,a ,b .其中a ,b 表示不合格产品.则从中任意抽取两瓶饮料的基本事件有45个,即:(1,2),(1,3),(1,4),(1,5),(1,6),(1,7),(1,8),(1,a ),(1,b );(2,3),(2,4),(2,5),(2,6),(2,7),(2,8),(2,a ),(2,b );(3,4),(3,5),(3,6),(3,7),(3,8),(3,a ),(3,b );(4,5),(4,6),(4,7),(4,8),(4,a ),(4,b );(5,6),(5,7),(5,8),(5,a ),(5,b );(6,7),(6,8),(6,a ),(6,b );(7,8),(7,a ),(7,b );(8,a ),(8,b );(a ,b ).其中抽到不合格的事件有17个.∴质检员检验到不合格产品的概率为P =1745.(2)x -甲=257+259+260+261+2635=260,x -乙=258+259+259+261+2635=260,∴S 甲2=15[(257-260)2+(259-260)2+(260-260)2+(261-260)2+(263-260)2]=4,S 乙2=15[(258-260)2+(259-260)2+(259-260)2+(261-260)2+(263-260)2]=3.2.∵S 甲2>S 乙2,∴乙组饮料的容量更稳定些.(理)(2010·广东佛山)为了对2007年佛山市中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排列是60、65、70、75、80、85、90、95,物理分数从小到大排列是72、77、80、84、88、90、93、95.(1)若规定85分(包括85分)以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:(3)求y 与x 、z 与x 的线性回归方程(系数精确到0.01),并用相关指数比较所求回归模型的效果.参考数据:x -=77.5,y -=85,z -=81,∑i =18 (x i -x -)≈1050,∑i =18 (y i -y -)2≈456,∑i =18 (z i-z -)≈550,∑i =18 (x i -x -)(y i -y -)≈688,∑i =18 (x i -x -)(z i -z -)≈755,∑i =18 (y i -y ^i )≈7,∑i =18 (z i -z^i )2≈94,1050≈32.4,456≈21.4,550≈23.5.[解析] (1)这8位同学中恰有3位同学的数学和物理分数均为优秀,则需要先从物理的4个优秀分数中选出3个与数学优秀分数对应,种数是C 43A 33(或A 43),然后将剩下的5个数学分数和物理分数任意对应,种数是A 55.根据乘法原理,满足条件的种数是C 43A 33A 55.这8位同学的物理分数和数学分数分别对应的种数共有A 88.故所求的概率P =C 43A 33A 55A 88=114. (2)变量y 与x 、z 与x 的相关系数分别是r =68832.4×21.4≈0.99,r ′=75532.4×23.5≈0.99 可以看出,物理与数学、化学与数学的成绩都是高度正相关.(3)设y 与x 、z 与x 的线性回归方程分别是y ^=bx +a ,z ^=b ′x +a ′根据所给的数据可以计算出,b =6881050=0.65,a =85-0.65×77.5=34.63, b ′=7551050=0.72,a ′-81-0.72×77.5=25.20 所以y 与x 和z 与x 的回归方程分别是y ^=0.65x +34.63,z ^=0.72x +25.20,又y 与x 、z 与x 的相关指数是R 2=1-7456≈0.98, R ′2=1-94550≈0.83 故回归模型y ^=0.65x +34.63比回归模型z ^=0.72x +25.20的拟合的效果好.。

第十章 统计与概率10-3变量间的相关关系与统计案例

第十章  统计与概率10-3变量间的相关关系与统计案例

(3)利用回归直线方程对总体进行估计 ^ ^ ^ 若回归直线方程为y=bx+a,则在x=x0处的估计值: ^0=bx0+a. ^ y ^ (4)线性相关强度的检验: 对于变量x与y随机取到的n对数据(xi,yi),用y与x间 x y xi--yi--
i=1 n
的相关系数r= x y xi--2· yi--2
i=1 4 ^
所以,由最小二乘法确定的回归直线方程的系数 为:


(3)由(2)的回归方程及技改前生产100吨甲产 品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).

(2010·山东枣庄模考)某单位为了了解用电 量y(度)与气温x(℃)之间的关系,随机统计 了某4天的用电量与当天气温,并制作了对 照表: 18 13 10 -1 气温(℃)


疱疹面积不 疱疹面积小 合计 小于 2 于70mm 70mm2 注射药物 A a= b=
注射药物 nad-bc2 c= d= 2 附:χ = B a+bc+da+cb+d 合计
n=

[解析]
(1)
可以看出注射药物A后的疱疹面积的中位数 在65至70之间,而注射药物B后的疱疹面积 的中位数在70至75之间,所以注射药物A后 疱疹面积的中位数小于注射药物B后疱疹面 积的中位数. (2)表3: 疱疹面积 疱疹面积不 合计 小于 小于 70mm2 70mm2 100 注射药物A a=70 b=30 100 注射药物B c=35 d=65 105 95 合计 n=200
关关系,这条直线叫做回归直线. 数为:

(2)回归直线方程的求法——最小二乘法.
n n y x y xiyi-n x · xi--yi-- i=1 i=1 ^ = b= n n 2 2 x xi -n x xi--2 i=1 i=1 a=--b x ^ y ^ 1 n 1 n 其中 - = x i, - = y i,( - , - )称作样本点的中 x y x y n i=1 n i=1 心. ^ ^ a , b 表示由观察值用最小二乘法求得的a,b的估计 值,叫回归系数.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计与统计案例概率(文科)
知识点
1.抽样调查
(1)抽样调查
通常情况下,从调查对象中按照一定的方法抽取一部分,进行______,获取数据,并以此对调查对象的某项指标作出______,这就是抽样调查.
(2)总体和样本
调查对象的称为总______体,被抽取的称为样______本.
(3)抽样调查与普查相比有很多优点,最突出的有两点:
①______
②节约人力、物力和财力.
2.简单随机抽样
(1)简单随机抽样时,要保证每个个体被抽到的概率.
(2)通常采用的简单随机抽样的方法:_____
3.分层抽样
(1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.
(2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
4.系统抽样
系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按______(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机械抽样.
5.统计图表
统计图表是______数据的重要工具,常用的统计图表有______
6.数据的数字特征
(1)众数、中位数、平均数
众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.
中位数:将一组数据按大小依次排列,把处在______位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.
平均数:样本数据的算术平均数,即x =1n
(x 1+x 2+…+x n ). 在频率分布直方图中,中位数左边和右边的直方图的面积应该______
(2)样本方差
标准差s = 1n
[(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是,______x 是______
标准差是刻画数据的离散程度的特征数,样本方差是标准差的______.通常用样本方差估计总体方差,当______时,样本方差很接近总体方差.
7.用样本估计总体
(1)通常我们对总体作出的估计一般分成两种,一种是______,另一种______.
(2)在频率分布直方图中,纵轴表示,______数据落在各小组内的频率用______表示,各小长方形的面积总和等于.______
(3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图.
(4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且______,方便表示与比较.
8.相关性
(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的______
(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为____________
(3)在两个变量x 和y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是______,若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是______的.如果所有的点在散点图中没有关系,则称变量间是______的.
9.线性回归方程
(1)最小二乘法
如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+
[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法.
(2)线性回归方程
方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.
⎩⎪⎨⎪⎧ b =
∑n i =1 (x i -x )(y i -y )∑n i =1 (x i -x )2=∑n i =1x i y i -n x y ∑n i =1x 2i -n x 2,a =y -b x .
10.回归分析
(1)定义:对______的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心.
(3)相关系数
①r =∑n i =1
(x i -x )(y i -y )∑n i =1 (x i -x )2
∑n i =1
(y i -y )2
=∑n i =1x i y i -n x y
(∑n
i =1x 2i -n x 2)(∑n i =1y 2i -n y 2);
②当r >0时,表明两个变量正相关;
当r <0时,表明两个变量负相关;
当r =0时,表明两个变量线性不相关.
r 的绝对值越接近于1,表明两个变量之间的线性相关程度越高.r 的绝对值越接近于0,表明两个变量之间的线性相关程度越低.
11.独立性检验
设A ,B 为两个变量,每一个变量都可以取两个值,
变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1;
2×2列联表:
构造一个随机变量
χ2=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d ). 利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2______时,没有充分的证据判定变量A,B有关联,可以认为变量A,B______的;
当______时,有______的把握判定变量A,B有关联;
当______,有______的把握判定变量A,B有关联;
当______时,有______的把握判定变量A,B有关联.
12.基本事件的特点
(1)任何两个基本事件是______的;
(2)任何事件(除不可能事件)都可以表示______的和.
13.古典概型
具有以下两个特点的概率模型称为古典的概率模型,简称古典概型.
(1)试验的所有可能结果______,每次试验只出现其中的一个结果;
(2)每一个试验结果出现的可能______.
14.如果一次试验中可能出现的结果有n个,而且所有结果出现的可能性都相等,那么每一
个基本事件的概率都是1
n;如果某个事件A包括的结果有m个,那么事件A的概率P(A)
=_____
15.古典概型的概率公式
P(A)=______
1.几何概型
向平面上有限区域(集合)G内随机地投掷点M,若点M落在子区域G1G的概率与G1的面积成正比,而与G的形状、位置无关,即P(点M落在G1)=______,则称这种模型为几何概型.
2.几何概型中的G也可以是空间中或直线上的有限区域,相应的概率是______之比或______之比.
3.借助______可以估计随机事件发生的概率.。

相关文档
最新文档