第2讲 统计、统计案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2讲 统计、统计案例
统计的研究对象是数据,核心是数据分析,高考中统计考题常常与概率相联系,并具有鲜明的时代和文化背景,试题难度逐渐加大,重点提升数据分析、数学建模、逻辑推理和数学运算素养。
基础知识回顾 : 1.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频率分布直方图等。
(2)作频率分布直方图的步骤
①求极差;②决定组距与组数;③将数据分组,列频率分布表;⑤画频率分布直方图。
2.样本数字特征
(1)平均数:()n x x x n
x +++= (1)
21。
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)。
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)。
(4)方差和标准差
①方差:()
2
1
2
212
11∑∑==--=n i i n i i x x n x x n s 或。
②标准差:()
2
11∑=-=n i i x x n s 。
3.相关关系的强弱
(1)样本相关系数:现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里用
()()
()()
∑∑∑∑∑∑======---=
----=
n
i i n
i i n
i i
i n
i i
n i i
n
i i
i
y
n y x
n x y
x n y
x y
y
x x y
y
x x r 1
2
21
2
21
2
1
2
1
1
来衡量y 与x 的线性相关
性强弱,我们称r 为变量x 和变量y 的样本相关系数。
(2)相关系数的性质:①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系。
②样本相关系数r 的取值范围为[-1,1];当|r |越接近1时,成对样本数据的线性相关程度越强;当|r |越接近0时,成对样本数据的线性相关程度越弱。
4.一元线性回归模型参数的最小二乘法:回归直线方程过样本点的中心()
y x ,,是回归直线方程最常用的一个特征,我们将∧
∧
∧
+=a x b y 称为Y 关于x 的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线 ,这种求经验
回归方程的方法叫做最小二乘法,求得的∧
∧a b ,,叫做b ,a 的最小二乘估计,其中∧b 称为回归系数,它实际上也就是经验回归直线的斜率,∧
a 为截距。
其中
()()()
x b y a x
n x
y
x n y x x x y y x x b n
i i
n
i i
i n
i i
n i i
i
∧
∧====∧
-=--=
---=
∑∑∑∑,1
2
212
11
5.残差:对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的∧
y 称为预测值,观测值减去预测值称为残差。
6.决定系数2
R :(1)残差平方和残差平方和2
1∑=∧
⎪⎭⎫ ⎝
⎛-n
i i i y y ,残差方和越小,模型拟
合效果越好,残差平方和越大,模型拟合效果越差
(2)决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量
客户预报变量的能力。
()
2
1
2
121∑∑==∧
-⎪
⎭⎫ ⎝⎛--=n
i i
n
i i i y
y
y y R 。
2R 越大,即拟合效果越好,2R 越小,模型拟合效果越差。
7.分类变量与列联表
(1)分类变量:为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量。
(2)2×2列联表:①2×2列联表给出了两个分类变量数据的交又分类频数。
②定义一对分类变量X 和Y ,我们整理数据如下表所示:
8.独立性检验:
(1)独立性检验定义利用2χ的取值推断分类变量X 和Y 是否独立的方法称为2χ独立性检验,读作“卡方独立性检验”,简称独立性检验。
(2)独立性检验公式:()()()()()
d b c a d c b a bc ad n ++++-=2
2χ,其中d c b a n +++=。
考点一 求线性回归方程
(2022·福州市第一学期抽测) 随着我国中医学的发展,药用昆虫的使用相应愈来愈多,每年春暖以后至赛冬前,是昆虫大量活动与繁殖季节,易于采集各种药用昆虫。
已知一只药用昆虫的产卵数y 与一定范围内的温度x 有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
(1)从这5天中任选2天,记这两天药用昆虫的产卵分别为m ,n 求事件“m ,n 均不小于25”的概率;
(2)科研人员确定的研究方案是:先以这五组数据中任选2组,用剩下的3组数据建立y 关于x 的线性回归方程,再对被选取的2组数据进行检验。
(ⅰ)若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y 关于x 的线性回归方程;
(ⅱ)若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试间(ⅰ) 中所得的线性回归方程是否可靠 ?
附:回归直线的斜率和截距的最小二乘估计公式分别为
()()()
x b y a x
n x
y
x n y x x x y y x x b n
i i
n
i i
i n
i i
n i i
i
∧
∧====∧
-=--=
---=
∑∑∑∑,1
2
212
1
1。
考点二 相关系数及其应用
(2022·贵阳市第一学期监测) 互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲乙两家网络外卖企业
:
经营状况。
(2)据统计表明,y 与x 之间具有线性相关关系
①请用相关系数对y 与x 之间的相关性强弱进行判断;(若r>0.75,则可认为与有较强的线性相关关系,值精确到0.001)。
②经计算求得y 与x 之间的回归直线方程为674.2382.1-=∧
x y ,假定每单外卖业务企业平均能获纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围。
(x 值精确到0.01) 参考数据:()()
()()
77,
662
5
1
25
1
5
1≈--=--∑∑∑===i i
i i
i i i y y x x y y x x 。
高频考点三 独立性检验
(2022·福州市质量检测)
中国房地产业协会主办的中国房价行情网调查的一份数据显示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上。
某部门研究成果认为,房租支出超过月收入一的租户“幸福指数”低,房租支出不超过月收入的租户“幸福
指数”高,为了了解甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各100户进行调查,甲小区租户的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分组的频率分布直方图如图所示。
入低于6千元,乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;
(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;
(3)若甲、乙两小区每户的月租费分别为2千元、1千元。
请根据条件完成下面的2×2 列联表,并说明能否在犯错误的概率不超过0.001的前提下认为“幸福
参考公式:
()
()()()()d
b
c
a
d
c
b
a
bc
ad
n
K
+
+
+
+
-
=
2
2
(2022·郑州市第二次质量预测)
为推动更多人去阅读和写作,联合国教科文组织确定每年的4月23日为“世界读书日”,其设立目的是希望居住在世界各地的人,无论你是年老还是年轻,无论你是贫穷还是富裕,都能享受阅读的乐趣,都能尊重和感谢为人类文明做出过巨大贡献的恩想大师们,都能保护知识产权为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,这200人中通过电子阅读与纸质阅读的人数之比为3:1,将这200人按年龄(单位:岁)分组,统计得到通过电子阅读的居民的频率分布直方图如图所示。
(1)求a的值及通过电子阅读的居民的平均年龄;
(2)把年龄在[15,45) 的居民称为中青年,年龄在[45,65] 的居民称为中老年,若选出的200人中通过纸质阅读的中老年有30人,请完成下面2×2列联表,并
参考公式:
()
()()()()d
b
c
a
d
c
b
a
bc
ad
n
K
+
+
+
+
-
=
2
2
第2讲统计、统计案例(练习)
(2023·四川达州一模)
四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是()
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
(2022·全国高考真题)
某社区通过公益讲座以普及社区居民的垃圾分类知识,为了解讲座效果,随机抽取10位社区居民,让他们在进座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则()
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
(2023·安徽江准高三测试)
某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y( 单位:万件)的统计表:
但其中数据污损不清,经查证()
55.0,
17.40,32.92
7
1
7
1
7
1
=-==∑∑∑===i i
i i i i i y y y t y 。
(1)请用相关系数说明销售量y 与月份代码t 有很强的线性相关关系; (2)求y 关于t 的回归方程(系数精确到0.01);
(3)公司经营期间的广告宣传费i i t x =,(单位:万元(i= 1,2,...,7) 每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由。
( 毛利润等于销售金额减去广告宣传费)。
参考公式及数据:646.27=,相关系数()()
()()
2
1
2
1
1
∑∑∑===----=
n
i i
n i i
n
i i i
y y t
t
y
y t t
r 当|r |>0.75
时认为两个变量有很强的线性相关关系,回归方程∧
∧∧+=a t b y 中斜率和截距的最
小二乘估计公式分别为()()
()
t b y a t
t
y
y t t
b n
i i
n
i i i
∧
∧==∧
-=---=
∑∑,2
1
1。
( 2023安徽蚌埠一模)
文旅部门统计了某网红景点在2022年3月至7月的旅游收入y(单位:万),得到以下数据:
y 与x 的关系。
若可以,求出关于y 与x 之间的线性回归方程,若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的2×2列联表,依据a=0.001的独立性检验,能否认为“游客是否喜
参考公式: 相关系数()()
()()
2
1
2
1
1
∑∑∑===----=
n
i i
n i i
n
i i
i
y
y
x x y
y
x x r ,参考数据: 162.310≈。
线
性回归方程:∧∧∧+=a x b y ,其中()()()
x b y a x
n x
y
x n y x x x y y x x b n
i i
n
i i
i n
i i
n i i
i
∧
∧====∧
-=--=
---=
∑
∑∑∑,1
2
21
2
1
1
()()()()()
d b c a d c b a bc ad n ++++-=
2
2
χ。