成对对比统计分析
第八章 成对数据的统计分析高二数学课件(人教A版2019选择性必修第三册)
(2)由(1)知, <m></m> , <m></m> ,∴所求的线性回归方程是 <m></m> .当特征量 <m></m> 为12时,可预测特征量 <m></m> .(3)由(1)知 <m></m> ,又由 <m></m> ,得 <m></m> ,从而 <m></m> .
解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出经验回归方程.(3)回归分析.画残差图或计算R2,进行残差分析.(4)实际应用.依据求得的经验回归方程解决实际问题.
(3)设特征量 <m></m> ,其中 <m></m> 为样本平均数 <m></m> , <m></m> 为样本方差 <m></m> ,求 <m></m> .
参考数据: <m></m> , <m></m> , <m></m> .若 <m></m> ,则 <m></m> , <m></m> .
解:(1)由题意,得 <m></m> , <m></m> , <m></m> , <m></m> , <m></m> , ∴相关系数 <m></m> .由于 <m></m> 很接近1,说明 <m></m> , <m></m> 的线性相关性很强,因而可以用线性回归模型拟合 <m></m> 与 <m></m> 的关系.由于 <m></m> ,故其关系为负相关.
第11章第3成对数据的统计分析
基本思想、方法及其简单应用.
出线性回归直线
3.回归分析
(2)利用独立性检验判
了解回归的基本思想、方法及其简单应 断两个变量是否有关
用.
讲
课
人
:
邢
启
强
2
两个变量有关系,但又没有确切到可由其中的一个去精确地决
定另一个的程度,这种关系称为相关关系.
不一定是因果关系,也可能是伴随关系
3
1.散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组
成了统计图.我们我们把这样的统计图叫做散点图
2.两个变量的线性相关
(1)正相关
在散点图中,点散布在从 左下角 到 右上角 的区域,对于两个变量的
这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从 左上角 到 右下角 的区域,两个变量的这种
2
ˆ
(
y
y
)
i i
i 1
n
2
(
y
y
)
i
残差平方和
1
。
总偏差平方和
i 1
在使用经验回归方程进行预测时,需要注意下列问题:
(1)经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高
的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系,同
样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描
,利用 χ2 的取值推断分类
(a+b)(c+d)(a+c)(b+d)
变量 X 和 Y 是否独立 的方法称为 χ2 独立性检验.
2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析
2. 已知变量 和 满足关系式 ,变量 与 正相关,则下列结论中正确的是( )
A. 与 正相关, 与 负相关 B. 与 正相关, 与 正相关C. 与 负相关, 与 负相关 D. 与 负相关, 与 正相关
C
3. 变量 与 相对应的一组数据为 , , , , ;变量 与 相对应的一组数据为 , , , , 表示变量 与 之间的线性相关系数, 表示变量 与 之间的线性相关系数,则( )
1
2
3
4
5
32.0
31.0
33.0
36.0
37.0
25.0
30.0
34.0
37.0
39.0
6
7
8
9
10
38.0
39.0
43.0
45.0
41.0
42.0
44.0
48.0
(1) 求第10年该城市的居民年收入 ;
[解析] 因为 ,所以 ,解得 .
(2) 若该城市的居民年收入 与该种商品的销售额 之间满足经验回归方程 .
3. (新教材改编题)如图所示的散点图中,两个变量的相关关系为正相关的是________.
图(4)
[解析] 只有题图(4)中随着 的增大, 值也呈现增加的趋势,故题图(4)中变量关系为正相关.
A. B. C. D.
C
4. 一位同学分别对甲、乙、丙、丁四组变量进行线性相关试验,并分别计算出决定系数 ,则线性相关程度最高的一组变量是( )
甲
乙
丙
丁
0.87
0.91
0.58
0.83
A. 甲 B. 乙 C. 丙 D. 丁
B
[解析] 越大,两个变量的线性相关程度越高. ,则线性相关程度最高的是乙,故选B.
成对数据的统计分析(题型归纳)
成对数据的统计分析【考情分析】1.考查特点:(1)统计知识主要考查:抽样方法、样本数字特征、统计图表等,以选择题、填空题形式命题,难度较小;(2)回归分析与独立性检验常与概率交汇命题,也是近年的热点,常出现在第19或20题的位置,以中档题为主.2.关键能力:逻辑思维能力、运算求解能力、数学建模能力、创新能力.3.学科素养:数学抽象、逻辑推理、数学建模、数学运算、数据分析.【题型一】回归分析在实际问题中的应用【典例分析】【例1】(2021·长沙统考)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:月份123456广告投入量/万元24681012收益/万元14.2120.3131.831.1837.8344.67他们用两种模型①y ^=b ^x +a ^,②y =a e bx 分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:x -y-∑6i =1x i y i∑6i =1x 2i 7301464.24364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由.(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -nx -y -∑n i =1x 2i -nx -2,a ^=y --b ^x -.【解析】(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)(ⅰ)剔除异常数据,即3月份的数据后,得x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64.∑5i =1x i y i =1464.24-6×31.8=1273.44,∑5i =1x 2i =364-62=328.b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=1273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.所以y 关于x 的回归方程为y ^=3x +8.04.(ⅱ)把x =18代入(ⅰ)中所求回归方程得y ^=3×18+8.04=62.04,故预报值为62.04万元.【例2】一个国家的数学实力往往影响着国家的科技发展,几乎所有的重大科技进展都与数学息息相关,我国第五代通讯技术(5)G 的进步就是源于数学算法的优化.华为公司所研发的Single RAN 算法在部署5G 基站时可以把原来的4G 、3G 基站利用起来以节省开支,华为创始人任正非将之归功于“数学的力量”,近年来,我国加大5G 基站建设力度,基站已覆盖所有地级市,并逐步延伸到乡村.(1)现抽样调查英市所轴的A 地和B 地5G 基站覆盖情况,各取100个村,调查情况如下表:已覆盖未覆盖A 地2080B 地2575视样本的频率为总体的概率,假设从A 地和B 地所有村中各随机抽取2个村,求这4个村中A 地5G 已覆盖的村比B 地多的概率;(2)该市2020年已建成的5G 基站数y 与月份x 的数据如下表:x123456789101112y283340428547701905115114231721210926013381探究上表中的数据发现,因年初受新冠疫情影响,5G 基站建设进度比较慢,随着疫情得到有效控制,5G 基站建设进度越来越快,根据散点图分析,已建成的5G 基站数呈现先慢后快的非线性变化趋势,采用非线性回归模型ˆˆe bx y a =拟合比较合理,请结合参考数据,求5G 基站数y 关于月份x 的回归方程.(b 的值精确到0.01).附:设ln u y =,则ln i i u y =,(1,2,,12)i = ,1299.17y ≈, 6.88u ≈,()1221143i i x x =-=∑,()()12137238iii x x y y =--=∑,()()12132.42iii x x u u =--≈∑,对于样本(),i i x y ,(1,2,,)i n = 的线性回归方程ˆˆˆybx a =+有()()()121ˆniii ni i x x y y b x x ==--=-∑∑,ˆˆa y bx=-.【解析】(1)用样本估计总体,抽到A 地5G 覆盖的村概率为15,抽到B 地5G 覆盖的村概率为14,A 地抽到的2个村中5G 基站覆盖的村个数为X ,则X 满足二项分布12,5B ⎛⎫ ⎪⎝⎭2214()55i i iP X i C -⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭,0,1,2i =B 地抽到的2个村中5G 基站覆盖的村个数为Y ,则Y 满足二项分布12,4B ⎛⎫ ⎪⎝⎭2213()44iii P Y i C -⎛⎫⎛⎫== ⎪⎪⎝⎭⎝⎭,0,1,2i =,从A 地和B 地各随机抽取2个村,这4个村中A 地5G 覆盖的村比B 地5G 覆盖的村多的概率为(1)(0)(2)(0)(2)(1)P P X P Y P X P Y P X P Y ===+==+==22221122143131138755454544400C C ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=++=⎪⎪⎪ ⎪ ⎪ ⎪ ⎪⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭.(2)由指数模型ˆˆˆbx y ae =,设ln u y =,则ln u a bx =+,则u 与x 是线性相关关系.因为123126.512x +++⋯⋯+==, 6.88u ≈,()()12132.42i i i x x u u =--≈∑,()1221143i i x x =-=∑,所以()()()212132.420.23143ni i n i i x x uu b x x ==--=≈≈-∑∑,ln 6.880.23 6.5 5.39a u bx ≈-≈-⨯≈,即 5.390.23u x =+,即 5.390.23x y e +=.【提分秘籍】1.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.2.回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.【变式演练】1.(2021·贵州凯里一中高三开学考试(理))越接近高考学生焦虑程度越强,四个高三学生中大约有一个有焦虑症,经有关机构调查,得出距离高考周数与焦虑程度对应的正常值变化情况如下表周数周数x 65432 1.正常值y 556372809099其中121ˆni ii nii x y nxybxnx ==-=-∑∑,11452niii x y==∑,2191ni i x ==∑,ˆˆa y bx=-(1)作出散点图;(2)根据上表数据用最小二乘法求出y 关于x 的经验回归方程ˆˆy bx a =+(精确到0.01)(3)根据经验观测值为正常值的0.85~1.06为正常,若1.06~1.12为轻度焦虑,1.12~1.20为中度焦虑,1.20及以上为重度焦虑.若为中度焦虑及以上,则要进行心理疏导.若一个学生在距高考第二周时观测值为103,则该学生是否需要进行心理疏导?【解析】(1)散点图如下:(2)因为654321 3.56x +++++==,55637280909976.56y +++++==214526 3.576.5ˆ916 3.5b -⨯⨯=-⨯≈8.83-,ˆˆ76.5(8.83) 3.5a y bx =-=--⨯107.4=,所以所求经验回归方程为:8.83107.4y x =-+.(3)因为1031.14 1.1290≈>,为中度焦虑,所以该学生需要进行心理疏导.2.(2021·济南市历城第二中学高三月考)某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t1234567销售量y (万件)1y 2y 3y 4y 5y 6y 7y 但其中数据污损不清,经查证719.32ii y==∑,7140.17i i i t y ==∑0.55=.(1)请用相关系数说明销售量y 与月份代码t 有很强的线性相关关系;(2)求y 关于t 的回归方程(系数精确到0.01);(3)公司经营期间的广告宣传费i x =(1,2,,7i= ),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由.(毛利润等于销售金额减去广告宣传费)参考公式及数据: 2.646≈,相关系数()()niitty y r --=∑||0.75r >时认为两个变量有很强的线性相关关系,回归方程^^^y bt a =+中斜率和截距的最小二乘估计公式分别为^121(()nii i nii tt y y b tt ==--=-∑∑,^^a y bt =-.【解析】(1)由折线图中的数据和附注中的参考数据得4t =,()72128i i t t=-=∑0.55=,()()77711140.1749.32 2.89ii i i i i i i tty y t y t y ===--=-=-⨯=∑∑∑∴ 2.890.992 2.6460.55r =≈≈⨯⨯,因为0.990.75>所以销售量y 与月份代码t 有很强的线性相关关系.(2)由9.32 1.3317y =≈及(Ⅰ)得()()()717212.89ˆ0.10328ii i i i tty y b t t ==--==≈-∑∑ˆˆ 1.3310.10340.92ay bt =-≈-⨯≈所以y 关于t 的回归方程为ˆ0.100.92yt =+(3)当8t =时,代入回归方程得ˆ0.1080.92 1.72y=⨯+=(万件)第8个月的毛利润为10 1.7217.22 1.41414.372z =⨯=-⨯=14.37215<,预测第8个月的毛利润不能突破15万元.【题型二】独立性检验在实际问题中的应用【典例分析】【例3】(2021·山东青岛市·高三二模)现对某市工薪阶层对于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入(单位:百元)的频数分布及对“楼市限购令”赞成人数如下表:月收入[)25,35[)35,45[)45,55[)55,65[)65,75[)75,85频数510151055赞成人数4812521(1)根据以上统计数据完成下面的22⨯列联表,根据小概率值α=0.025的χ2独立性检验,判断能否有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6500元为分界点有关”?月收入不低于65百元的人数月收入低于65百元的人数合计赞成不赞成合计(2)若对月收入在[)55,65和[)65,75的被调查人中各随机选取两人进行追踪调查,求在选中的4人中有人不赞成的条件下,赞成“楼市限购令”的人数ξ的分布列及数学期望.附:()()()()()22n ad bc a b c d a c b d χ-=++++,n a b c d =+++.()2P k ϕ≥0.0500.0250.0100.0050.001k3.841 5.024 6.6357.87910.828【解析】(1)由题意列联表如下:月收入不低于65百元的人数月收入低于65百元的人数合计赞成32932不赞成71118合计104050220.02550(311729) 6.27 5.024********K x ⨯⨯-⨯=≈>=⨯⨯⨯,根据小概率值α=0.025的χ2独立性检验,有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6500元为分界点有关”(2)ξ的取值分别是0,1,2,3,4,2235225101(0)15C C P C C ξ==⨯=,11221132535522225105103(1)10C C C C C C P C C C C ξ⨯==⨯+=12522111132552222222510505125304519(2)C C C C C C C C P C C C C C C ξ==⨯+⨯+=,2112112555322205117(3)90P C C C C C C C C ξ===+⨯,2252221051(4)45C C P C C ξ===,记4人中有人不赞成为事件A ,则44()1(4)45P A P ξ=-==,1(0)315(0|)44()4445P P A P A ξξ=====,同理27(1|)88P A ξ==,19(2|)44P A ξ==,17(3|)88P A ξ==,(4|)0P A ξ==,所以ξ的分布列为:ξ01234P34427881944178843271917012340448844887E ξ=⨯+⨯+⨯+⨯+⨯=.【提分秘籍】独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个随机事件有关系”犯错误概率的显著性水平α,然后查表确定分位数k .(2)利用公式,计算随机变量χ2.(3)如果χ2>k ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.【变式演练】1.(2021·吉林长春市·东北师大附中高三其他模拟(理))近日,为进一步做好新冠肺炎疫情防控工作,某社区以网上调查问卷形式对辖区内部分居民做了新冠疫苗免费接种的宣传和调查.调查数据如下:共95份有效问卷,40名男性中有10名不愿意接种疫苗,55名女性中有5名不愿意接种疫苗.(1)根据所给数据,完成下面的2×2列联表,并根据列联表,根据小概率值α=0.050的χ2独立性检验,判断判断是否有95%的把握认为是否愿意接种疫苗与性别有关?愿意接种不愿意接种合计男女合计(2)从不愿意接种的15份调查问卷中得到拒绝接种新冠疫苗的原因:有3份身体原因不能接种;有2份认为新冠肺炎已得到控制,无需接种:有4份担心疫苗的有效性:有6份担心疫苗的安全性.求从这15份问卷中随机选出2份,在已知至少有一份担心疫苗安全性的条件下,另一份是担心疫苗有效性的概率.附:()()()()()22n ad bc x a b c d a c b d -=++++()2P k χ>0.0500.0100.005k3.841 6.6357.879【解析】(1)愿意接种不愿意接种合计男301040女50555合计801595()()()()()()2220.050953055010 4.408 3.84140558015n ad bc x a b c d a c b d χ-⨯⨯-⨯====++++⨯⨯⨯根据小概率值α=0.050的χ2独立性检验,有0095的把握认为是否愿意接种疫苗与性别有关.(2)设事件A 为至少有一份担心疫苗安全性,事件B 为另一份担心疫苗有效性,则()2921523135C P A C =-=,()1164215835C C P AB C ==,所以()()()8835|232335P AB P B A P A ===.【题型三】有关预测与决策问题【典例分析】【例4】(2021·山东淄博市·实验中学高三模拟)某市在司法知识宣传周活动中,举办了一场司法知识网上答题考试,要求本市所有机关、企事业单位工作人员均要参加考试,试题满分为100分,考试成绩大于等于90分的为优秀.考试结束后,组织部门从所有参加考试的人员中随机抽取了200人的成绩作为统计样本,得到样本平均数为82、方差为64.假设该市机关、企事业单位工作人员有20万人,考试成绩ξ服从正态分布()82,64N .(1)估计该市此次司法考试成绩优秀者的人数有多少万人?(2)该市组织部门为调动机关、企事业单位工作人员学习司法知识的积极性,制定了如下奖励方案:所有参加考试者,均可参与网上“抽奖赢手机流量”活动,并且成绩优秀者可有两次抽奖机会,其余参加者抽奖一次.抽奖者点击抽奖按钮,即随机产生一个两位数()10,11,,99L ,若产生的两位数的数字相同,则可获赠手机流量5G ,否则获赠手机流量1G .假设参加考试的所有人均参加了抽奖活动,试估计此次抽奖活动赠予的手机流量总共有多少G ?参考数据:若()2,N ξμσ,则()0.68P μσξμσ-<<+=【解析】(1)由题意,随机抽取了200人的成绩作为统计样本,得到样本平均数为82、方差为64,即82,8μσ==,所以考试成绩优秀者得分90ξ≥,即ξμσ≥+.又由()0.68P μσξμσ-<<+≈,得()()110.680.162P ξμσ≥+≈-=.所以估计该市此次司法考试成绩优秀者人数可达200.16 3.2⨯=万人.(2)设每位抽奖者获赠的手机流量为X G ,则X 的值为1,2,5,6,10.可得()()9756110.16101000P X ==-⨯=,()29129620.161010000P X ⎛⎫==⨯=⎪⎝⎭,()()184510.16101000P X ==-⨯=,()9128860.162101010000P X ==⨯⨯⨯=,()2116100.161010000P X ⎛⎫==⨯=⎪⎝⎭.所以随机变量X 的分布列为:X125610P75610001296100008410000288100001610000所以()75612968428816125610 1.62410001000010001000010000E X =⨯+⨯+⨯+⨯+⨯=(G ).因此,估计此次抽奖活动赠予的手机流量总值为20 1.62432.48⨯=(万G ).【变式演练】(2021•青羊区校级模拟)2021年3•15期间,某家具城举办了一次家具有奖促销活动,消费每超过1万元(含1万元),均可抽奖一次,抽奖方案有两种,顾客只能选择其中的一种.方案一:从装有10个形状与大小完全相同的小球(其中红球2个,白球1个,黑球7个)的抽奖盒中,一次性摸出3个球,其中奖规则为:若摸到2个红球和1个白球,则打5折;若摸出2个红球和1个黑球则打7折;若摸出1个白球2个黑球,则打9折:其余情况不打折.方案二:从装有10个形状与大小完全相同的小球(其中红球2个,黑球8个)的抽奖盒中,有放回每次摸取1球,连摸3次,每摸到1次红球,立减2000元.(1)若一位顾客消费了1万元,且选择抽奖方案一,试求该顾客享受7折优惠的概率;(2)若某顾客消费恰好满1万元,试从数学期望的角度比较该顾客选择哪一种抽奖方案更合算?【分析】(1)利用古典概型的概率公式求解即可;(2)先求出方案一的随机变量X 的可能取值,然后求出其对应的概率,列出分布列,由数学期望的计算公式求解,然后再利用方案二满足二项分布,由二项分布的数学期望公式求解,最后进行比较即可得到答案.【解答】解:(1)选择方案一,若享受到7折,则需要摸出2个红球和1个黑球,故该顾客享受7折优惠的概率为=;(2)若选择方案一,设付款金额为X元,则X的可能取值为5000,7000,9000,10000,所以P(X=5000)==,P(X=7000)==,P(X=9000)==,P(X=10000)=1﹣﹣﹣=,故E(X)=5000×+7000×+9000×+10000×=元;若选择方案二,设摸到红球的个数为Y,付款金额为Z,则Z=10000﹣2000Y,由已知可得Y~B(3,),所以E(Y)=3×=,故E(Z)=E(10000﹣2000Y)=10000﹣2000E(Y)=8800元.因为E(X)>E(Z),故该顾客选择第二种抽奖方案更合算.1.春节是中国人的团圆节,2021年春节期间,某超市为了给“就地过年”的外来务工人员营造温馨的新春佳节氛围,在2月11日至2月17日期间举行购物抽奖活动,活动规定:凡是一次性购物满300元的顾客就可以从装有8个球(其中3个球上写有“牛转乾坤”,另5个球上写有“谢谢惠顾”,每个球除写的字不同外,其他都相同)的抽奖箱中一次性摸出3个球,只有摸到“牛转乾坤”才能获奖,若3个球都是“牛转乾坤”,则获一等奖,奖励20元;若有2个球是“牛转乾坤”,则获二等奖,奖励5元;若只有1个球是“牛转乾坤”,则获三等奖,奖励2元.(1)若一位顾客在此活动期间购物满300元并且参加抽奖,求这位顾客中奖的概率;(2)经统计,2月11日有1400人次购物满300元,其中有280人次没有参加抽奖,设参加一次抽奖所得奖金的金额为X 元,试求X 的分布列,并求2月11日该超市发放奖金总金额的数学期望.【解析】(1)解法一:设一位顾客在此活动期间购物满300元参加抽奖且中奖为事件A ,参加抽奖且中一等奖为事件1A ,参加抽奖且中二等奖为事件2A ,参加抽奖且中三等奖为事件3A ,则123A A A A = ,()()()()()32112335351231233338882328C C C C C P A P A A A P A P A P A C C C =⋃⋃=++=++=.∴一位顾客在此活动期间购物满300元参加抽奖且中奖的概率为2328.解法二:一位顾客在此活动期间购物满300元且参加抽奖,设中奖为事件A ,则事件A 的对立事件为A ,A 为一位顾客在此活动期间购物满300元参加抽奖且没有中奖,即摸出的3个球都是“谢谢惠顾”,()()3538231128C P A P A C ∴=-=-=,∴一位顾客在此活动期间购物满300元参加抽奖且中奖的概率为2328;(2)依题意得:X 的所有可能取值为0,2,5,20,()35385028C P X C ∴===,()12353815228C C P X C ===,()21353815556C C P X C ===,()333812056C P X C ===,X ∴的分布列为:X2520P52815281556156∴数学期望()515151155025202828565656E X =⨯+⨯+⨯+⨯=,∴2月11日该超市发放奖金总金额的数学期望为()()15514002801120310056E X -⋅=⨯=元.2.(2021·海南中学高三模拟)从去年开始,全国各地积极开展“一盔一带”安全守护行动,倡导群众佩戴安全头盔、使用安全带.为了解相关的情况,某学习小组统计了国内20个城市的电动自行车头盔佩戴率(%)x 和电动自行车驾乘人员交通事故死亡率(%)y ,并整理得到下面的散点图.(1)求这20个城市的电动自行车头盔佩戴率大于50%的概率;(2)通过散点图分析y 与x 的相关关系,说明佩戴安全头盔的必要性;(3)有四名同学通过计算得到y 与x 的相关系数分别为0.97,0.62,0.45-,0.98-,请你从中选出最有可能正确的结果,并以此求出y 关于x 的线性回归方程.参考数据:2011000i i x ==∑,2011080i i y ==∑,()20216800i i x x =-=∑,()20211700i i y y =-=∑.参考公式:相关系数()()()()12211niii nni i i i x x y y r x x y y ===--=--∑∑∑,回归方程ˆˆˆy a bx=+中斜率和截距的最小二乘估计公式分别为:()()()121ˆniii nii x x y y bx x ==--=-∑∑, ˆay bx =-.【解析】(1)电动自行车头盔佩戴率大于50%的城市有10个,故所求的概率为12.(2)由散点图可知y 与x 有较强的负相关关系,提高电动自行车头盔佩戴率能有效降低驾乘人员交通事故死亡率,所以佩戴安全头盔十分有必要.(3)最有可能正确的结果为0.98-.根据参考数据得20115020i i x x ===∑,20115420i i y y ===∑,所以()()()()()2020211202022111700ˆ0.980.496800i i ii i i i i i y y x x yy br x x x x ====---==⨯-⨯---∑∑∑∑,ˆˆ540.495078.5ay bx =-=+⨯=,所以y 关于x 的线性回归方程为ˆ0.4978.5yx =-+.3.中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了100名学生进行调查,调查样本中有40名女生.如图是根据样本的调查结果绘制的等高条形图(阴影区域表示关注“嫦娥五号”的部分).关注没关注合计男女合计附:()20P K k ≥0.1500.1000.0500.0100.005k 2.072 2.706 3.841 6.6357.879()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d=+++(1)完成上面的2×2列联表,并计算回答是否有95%的把握认为“对‘嫦娥五号’关注程度与性别有关”?(2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X,求X的分布列及数学期望.【解析】(1)22⨯列联表如下:关注没关注合计男303060女122840合计4258100所以()()()()()()222100302812308003.941 3.84142584060203n ad bcKa b c d a c b d-⨯⨯-⨯===≈> ++++⨯⨯⨯,所以有95%的把握认为“对‘嫦娥五号’关注程度与性别有关”;(2)因为随机选一个高三的女生,对此事关注的概率为1234010 P==,又因为33,10X B⎛⎫⎪⎝⎭,所以随机变量X的分布列为:X0123P 343100044110001891000271000故()9 10E X np==.4.随着5G通讯技术的发展成熟,移动互联网短视频变得越来越普及,人们也越来越热衷于通过短视频获取资讯和学习成长.某短视频创作平台,为了鼓励短视频创作者生产出更多高质量的短视频,会对创作者上传的短视频进行审核,通过审核后的短视频,会对用户进行重点的分发推荐.短视频创作者上传一条短视频后,先由短视频创作平台的智能机器人进行第一阶段审核,短视频审核通过的概率为35,通过智能机器人审核后,进入第二阶段的人工审核,人工审核部门会随机分配3名员工对该条短视频进行审核,同一条短视频每名员工审核通过的概率均为12,若该视频获得2名或者2名以上员工审核通过,则该短视频获得重点分发推荐.(1)某创作者上传一条短视频,求该短视频获得重点分发推荐的概率;(2)若某创作者一次性上传3条短视频作品,求其获得重点分发推荐的短视频个数的分布列与数学期望.【解析】(1)设“该短视频获得重点分发推荐”为事件A ,则22133033311113()[C ()(1)C ()(1)]5222210P A =⨯⨯-+⨯-=.(2)设其获得重点分发推荐的短视频个数为随机变量X ,X 可取0,1,2,3.则3(3,10X B ,003333343(0)C ()(110101000P X ==⨯-=;112333441(1)C ((110101000P X ==⨯-=;221333189(2)C ()(1)10101000P X ==⨯-=;33033327(3)C ()(1)10101000P X ==⨯-=,随机变量X 的分布列如下:X123P343100044110001891000271000343441189279()0123100010001000100010E X =⨯+⨯+⨯+⨯=.(或39()31010E X =⨯=)5.(2021·东北育才学校高三模拟)学校食品安全问题关系着师生的身心健康,一直受到社会各界的高度关注.为进一步加强学校食堂安全管理,某市卫生监督部门决定对本市所有学校进行一次食品安全抽查.某中学按照要求,将卫生监督部门当天检查的所售菜品取样分成甲、乙两组,甲组菜品有不同的荤菜n 份和不同的素菜2份,乙组菜品有荤菜1份和不同的素菜4份,已知从甲组菜品中随机任取两份菜样,在第一次抽到素菜的条件下,第二次抽到荤菜的概率是34.(1)求n 的值;(2)若卫生监督部门第一次从甲组中随机抽取一份菜样,从第二次抽样开始,若前一次抽到荤菜,则再从甲组中抽取一份;若前一次抽到素菜,则再从乙组中抽取一份,第三次抽样后结束,每次抽取菜样都不放回.已知荤菜检测费用为80元/份,素菜检测费用为60元/份,求本次抽查检测费用的分布列和数学期望.【解析】(1)设第一次抽到素菜为事件A ,第二次抽到荤菜为事件B ,∴2()2P A n =+,22()21(2)(1)n n P AB n n n n =⨯=++++,∵()3(|)()14P AB n P B A P A n ===+,∴3n =.(2)设卫生监督部门抽样结束后,抽取荤菜的份数为Y ,检测费用为Z ,其中Y 可以取0,1,2,3,则Z 的可能取值为180,200,220,240.111243111554C C C 6(180)C C C 25P Z ===,111111111324241211111111111554554545C C C C C C C C C 17(200)+C C C C C C C C C 50P Z ==+=,111111111213321322111111111554545543C C C C C C C C C 8(220)+C C C C C C C C C 25P Z ==+=,111321111543C C C 1(240)C C C 10P Z ===.所以检测费用的分布列为Z 180200220240P6251750825110所以检测费用的数学期望为61781180200220240205.625502510⨯+⨯+⨯+⨯=(元).6.某病毒在进入人体后有潜伏期,患者在潜伏期内无任何症状,但已具传染性.假设一位病毒携带者在潜伏期内每天有n 位密接者,每位密接者被感染的概率为p ,(1)若3n =,13p =,求一天内被一位病毒携带者直接感染人数X 的分布列和均值:(2)某定点医院为筛查某些人员是否感染此病毒,需要检测血液样本是否为阳性,有以下两种检验方式:①逐份检验,即k 份血液样本需要检验k 次;②混合检验,即将k 份(*k N ∈且2k ≥)血液样本分别取样混合在一起检验,若检验结果为阴性,则这k 份血液样本全为阴性,因而这k 份血液样本只要检验一次就够了:如果检验结果为阳性,为了明确这k 份血液样本究竞哪份为阳性,就要对k 份血液样本再逐份检验,此时这k 份血液样本的检验次数为k +1次.假设样本的检验结果相互独立,且每份样本检验结果是阳性的概率为1p =ς的期望值比逐份检验的总次数η的期望值更少,求k 的取值范围.参考数据:ln 20.6931≈,ln 3 1.0986≈,ln 4 1.3863≈,ln 5 1.6094≈,ln 6 1.7918≈.【解析】(1)若n =3,p =13,依题意可知X 服从二项分布,即X ~B (3,13),从而3-312()()()33iiiP X i C ==,i =0,1,2,3.随机变量X 的分布列为:X 0123P8274929127随机变量X 的均值为1()313E X =⨯=.(2)由题意知ζ的所有可能取值为1,1k+,且()(11)k P p ζ==-,()1)+11(k P k p ζ==--,∴()()()()()1++111+11k k kE p k p k k p ζ⎡⎤=---=--⎣⎦,又∵E (η)=k ,依题意E (ζ)<E (η),即:k +1-k (1-p )k <k ,∴1k<(1-p )k ,∵p =1,∴1k <()k ,∴ln k >13k .设()1ln 3f x x x =-,则()'11333x f x x x -=-=,所以03x <<时,()'>0f x ,>3x 时,()'0f x <,所以f (x )在(0,3)上单调递增,在(3,+∞)上单调递减,由于f (1)=13-<0,f (2)=ln2-23>0,f (4)=ln4-43=0.0530>0,f (5)=ln5-53=-0.0573<0,故k 的取值范围为24k ≤≤且k ∈N *.。
成对数据的统计分析 单元整体设计
第八章成对数据的统计分析单元整体设计一、单元整体目标1.通过具体案例,引导学生理解两个随机变量的相关性可以通过成对样本数据进行分析,了解样本相关系数的统计含义.2.理解利用一元线性回归模型可以研究变量之间的相关关系,并进行预测.3.了解2x2列联表,理解利用2x2列联表可以检验两个随机变量的独立性.4.运用散点图、相关系数、最小二乘思想、小概率原理、频率估计概率、假设检验基本原理等解决简单的实际问题,会利用统计软件进行数据分析.二、内容与要求2.1内容根据普通高中《数学课程标准(2017年版)》的要求,人教A版数学选择性必修第三册第八章包括成对数据的统计相关性、一元线性回归模型及其应用、2x2列联表与独立性检验三部分内容.本章知识结构图如下:成时柞Rcjftg第8.1节,成对数据的统计相关性.第8.1.1小节主要是引入变量之间相关关系的概念,并根据成对样本数据的散点图直观推断变量之间的相关关系.通过案例“一个人身高与体重的关系”引人相关关系的概念,让学生感受到研究此类问题的必要性.结合“人体的脂防含量和年龄之间关系”,介绍成对样本数据的散点图,据此直观推断变量之间的相关关系,并引入正相关、负相关、线性相关三种特殊且重要的相关关系.第8.1.2小节主要是引入样本相关系数的概念.样本相关系数不仅可以反映成对样本数据相关的正负性,而且可以定量地刻画成对样本数据线性相关的程度.通过对散点图无法定量刻画成对样本数据相关程度的分析,让学生感受引入样本相关系数的必要性.从统计直观出发,先初步建立刻画相关性的数学表达式,再通过逐步优化表达式得到样本相关系数公式,让学生体会样本相关系数定义的合理性,积累数据分析的经验.再对样本相关系数的性质进行讨论,明确样本相关系数的正负性可以反映成对样本数据相关的正负性,样本相关系数绝对值的大小可以刻画成对样本数据线性相关程度的强弱.第8.2节,一元线性回归模型及其应用.第8.2.1小节主要结合具体案例“儿子身高与父亲身高的关系”,在一次函数模型的基础上,通过引入随机误差项,建立一元线性回归模型刻画两个数值变量之间的相关关系,并讨论了回归模型中随机误差产生的原因.第&2.2小节主要是用最小二乘法估计一元线性回归模型中的参数,得到经验回归方程,进而根据解释变量的取值预测响应变量的取值.结合案例“儿子身高与父亲身高的关系”,完整呈现了从直现寻找与散点整体接近的直线,到用定量刻画整体接近的程度,最后得到参数估计的数学化过程,让学生体会最小二乘法的思想,积累数据分析的经验.再结合具体案例,利用回归方程进行预测,并对结果进行合理解释,解释参数。
第九章 概率与统计-9.2 成对数据的统计分析
9.2 成对数据的统计分析
课程标准
必备知识
自主评价
核心考点
课时作业
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹
角的关系.
2.结合实例,会通过相关系数比较多组成对数据的相关性.
3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小
= =1
∑ −ҧ 2
=1
= ത − ҧ
时, = ∑ − − 2 达到最小.
=1
经验回归方程
+ 称为关于的______________,也称经验回归函数或经验回归
我们把ො =
ො
最小二乘法
公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做____________,求
返回至目录
(2)样本相关系数.
①样本相关系数的计算公式.
=
∑ − −
=1
∑ − 2
=1
.
∑ − 2
=1
样本相关系数
我们称为变量和变量的______________.
②与标准化数据向量夹角的关系
令′ = ′1 , ′2 , ⋯ , ′ ,′ = ′1 , ′2 , ⋯ , ′ ,
+ 之间的__________.如果______,那么与之间的关系就
可用一元线性函数模型来描述.
返回至目录
(2)一元线性回归模型参数的最小二乘估计.
设满足一元线性回归模型的两个变量的对样本数据为 1 , 1 , 2 , 2 ,⋯ ,
∑ −ҧ −ത
, ,当,的取值为
高考数学一轮复习成对数据的统计分析
i=1
i=1
i=1
i=1
i=1
[解] (1)由散点图可知,这些数据集中在图中曲线的附近, 而曲线的形状与函数 y= x的图象很相似, 因此可以用类似的表达式^y=^b x+^a来描述 y 与 x 的关系, 即三个函数中^y=^b x+^a的图象是拟合 y 与 x 的关系“最好”的曲线.
令 u=
x,则^y=^bu+^a,根据已知数据,得
n
ui- u 2
i=1
7
7
[解] (1)因为 x =4, y =17,所以 (xi- x )(yi- y )=xiyi-7 x y
i=1
i=1
=532-7×4×17=56,
所以 r=
7
xi- x yi- y
i=1 7
7
≈5576.5≈0.97,
xi- x 2 yi- y 2
i=1
i=1
因为样本相关系数|r|接近于 1,所以可以推断 x 和 y 这两个变量线性 相关,且相关程度很强.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,
xn 不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直
线 y=12x+1 上,则这组样本数据的样本相关系数为
()
A.-1
B.0
1 C.2
D.1
解析:所有样本点均在同一条斜率为正数的直线上,则样本相关
Ⅱ.基础小题的即时强化
一、教材经典小题的回顾拓展
1.(人教 A 版选择性必修③P103·T1 改编)下列四个散点图中,变量 x 与
y 之间具有负的线性相关关系的是
()
答案:D
2.(苏教版选择性必修②P144·例 2 改编)甲、乙、丙、丁四位同学各自对
成对数据的统计分析 2025年高考数学基础专项复习
正确,D错误.故选ACD.
3.[人A选必三P101例1变式]某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,
通常把它的使用价值逐年减少的“量”换算成费用,称为失效费.该种机械设备的使用年限(单位:年)与失效费
较弱)
附: =
∑ − −
=1
∑ − 2
=1
∑ − 2
=1
, 2 ≈ 1.41.
1
【解析】 解法一 由题表知, = 5 × 2 + 4 + 5 + 6 + 8 = 5,
1
5
= × 3 + 4 + 5 + 6 + 7 = 5,
5
∑ − − = 2 − 5 × 3 − 5) + (4 − 5 × 4 − 5 + (5 − 5) × 5 − 5 + 6 − 5 × 6 − 5 + 8 − 5 × (7
3.[链接人A选必三P116知识]近年来,我国云计算市场规模持续增长.某科技公司云计算市场规模与年份代码
的关系可以用模型 = 10 拟合,设 = lg ,2018年至2022年的数据统计如表所示:
年份
年份代码
2018年
2019年
2020年
2021年
2022年
1
2
3
4
5
云计算市场规模
4.[苏教选必二P164例4变式]某公司为了预测下个月产品的销售情况,找出了近7个月的产品的销售量(单位:
万件)的统计表如下.
月份代码
销售量/万件
高中数学第八章成对数据的统计分析8.1成对数据的统计相关性课件新人教A版选择性必修第三册
【解析】在①中,正方形的边长与面积之间的关系是函数关系;在②中,一个人 的身高和右手的拃长之间不具有严格的函数关系,但具有相关关系;③为确定的 函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系. 答案:②④
2.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了
10次试验,收集数据如表:
【解析】选D.由变量相关关系定义,如果散点大部分分布在一条曲线附近,就说 两变量具有相关关系,选项D的散点没有这一特征,故不具有相关关系.
探究点二 样本相关系数的求解 【典例2】某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之 间的相关关系,现收集了4组对照数据.
x
3
4
5
6
y
2.5
2. 在下列各图中,相关关系最强的是( )
【解析】选A.对于A,图中各点呈带状分布,这组变量具有较强的线性相关关 系; 对于B,C,D,样本点呈片状分布,两个变量的线性相关关系相对较弱,或不 具有相关关系.
主题2 样本相关系数
r的正负及大小如何反映两个变量的相关强弱?
提示:r为正数时,表明两变量为正相关; r为负数时,表明两变量为负相关; |r|的值越接近于1,成对数据的线性相关程度越强; |r|的值越接近于0,成对数据的线性相关程度越弱.
说明y与x之间的线性相关关系的强弱(精确到0.01).
参考数据: 165 ≈12.85, n
参考公式:相关系数 r=
i1
xi
x
yi y
n
2n
2
i1
xi x
i1
yi y
【解析】由表中数据和参考数据得, x =7, y =5,
5
xi-
x
第八章 成对数据的统计分析(公式、定理、结论图表)--2023年高考数学必背知识手册(新教材)
第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.(2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r 来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:,,,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.n i i i n i i x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()n i i x x y y r --=∑n i i x y nxy -=∑【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,b a 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
统计成对数据的统计分析知识点易错点总结-高考三轮复习冲刺
统计、成对数据的统计分析一、随机抽样1.简单随机抽样(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样。
(2)简单随机样本:通过简单随机抽样获得的样本称为简单随机样本。
(3)简单随机抽样的常用方法。
实现简单随机抽样的方法有很多,抽签法和随机数法是比较常用的两种方法。
注意:除非特殊声明,本章简单随机抽样指不放回简单随机抽样。
2.总体平均数与样本平均数注意在简单随机抽样中我们常用样本平均数去估计总体平均数;②总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性);③一般情况下,样本量越大,估计越准确。
3.分层随机抽样(1)定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层。
在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配。
(2)分层随机抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层随机抽样。
(3)分层随机抽样的平均数计算在比例分配的分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,样本平均数分别为x̅,y̅,总体的样本平均数为w̅,则w̅=MM+N x̅+NM+Ny̅=mm+nx̅+nm+ny̅。
注意:①随机抽样时,总体中的每个个体入样的概率相同。
②比例分配的分层随机抽样,每一层入样的个体数为该层的个体数乘以抽样比。
【重点难点易错点】1.简单随机抽样的要点:.简单随机抽样需满足:①被抽取的样本和总体的个体数有限;②逐个抽取;③等可能抽取。
2.在使用随机数法时,如遇到三位数(或四位数),可从选择的随机数表中的某行某列的数字计起,每三个(或四个)作为一个单位,按某种顺序依次选取,有超过总体号码或出现重复号码的数字舍去。
高中数学选修二第8章:成对数据的统计分析-知识点
1高中数学选修二第8章:成对数据的统计分析-知识点1、来自 同一 对象的 两 组数据称为成对数据,研究成对数据 相关性 的方法称为相关分析。
可以用散点图 观察两个变量之间的相关性,当所有点都在一条直线的附近波动时,这两个变量之间具有一种 线性相关 关系。
2、相关关系和函数关系的区别:函数关系是两个变量之间有 完全确定 的关系;而相关关系并 没有 严格的确定关系,当一个变量变化时,另一变量的取值有一定的 随机性 。
3、两组数据x i 和y i 的线性相关系数r 是度量两个变量x 和y 之间 线性相关程度 的统计量。
r== 。
其中x 和y 是这两组数据的 算术平均数。
4、相关系数r 的性质:①r >0时, 正 相关;r <0时, 负 相关;r=0时, 无 相关性。
②r 的取值范围是 [-1,1] ,当r 越接近 1 时,相关程度越 高 ,当r 越接近 0 时,相关程度越 低。
当r 越> 0.75时,就可以认为两个变量有很高 的线性相关关系。
③相关系数的计算结果,与哪个变量作为横轴或纵轴 无关 ,与变量的单位 也无关 ;④相关系数会受到数据量 多少 的影响,也会受到少数异常值 较大的影响。
5、把 拟合误差 取得 最小 值时得到的线性方程y=a ˆx+bˆ称为变量y 随x 波动的 回归方程 或 回归模型 ,自变量x 称为 解释 变量,因变量y 称为 反应 变量,回归方程所定义的直线称为 回归直线,系数aˆ和b ˆ称为 回归系数 ,其中,a ˆ= ,bˆ= y -a ˆx 。
由成对数据求回归方程的方法称为 一元线性回归分析 。
回归方程经过样本点的中心(x ,y )。
6、最小二乘法(也叫 最小平方 法)是一种数学 优化 技术,通过最 小 化 误差的平方和 寻找数据的 最佳 函数匹配,是使得样本数据的点到回归曲线的距离 的平方和 最小 的方法。
由最小二乘法确定的回归方程所定义的直线是给定数据点的最佳拟合直线 。
新高考数学 第9章 第3讲 成对数据的统计分析
y1
y2
总计
x1
a
b
x2
c
d
__a_+__b__ c+d
总计 a+c __b_+__d__
_a_+__b_+__c_+__d_
第九章 统计 成对数据的统计分析
高考一轮总复习 • 数学
返回导航
(3)独立性检验
①零假设(或原假设)
以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}
的成对分类变量.
第九章 统计 成对数据的统计分析
高考一轮总复习 • 数学
返回导航
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据 的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为 ___残__差__分__析___.
②残差的散点图 残差比较均匀地集中分布在以横轴为对称轴的水平带状区域内,则 满足一元线性回归模型对随机误差的假设.
高考一轮总复习 • 数学
返回导航
2.相关系数 r=
n xiyi-n-x -y
i=1
.
n x2i -n-x 2·
i=1
n y2i -n-y 2
i=1
3.独立性检验是对两个变量的关系的可信程度的判断,而不是对其
是否有关系的判断.根据 2 的值可以判断两个分类变量有关的可信程
度,并用来指导科研和实际生活.
高考一轮总复习 • 数学
返回导航
题组三 走向高考
4.(2017·山东高考)为了研究某班学生的脚长 x(单位:厘米)和身高
y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点
图可以看出 y 与 x 之间有线性相关关系,设其回归直线方程为^y=b^ x+a^,
成对数据统计分析的五种考查方向
成对数据统计分析的五种考查方向ʏ西北师范大学附属中学 卢会玉众所周知,独立性检验是统计学的一种检验方式,它是根据数据判断两类因子彼此相关或相互独立的假设检验㊂若要推断的论述为H 1: X 与Y 有关系 ,可以利用独立性检验来考查两个变量是否有关系,并且能较精确地给出这种判断的可靠程度㊂具体的做法是,由表中的数据算出随机变量K 2(即K 的平方)的值,K 2的值越大,说明 X 与Y 有关系成立的可能性越大㊂独立性检验也是高考中的高频考点㊂若两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系㊂如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,这两个变量就具有线性相关关系㊂与线性相关有关的考查也是非常常见的㊂成对数据的统计分析,对同学们的数学建模㊁数学抽象㊁数据分析㊁数学运算等核心素养的提高,是非常具有意义的㊂下文用几道例题对成对数据的统计分析进行盘点与分析㊂方向一㊁成对数据的相关性有时会借助散点图对成对数据进行分析,散点图中点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关㊂有时会借助样本相关系数对成对数据进行分析:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强㊂有时借助回归方程对成对数据进行分析:当^b >0时,正相关;当^b <0时,负相关㊂例1 某统计部门对四组数据进行统计分析后,获得如图1所示的散点图㊂图1下面关于相关系数的比较,说法正确的是( )㊂A.r 4<r 2<r 1<r 3B .r 2<r 4<r 1<r 3C .r 2<r 4<r 3<r 1D .r 4<r 2<r 3<r 1解析:由图可知:r 3,r 1所对应的图中的散点呈现正相关,而且r 1对应的相关性比r 3对应的相关性要强,故0<r 3<r 1;r 2,r 4所对应的图中的散点呈现负相关,且根据散点的分布情况可知r 2<r 4<0㊂因此,r 2<r 4<r 3<r 1,选C ㊂例2 对两个变量x ,y 进行线性相关检验,得线性相关系数r 1=0.8995,对两个变量u ,v 进行线性相关检验,得线性相关系数r 2=-0.9568,则下列判断正确的是( )㊂A.变量x 与y 正相关,变量u 与v 负相关,变量x 与y 的线性相关性较强B .变量x 与y 负相关,变量u 与v 正相关,变量x 与y 的线性相关性较强C .变量x 与y 正相关,变量u 与v 负相关,变量u 与v 的线性相关性较强D .变量x 与y 负相关,变量u 与v 正相关,变量u 与v 的线性相关性较强解析:依题意知r 1=0.8995,r 2=-0.9568,所以x ,y 正相关,u ,v 负相关㊂又|r 1|<|r 2|<1,故u ,v 的线性相关性较强,选C ㊂方向二㊁相关系数求解以及线性回归方程当求线性回归方程时,求出^b 是非常关键的一步㊂有时也会只给出公式^b =ðni =1(x i-x )(y i -y )ðni =1(x i-x )2,但是数据更适合代入另一个公式^b =ðni =1x iy i -n x y ðni =1x2i -nx 2,这给同学们带来了不小的麻烦,要求大家能顺利互化两个公式㊂同理,相关系数r 求解时也会遇到类似的问题㊂甚至有一些题目是需要对^b 和r 进行转化才能完成㊂例3 重庆市位于北半球亚热带内陆地区,其气候特征恰如几句俗谚:春早气温不稳定,夏长酷热多伏旱,秋凉绵绵阴雨天,冬暖少雪云雾多㊂尤其是10月份,昼夜温差很大,某数学兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了2021年10月其中六天的昼夜温差情况与因患感冒而就诊的人数,得到资料(表1)㊂表1日期第一日第三日第五日第四日第二日第六日昼夜温差x (ħ)47891214就诊人数y (个)y 1y 2y 3y 4y 5y 6其中:y i ɪN *,i =1,2,3,4,5,6㊂参考数据:ð6i =1y 2i =2658,ð6i =1(y i -y )2=258,258ʈ16㊂(1)根据表中数据可以认为x 与y 之间存在线性相关关系,且相关系数r =127128,请用最小二乘法求出线性回归方程^y =b x +a (a ,b 用分数表示)㊂(2)分析数据发现:第六日就诊人数y 6=30,第一日就诊患者中有3个小孩,其他患者全是大人㊂现随机地从第一日所有就诊患者中选出2人,若2人中至少有1个小孩的概率为815㊂①求y 1的值;②若y 2<y 3<y 4<y 5,求y 2,y 3,y 4,y 5的值(只写结果,不写求解过程)㊂参考公式:b =ðni =1(x i -x )(y i -y )ðni =1(x i -x )2,a =y -b ㊃x ,r =ðni =1(x i -x )(y i -y )ðni =1(x i -x )2㊃ðni =1(y i -y )2㊂解析:(1)因为ð6i =1(y i -y )2=258,所以y 21+y 22+ +y 26-2(y 1+y 2+ +y 6)y +6y 2=258㊂因为ð6i =1y 2i =2658,y 1+y 2+ +y 6=6y ,所以2658-12y 2+6y 2=258,y =20㊂因为x =16ˑ(4+7+8+9+12+14)=9,所以ð6i =1(x i -x )2=(4-9)2+(7-9)2+ +(14-9)2=64㊂因为r =ðni =1(x i -x )(y i -y )ðni =1(x i -x )2㊃ðni =1(y i -y )2=ðni =1(x i -x )(y i -y )ðni =1(x i -x )2㊃ðni =1(x i -x )2ðni =1(y i -y )2=b ㊃ðni =1(x i -x )2ðn i =1(y i -y )2,r =127128,所以127128=b ㊃8258,b =12764,a =20-12764㊃9=13764,即线性回归方程为^y =12764x +13764㊂(2)①由题意可得,2人中至少有一个小孩的概率P =C 13C 1y 1-3+C 23C 2y 1=815,即4y 21-49y 1+90=0,解得y 1=10或y 1=94(舍去)㊂②由(1)得y =20,因为y 1=10,y 6=30,所以10+y 2+y 3+y 4+y 5+30=120,y 2+y 3+y 4+y 5=80㊂因为ð6i =1y 2i =2658,所以100+y 22+y 23+y 24+y 25+900=2658,y 22+y 23+y 24+y 25=1658㊂因为y 2,y 3,y 4,y 5ɪN *,y 2<y 3<y 4<y 5,所以y 2=15,y 3=18,y 4=22,y 5=25㊂例4 某地经过多年的环境治理,已将荒山改造成了绿水青山㊂为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据(表2)㊂表2样本号i 12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量y i0.250.400.220.540.510.340.360.460.420.403.9 并计算得ð10i =1x 2i =0.038,ð10i =1y 2i =1.6158,ð10i =1x i y i =0.2474㊂(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量㊂(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01)㊂(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2㊂已知树木的材积量与其根部横截面积近似成正比,利用以上数据给出该林区这种树木的总材积量的估计值㊂附:相关系数r =ðni =1(x i -x )(y i -y )ðn i =1(x i -x )2ðni =1(y i -y )2,1.896ʈ1.377㊂解析:(1)样本中10棵这种树木的根部横截面积的平均值 x =0.610=0.06,样本中10棵这种树木的材积量的平均值 y =3.910=0.39㊂据此可估计该林区这种树木平均一棵的根部横截面积为0.06m 2,平均一棵的材积量为0.39m 3㊂(2)r =ð10i =1(x i - x )(y i - y )ð10i =1(x i - x )2ð10i =1(y i -y )2=ð10i =1x i y i -10 x y (ð10i =1x 2i -10 x 2)(ð10i =1y 2i -10 y 2)=0.2474-10ˑ0.06ˑ0.39(0.038-10ˑ0.062)(1.6158-10ˑ0.392)=0.01340.0001896ʈ0.0134.01377ʈ0.97,则r ʈ0.97㊂(3)设该林区这种树木的总材积量的估计值为y m 3,又已知树木的材积量与其根部横截面积近似成正比,故0.060.39=186y,解得y =1209m 3㊂则该林区这种树木的总材积量估计为1209m 3㊂方向三㊁非线性回归方程解决非线性回归问题的关键点是合理转化为线性回归问题,对运算能力的要求非常高㊂图2例5 5G 网络是指第五代移动网络通信技术,它的主要特点是传输速度快,峰值传输速度可达每秒数十G B ㊂作为新一代移动通信技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居㊁智能穿戴等设备㊂某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y (单位:万元)关于月份x 的数据如表3所示,并根据数据绘制了如图2所示的散点图㊂表3月份x 123456收入y611233772124(1)根据散点图,判断y =a x +b 与y =c e d x(a ,b ,c ,d 均为常数)哪一个更适合作为经济收入y 关于月份x 的回归方程类型㊂(给出判断即可,不必说明理由)(2)根据(1)的结果及表中数据,求出y 关于x 的回归方程㊂(结果保留两位小数)(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入㊂(结果保留两位小数)参考公式及参考数据:回归方程^y =^b x +^a 中斜率和截距的最小二乘估计公式为^b =ðni =1(x i -x )(y i -y )ðni =1(x i-x )2=ðni =1x i yi-n x yðni =1x2i -nx 2,^a =y -^b x ㊂表4xyuð6i =1(x i -x )2ð6i =1(x i -x )(y i -y )ð6i =1(x i -x )(u i-u )e 5.483.545.53.3417.5393.510.63239.85其中u =l n y ,u i =l n y i (i =1,2,3,4,5,6)㊂解析:(1)由散点图可知,y =c ed x更适合作为经济收入y关于月份x的回归方程类型㊂(2)y=c e d x的两边取自然对数,得l n y =l n c+d x㊂因为x=3.5,u=3.34,ð6i=1(x i-x)2=17.5,ð6i=1(x i-x)(u i-u)=10.63,所以^d=ð6i=1(x i-x)(u i-u)ð6i=1(x i-x)2=10.6317.5ʈ0.61,l n c=u-^d xʈ3.34-0.61ˑ3.5=1.205ʈ1.21,cʈe1.21㊂所以经济收入y关于月份x 的回归方程为^y=e1.21+0.61x㊂(3)当x=7时,^y=e1.21+0.61ˑ7=e5.48ʈ239.85㊂预测该公司7月份的经济收入约为239.85万元㊂方向四㊁独立性检验独立性检验不论是理解还是运算相对都要简单一些,正确解答的关键还是先理解题意后计算㊂例6 2022年北京冬奥组委发布的‘北京2022年冬奥会和冬残奥会经济遗产报告(2022)“显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式㊂为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下2ˑ2列联表(表5)㊂表5销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时1720线上销售时间不足8小时合计45(1)请完成上面的2ˑ2列联表,能否有99%的把握认为赞助企业每天的销售额与每天线上销售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业,在销售额不足30万元的企业中抽取时,记 抽到线上销售时间不少于8小时的企业数 为X,求X的分布列和数学期望㊂附:表6P(K2ȡk0)0.0500.0100.001k03.8416.63510.828参考公式:K2=n(a d-b c)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d㊂解析:(1)由题意,可得下面的2ˑ2列联表(表7)㊂表7销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时17320线上销售时间不足8小时101525合计271845根据上面的列联表得:K2=n(a d-b c)2(a+b)(c+d)(a+c)(b+d)= 45ˑ(17ˑ15-10ˑ3)220ˑ25ˑ27ˑ18=9.375>6.635㊂故有99%的把握认为赞助企业每天的销售额与每天的线上销售时间有关㊂(2)企业总数为45,样本容量与总体容量之比为545=19,所以从销售额不少于30万元㊁销售额不足30万元的企业中对应抽取的企业个数为3㊁2,则随机变量X的可能取值为0,1,2㊂易得P(X=0)=C215C218=3551,P(X=1)= C13C115C218=517,P(X=2)=C23C218=151㊂所以随机变量X的分布列如表8所示㊂表8X012P3551517151所以数学期望E(X)=0ˑ3551+1ˑ517+ 2ˑ151=13㊂方向五㊁成对数据的综合考查例7共享汽车,是指许多人合用一辆车,即开车人对车辆只有使用权,而没有所有权,有点类似于在租车行业里的短时间租车㊂它手续简便,打个电话或通过网上就可以预约订车㊂某市为了了解不同年龄的人对共享汽车的使用体验,随机选取了100名使用共享汽车的体验者,让他们根据体验效果进行评分㊂附:回归直线的斜率^b=ðn i=1(x i- x)(y i- y)ðn i=1(x i- x)2;相关系数r=ðn i=1(x i- x)(y i- y)ðn i=1(x i- x)2ðn i=1(y i- y)2;独立性检验中的K2=n(a d-b c)2(a+b)(a+c)(b+d)(c+d),其中n=a+ b+c+d㊂临界值表(表9)㊂表9P(K2ȡk0)0.0500.0100.001k03.8416.63510.828(1)设消费者的年龄为x,对共享汽车的体验评分为y㊂若根据统计数据,用最小二乘法得到y关于x的线性回归方程为^y= 1.5x+15,且年龄x的方差为s2x=9,评分y 的方差为s2y=25㊂求y与x的相关系数r,并据此判断对共享汽车使用体验的评分与年龄的相关性强弱(当|r|ȡ0.75时,认为相关性强,否则认为相关性弱)㊂(2)现将100名消费者的年龄划分为 青年 和 中老年 ,评分划分为 好评 和 差评 ,整理得到如下数据,请将列联表(表10)补充完整并判断是否有99.9%的把握认为对共享汽车的评价与年龄有关㊂表10好评差评合计青年16中老年12合计44100解析:(1)因为s2x=ð100i=1(x i- x)2100=9,所以ð100i=1(x i- x)2=900㊂因为s2y=ð100i=1(y i- y)2100=25,所以ð100i=1(y i- y)2=2500㊂因为^b=ð100i=1(x i- x)(y i- y)ð100i=1(x i- x)2=1.5,所以ð100i=1(x i- x)(y i- y)=1.5ˑð100i=1(x i- x)2= 1.5ˑ900=1350㊂所以相关系数r=ð100i=1(x i- x)(y i- y)ð100i=1(x i- x)2ð100i=1(y i- y)2=1350900ˑ2500=135030ˑ50=0.9㊂因为0.9>0.75,所以可以判断对共享汽车使用体验的评分与年龄的相关性很强㊂(2)根据题意可得列联表(表11)㊂表11好评差评合计青年163248中老年401252合计5644100解得:K2=100(16ˑ12-32ˑ40)2(16+32)(16+40)(32+12)(40+12)ʈ19.25>10.828,所以有99.9%的把握认为对共享汽车的评价与年龄有关㊂成对数据的统计分析是高考考查的高频考点,如果每一种考查方向的关键点是明晰的,运算也是精准的,那对于同学们来说就会比较顺利㊂另一方面,成对数据的统计分析,对同学们的终身发展也是非常有意义的㊂(责任编辑徐利杰)。
成对差 分均值
成对差分均值
成对差分均值(Paired Difference Mean)是一种统计分析方法,常用于比较两组数据之间的差异。
它通常用于配对实验,即同一对象或同一组人在不同条件下的测量或观察。
这种方法通过计算每对数据之间的差异,然后求这些差异的平均值,来评估两个条件之间的差异。
成对差分均值的计算过程相对简单。
首先,需要收集两组成对数据,即同一对象或同一组人在不同条件下的观测值。
然后,计算每对数据之间的差异,即将第一组数据中的每个值减去第二组数据中对应的值。
接下来,将这些差异值相加,然后除以差异值的数量,得到成对差分均值。
成对差分均值的意义在于它提供了一个量化的指标,用于衡量两个条件之间的差异。
如果成对差分均值显著不为零,那么可以认为这两个条件之间存在差异。
此外,通过与其他统计量(如标准误、置信区间等)的结合,可以对这种差异进行更深入的解读和评估。
成对差分均值在实际应用中有广泛的应用。
例如,在医学研究中,可以用于比较两种治疗方法的效果差异;在市场营销中,可以用于评估不同广告策略对销售额的影响;在环境科学中,可以用于研究不同环境条件下的生物生长差异等。
总之,成对差分均值是一种简单而有效的统计分析方法,能够量化评估两个条件之间的差异,为各种领域的研究和决策提供有力支持。
成对对比统计分析
成对对比统计分析看sig值,也就是P值,小于0.05就是显著spss是一个很强大的统计软件。
但是里面的功能也有些复杂。
究竟如何进行两组变量对比分析呢?现在我来简单分享一下,以我做过的一道关于”学校足球队冲甲前后社会对学校了解”做例子,如何在spss里做两组变量的对比分析。
方法/步骤打开数据,找到要对比的两组数据量。
一组变量是冲甲前了解学校,一组变量是冲甲后了解学校。
数据如下图所示。
然后点击分析-比较均值-配对样本T检验。
然后将冲甲前了解学校和冲甲之后了解学校放进Variable1和Variable2之中。
然后按确定。
之后就会出现以下的数据列表。
但是对比反映得还不够直观明显。
.第一个表示样本基本统计信息第二个表是两组数据的相关性,sig小于0.05,说明有显著相关第三个表是关键的t检验结果,同样是看sig的值,小于0.05,说明两组的均值有显著差异根据表中的两组均值大小可以判断第一组的均值显著低于第二组的均值那t值是负的表示什么意思?T值同样与均值的大小有关的第一个均值小,第二个均值大,所以t值也是负的,没什么特别含义然后双击成对样本统计量。
会出现设置栏工具模式。
然后按最右边的统计图的图标。
可以选择不同的形状来显示。
.然后会出现如图所示的条形图。
双击条形图。
会弹出一个单独的窗口。
我们按编辑-选择X轴。
可以看到不同的参考值。
这一题只需要对比到均值,所以我们把其他的删除掉就好。
然后按确定。
..然后按编辑-选择Y轴,填变量的范围。
就可以变成图二一样,然后再按元素,显示数据,就可以看到它所对应的数值。
这样的对比图就很清晰地反映两组变量的关系。
..。
成对数据的统计分析
x3 3 4 5 5 6 6 8 y 10 12 13 18 19 21 24 27
②当实际值与估计值的差的绝对值与估计值的比值不超过10%时,认为 发放的该轮消费券助力消费复苏是理想的.若该省A城市8月份发放额度为 10百万元的消费券后,经过一个月的统计,发现实际带动的消费为30百 万元,请问发放的该轮消费券助力消费复苏是否理想?若不理想,请分 析可能存在的原因.
知识梳理
2.样本相关系数
(1)r=
n
xi- x yi- y
i=1
.
n
xi- x 2
n
yi- y 2
i=1
i=1
(2)当r>0时,称成对样本数据 正相关 ;当r<0时,称成对样本数据 负相关 . (3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越 强 ;当|r|越接 近0时,成对样本数据的线性相关程度越 弱 .
说明:对于经验回归方程的样本相关系数r,当|r|>0.75时,两个变量之间 具有很强的线性相关关系.参考数据: 35 ≈5.9.
x3 3 4 5 5 6 6 8
y 10 12 13 18 19 21 24 27
因为 x =3+3+4+5+8 5+6+6+8=5, y =10+12+13+18+8 19+21+24+27=18.
√^lt;r2
^^
B.b1>b2 D.R21>R22
身高的平均数为165+168+170+172+1731+0174+175+177+179+182 =173.5, 因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大, 所以去掉离群点后经验回归直线的截距变小而斜率变大, 所以a^ 1>a^ 2,b^ 1<b^ 2,所以 A 正确,B 错误;
考点40成对数据的统计分析
考点40 成对数据的统计分析1.【2023天津】调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.8245,下列说法正确的是( )A. 花瓣长度和花萼长度没有相关性B. 花瓣长度和花萼长度呈现负相关C. 花瓣长度和花萼长度呈现正相关D. 若从样本中抽取一部分,则这部分的相关系数一定是0.8245【答案】C【解析】【分析】本题考查线性相关问题,属基础题.根据散点图的特点可分析出相关性的问题,从而判断ABC选项,根据相关系数的定义可以判断D选项.【解答】解:根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;由于r=0.8245是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是0.8245,D选项错误故选:C2.【2020全国Ⅰ卷】某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,⋯,20)得到下面的散点图:由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是.( )A. y=a+bxB. y=a+C. y=a+D. y=a+b x【答案】D【解析】【分析】本题考查回归方程,属于基础题.连接各点,判断图象的大致走向,可判断函数为对数模型. 【解答】解:用光滑的曲线把图中各点连接起来,由图象的走向判断,此函数应该是对数函数类型的, 故应该选用的回归方程类型为y =a +bln x . 故选D .3.【2022全国甲卷】甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率; (2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关? 附:K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),【答案】解:(1)A 公司一共调查了260辆车,其中有240辆准点,得A 公司准点的概率=240260=0.923,B 公司一共调查了240辆,其中有210辆准点,则B 公司准点的概率=210240=0.875.(2):由题意得2×2列联表:K 2=n(ad −bc)2(a +b)(c +d)(a +c)(b +d)=500(240×30−210×20)2260×240×450×50=3.2>2.706所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关 【解析】本题考查独立性检验的应用,频率与概率的关系,属于中档题.4.【2020新高考Ⅰ卷】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率; (2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:K 2=n(ad−bc)2(a+b )(c+d )(a+c )(b+d )【答案】解:(1)用频率估计概率,从而得到“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率P =32+18+6+8100=0.64;(2)根据所给数据,可得下面的2×2列联表:(3)根据(2)中的列联表, 由K 2=n(ad−bc)2(a+b )(c+d )(a+c )(b+d )=100×(64×10−16×10)280×20×74×26≈7.484>6.635,P(K 2≥6.635)=0.010,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关. 【解析】本题考查了独立性检验的应用,用频率估计概率,属于基础题.(1)用频率估计概率,从而得到“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率; (2)根据题目所给的数据填写2×2列联表即可; (3)计算K 2,对照题目中的表格,得出统计结论.。
成对数据的统计分析学生
离散型随机变量分布列未命名一、解答题1.随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升,2020年的考研人数是341万人,2021年考研人数是377万人.某省统计了该省其中四所大学2022年的毕业生人数及考研人数(单位:千人),得到如下表格:(1)已知y 与x 具有较强的线性相关关系,求y 关于x 的线性回归方程ˆˆˆybx a =+; (2)假设该省对选择考研的大学生每人发放0.6万元的补贴.(i )若该省大学2022年毕业生人数为120千人,估计该省要发放多少万元的补贴? (ii )若A 大学的毕业生中小江、小沈选择考研的概率分别为p 、2p -1,该省对小江、小沈两人的考研补贴总金额的期望不超过0.75万元,求p 的取值范围.参考公式:()()()1122211n niii ii i nniii i x x y y x y nx yb x x xnx====---⋅==--∑∑∑∑,a y bx =-.2.2022年卡塔尔世界杯即将于11月20日开幕.某球迷协会欲了解会员是否前往现场观看比赛,按性别进行分层随机抽样,已知男女会员人数之比为3:2,统计得到如下列联表: (1)求a ,b 的值,依据小概率值=0.01α的独立性检验,能否认为是否前往现场观看比赛与性别有关?(2)用频率估计概率,假设会员是否前往现场观看互不影响,若从拟前往现场观看的会员中随机抽取4人进行访谈,求在访谈者中,女性不少于2人的概率. 附:22()()()()()n ad bc a b c d a c b d χ-=++++,其中=n a b c d +++.3.假设关于某设备的使用年限x (年)和所支出的维修费用y万元有如表的统计资料: (1)画出散点图并判断是否线性相关; (2)如果线性相关,求线性回归方程;(3)估计使用年限为10年时,维修费用是多少?参考数据:55552111120,25,90,112.3i i i i i i i i i x y x x y ========∑∑∑∑;附注:参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计分别为b =121()()()niii nii x x yy x x ==---∑∑=1221niii nii x y nxyxnx=---∑∑,=a y bx -4.随着节能减排意识深入人心,共享单车在各大城市大范围推广,越来越多的市民在出行时喜欢选择骑行共享单车.为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:(1)如果用户每周使用共享单车超过3次,那么认为其“喜欢骑行共享单车”.请完成下面的2×2列联表,并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢骑行共享单车”与性别有关;(2)每周骑行共享单车6次及6次以上的用户称为“骑行达人”,将频率视为概率,在我市所有的“骑行达人”中随机抽取4名,求抽取的这4名“骑车达人”中,既有男性又有女性的概率.附表及公式:()()()()()2n ad bcKa b c d a c b d-=++++2,其中n a b c d=+++;。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成对对比统计分析
看sig值,也就是P值,小于0.05就是显著
spss是一个很强大的统计软件。
但是里面的功能也有些复杂。
究竟如何进行两组变量对比分析呢?现在我来简单分享一下,以我做过的一道关于”学校足球队冲甲前后社会对学校了解”做例子,如何在spss里做两组变量的对比分析。
方法/步骤
打开数据,找到要对比的两组数据量。
一组变量是冲甲前了解学校,一组变量是冲甲后了解学校。
数据如下图所示。
然后点击分析-比较均值-配对样本T检验。
然后将冲甲前了解学校和冲甲之后了解学校放进Variable1和Variable2之中。
然后按确定。
之后就会出现以下的数据列表。
但是对比反映得还不够直观明显。
.
第一个表示样本基本统计信息
第二个表是两组数据的相关性,sig小于0.05,说明有显著相关
第三个表是关键的t检验结果,同样是看sig的值,小于0.05,说明两组的均值有显著差异
根据表中的两组均值大小可以判断第一组的均值显著低于第二组的均值
那t值是负的表示什么意思?
T值同样与均值的大小有关的
第一个均值小,第二个均值大,所以t值也是负的,没什么特别含义
然后双击成对样本统计量。
会出现设置栏工具模式。
然后按最右边的统计图的图标。
可以选择不同的形状来显示。
.
然后会出现如图所示的条形图。
双击条形图。
会弹出一个单独的窗口。
我们按编辑-选择X轴。
可以看到不同的参考值。
这一题只需要对比到均值,所以我们把其他的删除掉就好。
然后按确定。
.
.
然后按编辑-选择Y轴,填变量的范围。
就可以变成图二一样,然后再按元素,显示数据,就可以看到它所对应的数值。
这样的对比图就很清晰地反映两组变量的关系。
.
.。