随机变量、统计案例
统计案例(精讲)(提升版)(原卷版)
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
统计学教学案例(精选)
用于研究不同组别间均值差异的显著性,判断因素对结果的影响是 否显著。
回归分析
用于研究变量之间的关系,通过建立回归方程预测因变量的取值。
应用实例
在农业生产中,通过方差分析比较不同施肥方案对作物产量的影响 ,利用回归分析预测未来产量趋势。
04 非参数统计案例
非参数检验方法简介
非参数检验的定义与特点
先验概率
根据以往经验和分析得到的概率。
似然函数
表示在给定参数下,观测数据出现的概率。
后验概率
在得到新的观测数据后,对先验概率进行更新得到的概率。
贝叶斯网络模型构建与评估
贝叶斯网络
一种概率图模型,用于表示变 量间的依赖关系。
网络结构学习
通过数据学习贝叶斯网络的结 构,即变量间的依赖关系。
参数学习
在已知网络结构的情况下,通 过数据学习变量的条件概率分 布。
提高统计软件应用能力
通过实践操作,学生应熟练掌握至少一种统计软 件(如SPSS、R、Python等),提高数据处理 和分析效率。
统计学发展趋势探讨
大数据与人工智能融合
随着大数据和人工智能技术的不 断发展,统计学将更加注重与这 些技术的融合,提高数据处理和 分析的智能化水平。
跨领域应用拓展
统计学将在更多领域发挥重要作 用,如生物医学、环境科学、社 会科学等,为跨学科研究提供有 力支持。
频数分布表
通过分组整理数据,展示 各组数据的频数,直观反 映数据的分布情况。
直方图与条形图
利用图形展示数据的分布 情况,便于观察数据的分 布规律。
概率密度函数
描述连续型随机变量的分 布情况,反映数据在不同 取值范围内的概率大小。
数据集中趋势度量
服从泊松分布的随机变量的实例
服从泊松分布的随机变量的实例泊松分布及其实例泊松分布是一种描述独立随机事件发生频率的概率分布。
它广泛应用于各种实际场景,其中随机事件以平均恒定的速率发生。
泊松分布的特点独立性:每个事件的发生与其他事件无关。
恒定速率:事件发生的平均速率在整个观察期内保持不变。
事件之间无记忆性:发生或未发生过去事件对未来事件的可能性没有影响。
泊松分布实例1. 电话呼叫的到达电话呼叫中心接到的呼叫数目通常服从泊松分布。
平均呼叫到达率随时间而变化,但通常在任何给定时间点保持相对恒定。
2. 放射性衰变放射性原子的衰变率是恒定的,这会导致服从泊松分布的衰变事件。
3. 交通事故特定道路上发生交通事故的数量可以近似为泊松分布。
虽然事故率可能随时间波动,但总体平均事故率通常保持相对稳定。
4. 客户服务请求企业每天收到的客户服务请求的数量通常符合泊松分布。
请求率可能受一天中时间、一周中日期、季节性和其他因素的影响,但总体平均请求率相对稳定。
5. 生产缺陷生产线上产生的缺陷数量可以近似为泊松分布。
虽然缺陷率可能会因机器、运营商和材料等因素而异,但总体平均缺陷率通常保持恒定。
6. 网站流量网站访问者的到来经常表现出泊松分布。
平均访问率可能会根据一天中时间、一周中日期、促销活动和其他因素而波动,但总体平均访问率保持相对稳定。
7. 生物学中的随机事件泊松分布也可以描述生物学中的随机事件,例如突变的发生、基因表达和细胞分裂。
8. 金融市场金融市场上的某些事件,例如股票价格变化和交易量,可以近似为泊松分布。
9. 队列管理泊松分布在队列管理中也很有用。
例如,银行中等待服务的客户人数通常服从泊松分布。
10. 保险索赔保险公司收到的索赔数量可以近似为泊松分布。
索赔率可能因风险类型、季节性和其他因素而异,但总体平均索赔率通常保持相对稳定。
概率论与数理统计案例
4. 记
X
1 100
100 i 1
Xi
(1) P{X 14.5} P{ X 14 14.5 14} P{ X 14 2.5} 1(2.5) 0.0062
0.2
可见,100 件产品的平均强度超过 14.5 的概率非常之小。
(2) P{X 14} P{ X 14 14 14} P{ X 14 0} (0) 0.5
X 1, X 2 ,, X 200 是 200 个相互独立的随机变量,且 E( X k ) 100, D( X k ) 100 ,
对全部高中资料试卷电气设备,在安装过程中以及安装结束后进行高中资料试卷调整试验;通电检查所有设备高中资料电试力卷保相护互装作置用调与试相技互术关,通系电1,力过根保管据护线生高0不产中仅工资2艺料22高试2可中卷以资配解料置决试技吊卷术顶要是层求指配,机置对组不电在规气进范设行高备继中进电资行保料空护试载高卷与中问带资题负料2荷试2,下卷而高总且中体可资配保料置障试时2卷,32调需3各控要类试在管验最路;大习对限题设度到备内位进来。行确在调保管整机路使组敷其高设在中过正资程常料1工试中况卷,下安要与全加过,强度并看工且25作尽52下可22都能护可地1关以缩于正小管常故路工障高作高中;中资对资料于料试继试卷电卷连保破接护坏管进范口行围处整,理核或高对者中定对资值某料,些试审异卷核常弯与高扁校中度对资固图料定纸试盒,卷位编工置写况.复进保杂行护设自层备动防与处腐装理跨置,接高尤地中其线资要弯料避曲试免半卷错径调误标试高方中等案资,,料要编试求5写、卷技重电保术要气护交设设装底备备置。4高调、动管中试电作线资高气,敷料中课并设3试资件且、技卷料中拒管术试试调绝路中验卷试动敷包方技作设含案术,技线以来术槽及避、系免管统不架启必等动要多方高项案中方;资式对料,整试为套卷解启突决动然高过停中程机语中。文高因电中此气资,课料电件试力中卷高管电中壁气资薄设料、备试接进卷口行保不调护严试装等工置问作调题并试,且技合进术理行,利过要用关求管运电线行力敷高保设中护技资装术料置。试做线卷到缆技准敷术确设指灵原导活则。。:对对在于于分调差线试动盒过保处程护,中装当高置不中高同资中电料资压试料回卷试路技卷交术调叉问试时题技,,术应作是采为指用调发金试电属人机隔员一板,变进需压行要器隔在组开事在处前发理掌生;握内同图部一纸故线资障槽料时内、,设需强备要电制进回造行路厂外须家部同出电时具源切高高断中中习资资题料料电试试源卷卷,试切线验除缆报从敷告而设与采完相用毕关高,技中要术资进资料行料试检,卷查并主和且要检了保测解护处现装理场置。设。备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况,然后根据规范与规程规定,制定设备调试高中资料试卷方案。
高三数学统计案例试题
高三数学统计案例试题1.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表是抽样试验结果:若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制所在的范围是()A.10转/s以下B.15转/s以下C.20转/s以下D.25转/s以下【答案】B【解析】则a=-b=-0.857 5.∴回归直线方程为=0.728 6x-0.857 5.要使y≤10,则0.728 6x-0.857 5≤10,∴x≤14.901 9.因此,机器的转速应该控制在15转/s以下.故选B.2.登山族为了了解某山高y(km)与气温x(°C)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x(°C)181310-1由表中数据,得到线性回归方程,由此请估计出山高为72(km)处气温的度数为()A.-10B.-8C.-6D.-6【答案】C【解析】由题意可得=10,=40.5,所以=+2=40.5+2×10=60.5,所以,当=72时,,解得x≈-6,故选C.【考点】回归分析3.为了调查某大学学生在周日上网的时间,随机对名男生和名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表上网时间(分5253025151020402010(Ⅰ)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;(Ⅱ)完成表3的列联表,并回答能否有90%的把握认为“学生周日上网时间与性别有关”?(Ⅲ)从表3的男生中“上网时间少于60分钟”和“上网时间不少于60分钟”的人数中用分层抽样的方法抽取一个容量为5的样本,再从中任取两人,求至少有一人上网时间超过60分钟的概率.表3 :上网时间少于60分钟上网时间不少于60分钟合计附:,其中【答案】(I)225;(II)否;(III).【解析】(I)统计得到女生样本中的上网时间不少于60分钟的频数,根据频数与容量之比等于频率,易得到全校上网时间不少于60分钟的人数;(II)由以上列联表1、2的数据,可统计得到表3的数据,根据独立性检验原理可知:没有90%的把握认为“学生周日上网时间与性别有关”;(III)五名男生中任取两人的基本事件数10个,根据表3可知男生上网超过60分钟与不超过60分钟的人数比为3:2,再写出至少一人超过60分钟的事件数7个,易求得概率为.试题解析:(1)设估计上网时间不少于60分钟的人数,依据题意有,解得:,所以估计其中上网时间不少于60分钟的人数是225人.(2)根据题目所给数据得到如下列联表:上网时间少于60分钟上网时间不少于60分钟合计其中 ,因此,没有90%的把握认为“学生周日上网时间与性别有关”.(3)因为上网时间少于60分钟与上网时间不少于60分钟的人数之比为,所以5人中上网时间少于60分钟的有3人,记为上网时间不少于60分钟的有2人,记为从中任取两人的所有基本事件为:(),(),(),(),(),(),(),(),(),(),共10种,其中“至少有一人上网时间超过60分钟”包含了7种, .【考点】1、用样本估计总体; 2、独立性检验;3、古典概型的概率求法.4.为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10000 株的生长情况进行研究,现采用分层抽样方法抽取50株作为样本,统计结果如下:高茎矮茎合计10株玉米,再从这10株玉米中随机选出3株,求选到的3株之中既有圆粒玉米又有皱粒玉米的概率;(2) 根据对玉米生长情况作出的统计,是否能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关?(下面的临界值表和公式可供参考:,其中)【答案】(1);(2) 能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关.【解析】本小题通过统计与概率的相关知识,具体涉及到随机变量的分布列、数学期望的求法和统计案例中独立性检验等知识内容,考查学生对数据处理的能力,对考生的运算求解能力、推理论证能力都有较高要求. 本题属于统计概率部分综合题,对考生的统计学的知识考查比较全面,是一道的统计学知识应用的基础试题. .(1)采用分层抽样的比例关系确定个数,然后利用排列组合的知识,借助随机事件的概率求解;(2)根据已知的公式,经过仔细的计算出的值,然后借助表格进行数据对比,得到相关性的结论.试题解析:(1) 现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,所以从中再次选出3株时,既有圆粒又有皱粒的概率为. (6分) (2) 根据已知列联表:所以.又,因此能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关. (12分)【考点】(1)随机变量的分布列;(2)统计案例中独立性检验5.(本小题共12分)现对某市工薪阶层关于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入的频数分布及对“楼市限购令”赞成人数如下表.月收入(单[15,25[25,35[35,45[45,55[55,65[65,75510151055(1)由以上统计数据填下面2乘2列联表并问是否有99%的把握认为“月收入以5500为分界点对“楼市限购令” 的态度有差异;(2)若对在[15,25),[25,35)的被调查中各随机选取两人进行追踪调查,记选中的4人中不赞成“楼市限购令”人数为,求随机变量的分布列。
概率论与数理统计案例
概率论与数理统计案例概率论与数理统计是数学学科的两个分支,它们研究与概率和随机变量相关的问题,可以应用于统计、经济、金融等领域。
下面将介绍一些概率论与数理统计的案例。
案例一:骰子游戏在玩一个骰子游戏时,每次掷一个骰子,如果骰子点数为1或6,则游戏结束,否则游戏继续。
假设你可以决定掷骰子的次数,掷的次数越多,结束游戏的概率越大,但可能会因为掷的次数过多而浪费时间。
现在假设你只能掷骰子n次,问你应该掷几次骰子可以使结束游戏的概率最大?解题思路:对于这个问题,我们可以使用概率论的方法来求解。
假设掷骰子的次数为k,那么结束游戏的概率为:$P_k$ = $\frac{1}{3} + \frac{4}{9}(\frac{2}{3})^k +\frac{2}{9}(\frac{1}{2})^k(\frac{2}{3})^{n-k}$为了使结束游戏的概率最大,我们需要求出这个概率关于k的一阶导数,并令其等于0。
对上式求导,得到:令$P'_k$ = 0,解得:$k$ = $\frac{n}{2}$因此,在保证掷骰子次数不超过n的情况下,掷骰子次数为$\frac{n}{2}$时可以使结束游戏的概率最大。
案例二:股票涨跌预测对于投资者来说,股票的涨跌是一个重要的决策因素,如果能准确预测股票涨跌,可以获得更高的投资收益。
根据概率论和数理统计的方法,我们可以尝试分析股票涨跌的概率和趋势,并根据分析结果制定投资策略。
对于股票涨跌的预测,我们可以使用概率论中的二项分布来进行分析。
假设一个股票价格在一段时间内有50%的概率上涨,50%的概率下跌,我们可以将上涨定义为成功事件,下跌定义为失败事件,那么在n次交易中,股票涨k次的概率为:$P(k) = \frac{n!}{k!(n-k)!}\times p^k\times (1-p)^{n-k}$其中,p为股票价格上涨的概率,k为股票涨的次数。
对于预测股票涨跌的趋势,我们可以使用时间序列分析的方法来进行分析。
统计案例的应用就在身边
统计案例的应用就在身边统计案例的应用就在身边 224100 江苏省盐城市大丰区南阳中学潘锦明统计是与生活关系最为密切的一门学科, 统计知识的学习更侧重于体会, 理解统计学的基本概念、方法、原理及其相应的实际意义,突出了统计中分析处理问题的基本思想方法.同学们只有亲自实践并与实际问题进行对比,才能有深刻而真实的体会.一.环保问题例1 有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP )和这一年各城市患白血病的儿童数量,如下表:(1)画出散点图;(2)求y 对x 的回归直线方程;(3)如果这个省的某一城市同时期年人均GDP 为12万元,估计这个城市一年患白血病的儿童数目;分析:利用公式分别求出b , a 的值,即可确定回归直线方程,然后再进行预测. 解:(1)作x 与y 对应的散点图,如右图所示;(2)计算得x =5. 33, y =226. 17,∧∧∑i =16(x i -x ) (y i -y ) =1286. 67∑i =16(x i -x ) 2=55. 33,∧1286. 67∴b =≈23. 25,a =226. 17-23. 25⨯5. 33≈102. 25,55. 33∧∴y 对x 的回归直线方程是y =23. 25x +102. 25;∧∧∧人均G(3)将x =12代入y =23. 25x +102. 25得y =23. 25⨯12+102. 25≈381,估计这个城市一年患白血病的儿童数目约为381.评注:本题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题——环保问题. 本题告诉了我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多. 原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识. 二.互联网问题例2 寒假中,某同学为组织一次爱心捐款,于2019年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:(1)作出散点图,并猜测x 与y 之间的关系;(2)建立x 与y 的关系,预报回归模型并计算残差;(3)如果此人打算在2019年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.分析:先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.解:(1)散点图略. 从散点图可以看出x 与y 不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线y =ke mx 的周围,其中k 、m 是参数;(2)对y =ke mx 两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k , b =m ) 的周围,这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了,数据可以转化为:∧求得回归直线方程为z =0. 620x +1. 133,∴y =e 0. 620x +1. 133.(3)截止到2019年2月12日,x =10,此时y =e 0. 620⨯10+1. 133≈1530(人). ∴估计可去1530人.评注:现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯. 但如何预测发帖后的效果,这却是个新课题,通过本题你是否已明确.例2有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少. 为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.(1)根据以上数据建立一个2×2的列联表;(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?分析:按题中数据建列联表,然后根据列联表数据求出k 值,即可判定.解:(1)2×2的列联表∧∧(.124⨯(43⨯33-27⨯21) 2≈6. 201,由表中数据得k =70⨯54⨯64⨯60因为k >5. 024,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有97. 5的把握认为“国籍和邮箱名称里是否含有数字有关”.评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量k 的值;第三步. 判断两个分类变量有关的把握(即概率)有多大. 三.文化生活问题例4 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的欢韩剧人数占女生人数的11,男生喜欢韩剧的人数占男生人数的,女生喜262. 3(1)若有950的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人;(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人. 分析:有95的把握认为回答结果对错和性别有关,说明k >3. 841,没有充分的证据显示回答结果对错和性别有关,说明k ≤2. 706. 设出男生人数,并用它分别表示各类别人数,代入K 2的计算公式,建立不等式求解即可.解:(1)若有95的把握认为回答结果的对错和性别有关,则k >3. 841,3x 5x x x x 2(⨯-⨯) 226366=3x >3. 841,解得x >10. 24,由K =x x 8x ⋅⋅⋅x 22∵x x则男生至少有12, 为整数,∴若有95的把握认为回答结果的对错和性别有关,26人;(2)没有充分的证据显示回答结果的对错和性别有关,则k ≤2. 706,3x 5x x x x 2(⨯-⨯) 226366=3x ≤2. 706,解得x ≤7. 216,由K =x x 8x ⋅⋅⋅x 22∵x x, 为整数,∴若没有充分的证据显示回答结果的对错和性别有关,则男生至多有266人.评注:这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义. 通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性. 其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.。
离散型随机变量的均值与方差、正态分布-概率、统计与统计案例
直线x=μ
1 a 2π
对称;
; ;
处达到峰值 1
(4)曲线与x轴之间的面积为
(5)当σ一定时,曲线随着μ的变化而沿 平移; (6)当μ一定时,曲线的形状由σ确定.σ越 小 曲线越“瘦高”,表示总体的分布越集中;σ越 大 曲线越“矮胖”,表示总体的分布越分散.
x轴
, ,
返回目录
考点一 求期望与方差 一接待中心有A,B,C,D四部热线电话,已知某一时 刻电话A,B占线的概率均为0.5,电话C,D占线的概率 均为0.4,各部电话是否占线相互之间没有影响.假设该 时刻有ξ部电话占线,试求随机变量ξ的概率分布和它的 期望. 返回目录
P(a<X≤b)=
∫
b φμ,σ(x)dx, a
则称X的分布为正态分布.正态分布完全由参数μ和 N(μ,σ2) .如果随机变量 σ确定,因此正态分布常记作 N(μ,σ2) . X服从正态分布,则记为X~ 正态曲线有以下特点: 返回目录
(1)曲线位于x轴上方,与x轴不相交;
(2)曲线是单峰的,它关于
【分析】利用ξ,η的分布列,用期望、方差公式计算 出它们的值,再根据期望、方差的实际意义作出分析. 【解析】依题意,有Eξ=10×0.5+9×0.2+8×0.1 +7×0.1+6×0.05+5×0.05+0×0=8.85(环). Eη=10×0.1+9×0.1+8×0.1+7×0.1+6×0.2+5×0.2
返回目录
【解析】因为灯管的使用寿命X~N(1 000,
302),为了查表方便,先化为标准正态分布N(0,1);令
Y= X - 1 000 ,即X=1 000+30Y,故Y~N(0,1).
1297_高中数学习题:一轮复习 统计与统计案例计数原理概率随机变量(新人教B版).doc_0
统计与统计案例计数原理、概率、随机变量一、选择题1.为了调查某县2021年高考数学成绩,在高考后对该县6000名考生进行了抽样调查,其中2000名文科学生,3800名理科考生,200名艺术和体育类考生,从中抽到了120名考生的数学成绩作为一个样本,这项调查宜采用的抽样方法是()A.系统抽样法B.分层抽样法C.抽签法D.简单的随机抽样法B [由于6000名学生各个学生层次之间存在明显差别,故要采用分层抽样的方法,故选B.]2.今年入夏以来,某市天气反复,降雨频繁.在下图中统计了某个月前15天的气温,以及相对去年同期的气温差(今年气温-去年气温,单位:℃),以下判断错误的是()A.今年每天气温都比去年气温高B.今年的气温的平均值比去年低C.去年8~11号气温持续上升D.今年8号气温最低A[由题图可知,1号温差为负值,所以今年1号气温低于去年气温,故选项A 不正确;除6,7号今年气温略高于去年气温外,其他日子今年气温都不高于去年气温,所以今年的气温的平均值比去年低,选项B 正确;今年8~11号气温上升,但是气温差逐渐下降,说明去年8~11号气温持续上升,选项C 正确;由题图可知,今年8号气温最低,选项D 正确.故选A.]3.(2021·黑龙江铁人中学高三三模)“幻方”最早记载于我国公元前500年的春秋时期《大戴礼》中,n 阶幻方(n ≥3,n ∈N *)是由前n 2个正整数组成的一个n 阶方阵,其各行各列及两条对角线所含的n 个数之和(简称幻和)相等,例如“3阶幻方”的幻和为15.现从如图所示的3阶幻方中任取3个不同的数,记“取到的3个数和为15”为事件A ,“取到的3个数可以构成一个等差数列”为事件B ,则P (B |A )=()A.34B.23C.13D.12D[根据题意,事件A 包含的基本事件有:(8,1,6),(3,5,7),(4,9,2),(8,3,4),(1,5,9),(6,7,2),(8,5,2),(4,5,6),共8个基本事件;事件AB 同时发生包含的基本事件有:(3,5,7),(1,5,9),(8,5,2),(4,5,6)共4个基本事件,所以P (B |A )=n ABn A =48=12.]4.若一个三位数的各位数字之和为10,则称这个三位数为“十全十美数”,如208,136都是“十全十美数”,则这样的“十全十美数”共有()A.32个B.64个C.54个D.96个C[分情况讨论:(1)这个三位数中不含0,若这个三位数中有两个重复数字,数字组合为(1,1,8),(2,2,6),(3,3,4),(4,4,2),则有“十全十美数”4C 13个,若这个三位数中的三个数字都不重复,数字组合为(1,2,7),(1,3,6),(1,4,5),(2,3,5),则有4A 33个“十全十美数”;(2)这个三位数中含一个0,数字组合为(1,0,9),(2,0,8),(3,0,7),(4,0,6),(5,0,5),则“十全十美数”有4C 12A 22+2=18(个).根据分类加法计数原理得,“十全十美数”共有4C 13+4A 33+18=54(个).故选C.]x +y )7的展开式中含x 4y 4项的系数为()A.-7B.-35C.-49D.-56Ax +y )7=x (x +y )7-2y 2x(x +y )7,因为(x +y )7的展开式的通项公式为T r +1=C r 7x7-r y r,x +y )7的展开式中含x 4y 4的项为x ·C 47x 3y 4-2y 2x ·C 27x 5y 2=-7x 4y 4,x +y )7的展开式中含x 4y 4项的系数为-7.]6.(2021·全国新高考Ⅱ卷)某物理量的测量结果服从正态分布N (10,σ2),则下列结论中不正确的是()A.σ越小,该物理量一次测量结果落在(9.9,10.1)内的概率越大B.σ越小,该物理量一次测量结果大于10的概率为0.5C.σ越小,该物理量一次测量结果大于10.01的概率与小于9.99的概率相等D.σ越小,该物理量一次测量结果落在(9.9,10.2)内的概率与落在(10,10.3)内的概率相等D[对于A,σ越小,正态分布的图象越瘦长,总体分布越集中在对称轴附近,故A 正确.对于B,C,由于正态分布图象的对称轴为μ=10,显然B,C 正确.D 显然错误.选D.]7.为了研究国民收入在国民之间的分配,避免贫富悬殊,美国统计学家劳伦茨提出了著名的劳伦茨曲线,如图所示.劳伦茨曲线为直线OL 时,表示收入完全平等.劳伦茨曲线为折线OKL 时,表示收入完全不平等.记区域A 为不平等区域,a 表示其面积;S 为△OKL的面积.将Gini=aS称为基尼系数.对于下列说法:①Gini 越小,国民分配越公平;②设劳伦茨曲线对应的函数为y =f (x ),则对任意x ∈(0,1),均有fxx>1;③若某国家某年的劳伦茨曲线近似为y =1-1-x 2(x ∈[0,1]),则Gini=π2-1.其中正确的是()A.①②B.①③C.②③D.①②③B[对于①,根据基尼系数公式Gini=aS,可得基尼系数越小,不平等区域的面积a 越小,国民分配越公平,故①正确;对于②,f x x =f x -0x -0表示曲线y =f (x )上的点与原点连线的斜率,由图可知对任意x ∈(0,1),均有0≤f xx≤1,故②错误;对于③,将y =1-1-x 2化简整理,得x 2+(y -1)2=1(x ,y ∈[0,1]),表示圆心为(0,1),半径为1的四分之一圆,所以a =14π×12-12×1×1=π4-12,S =12×1×1=12,所以a S =π4-1212=π2-1,故③正确.故选B.]8.已知函数f (x )=-π2x ,g (x )=x cos x -sin x ,当x ∈[-4π,4π]且x ≠0时,方程f (x )=g (x )根的个数是()A.5B.6C.7D.8D[由题意得,函数f (x )=-π2x在x ∈[-4π,4π]且x ≠0上是奇函数且是反比例函数,g (x )=x cos x -sin x 在x ∈[-4π,4π]上是奇函数,因为g ′(x )=cos x -x sin x -cos x =-x sin x ,当x ∈[0,π]∪[2π,3π]时,g ′(x )≤0,当x ∈(π,2π)∪(3π,4π]时,g ′(x )≥0,所以g (x )在[0,π],[2π,3π]上是减函数,在(π,2π),(3π,4π]上是增函数,且g (0)=0,g (π)=-π,g (2π)=2π,g (3π)=-3π,g (4π)=4π,所以作出函数f (x )与g (x )在[-4π,0)与(0,4π]上的图象,如图所示,结合图象可知,f (x )与g (x )的图象共有8个交点,所以方程f (x )=g (x )有8个根,故选D.]二、填空题9.已知样本x 1,x 2,…,x 2020的平均数与方差分别是1和4,若y i =ax i +b (i =1,2,…,2020),且样本y 1,y 2,…,y 2020的平均数与方差也分别是1和4,则a b =.1+b =1,a 2=4,=1,=0=-1,=2,所以a b=1.]10.《史记》卷六十五:《孙子吴起列传第五》,是中国历史上有名的揭示如何善用自己的长处去对付对手的短处,从而在竞技中获胜的事例.主要讲述了齐国的大将田忌与齐威王进行赛马比赛反败为胜的故事.若田忌的上等马优于齐王的中等马,劣于齐王的上等马,田忌的中等马优于齐王的下等马,劣于齐王的中等马,田忌的下等马劣于齐王的下等马,现双方各出上、中、下等马各一匹分组分别进行一场比赛,胜两场及以上者获胜,若双方均不知道对方马的出场顺序,则田忌获胜的概率为.16[设齐王的下等马,中等马,上等马分别为a 1,a 2,a 3,田忌的下等马,中等马,上等马分别记为b 1,b 2,b 3,齐王与田忌赛马,其情况有:(a 1,b 1),(a 2,b 2),(a 3,b 3),齐王获胜;(a 1,b 1),(a 2,b 3),(a 3,b 2),齐王获胜;(a 2,b 1),(a 1,b 2),(a 3,b 3),齐王获胜;(a 2,b 1),(a 1,b 3),(a 3,b 2),齐王获胜;(a 3,b 1),(a 1,b 2),(a 2,b 3),田忌获胜;(a 3,b 1),(a 1,b 3),(a 2,b 2),齐王获胜.共6种等可能的情况.其中田忌获胜的只有一种(a 3,b 1),(a 1,b 2),(a 2,b 3),则田忌获胜的概率为16.]11.在2021年高考前,某学校进行了模拟测试,理科与文科的前10名数学成绩如茎叶图所示(满分150分).若所选理科与文科成绩的中位数分别为x 1,x 2,平均数分别为x 1,x 2,标准差分别为s 1,s 2,给出下列结论:①x 1>x 2;②|x 1-x 2|>1;③理科这10名学生的成绩更集中;④文科这10名学生的成绩更集中,其中正确结论的个数为.3[条件可得x 1=123+1272=125,x 2=124+1252=124.5,这两组数据的平均数分别为x 1=125.7,x 2=124,故|x 1-x 2|>1,数据的方差分别s 21≈199,s 22≈94,故s 1>s 2,即文科这10名学生的成绩更集中,故正确的有①②④,即正确结论的个数为3.]12.(2021·浙江高考)袋中有4个红球,m 个黄球,n 个绿球.现从中任取两个球,记取出的红球数为ξ,若取出的两个球都是红球的概率为16,一红一黄的概率为13,则m -n=,E (ξ)=.189[由题意得P (ξ=2)=C 24C 2m +n +4=6C 2m +n +4=16⇒C 2m +n +4=36,所以m +n +4=9,P (一红一黄)=C 14·C 1m C 2m +n +4=4m 36=m 9=13⇒m =3,所以n =2,则m -n =1.由于P (ξ=2)=16,P (ξ=1)=C 14·C 15C 29=4×536=59,P (ξ=0)=C 25C 29=1036=518,∴E (ξ)=16×2+59×1+518×0=13+59=89.]三、解答题13.某校从参加高三化学得分训练的学生中随机抽出60名学生,将其化学成绩(均为整数,满分100分)分成六段:[40,50),[50,60),…,[90,100],由此得到部分频率分布直方图(如图).观察图中的信息,回答下列问题:(1)求分数在[70,80)内的频率,并补全频率分布直方图;(2)据此估计本次考试的平均分;(3)若从60名学生中随机抽取2人,抽到的学生成绩在[40,60)内记0分,在[60,80)内记1分,在[80,100]内记2分,用X 表示抽取结束后的总记分,求X 的分布列.[解](1)设分数在[70,80)内的频率为x .根据频率分布直方图,有(0.010+0.015×2+0.025+0.005)×10+x =1,解得x =0.3.补全频率分布直方图略.(2)抽取的60名学生的平均分为x =45×0.10+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.据此估计本次考试的平均分为71分.(3)成绩在[40,60)内的有0.25×60=15(人),成绩在[60,80)内的有0.45×60=27(人),成绩在[80,100]内的有0.3×60=18(人),易知X 的所有可能取值是0,1,2,3,4,则P (X =0)=C 215C 260=7118,P (X =1)=C 115C 127C 260=27118,P (X =2)=C 115C 118+C 227C 260=207590,P (X =3)=C 127C 118C 260=81295,P (X =4)=C 218C 260=51590.所以X 的分布列为X 01234P711827118207590812955159014.某大学举行了一次与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组:[30,40),[40,50),…,[90,100],并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)若分数在[30,40),[40,50),[50,60)上的频率分别为p 1,p 2,p 3,且2p 1+p 2=0.05,估计100名学生测试分数的平均数;(3)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关.男生女生优秀不优秀附:P (K 2≥k )0.0500.0100.001k3.8416.63510.828K 2=n ad -bc 2a +bc +d a +cb +d.[解](1)设这100名学生测试分数的中位数为a ,由前5组频率之和为0.4,前6组频率之和为0.8,可得80<a <90,所以0.4+(a -80)×0.04=0.5,解得a =82.5.(2)因为2p 1+p 2=0.05,且p 1+p 2+p 3=0.1,所以这100名学生测试分数的平均数为35p 1+45p 2+55(0.1-p 1-p 2)+65×0.1+75×0.2+85×0.4+95×0.2=5.5-10(2p 1+p 2)+6.5+15+34+19=79.5.(3)列联表如下:男生女生优秀4515不优秀2515可得K 2=10045×15-25×15270×30×60×40≈1.786<3.841.所以没有95%的把握认为测试优秀与性别有关.15.某“双一流”大学专业奖学金以所学专业各科考试成绩作为评选依据,分为专业一等奖学金(金额为3000元)、专业二等奖学金(金额为1500元)及专业三等奖学金(金额为600元),且专业奖学金每年评选一次,每个学生一年最多只能获得一次.图①是该校2021年500名学生周课外平均学习时间的频率分布直方图,图②是这500名学生2021年周课外平均学习时间与获得专业奖学金的频率柱状图.图①图②(1)求这500名学生中获得专业三等奖学金的人数.(2)若周课外平均学习时间超过35h的学生称为“努力型”学生,否则称为“非努力型”学生,列出2×2列联表并判断是否有99.9%的把握认为该校学生获得专业一、二等奖学金与“努力型”学生有关.(3)若以频率作为概率,从该校任选一名学生,记该学生2021年获得的专业奖学金金额为随机变量X,求随机变量X的分布列和数学期望.附:P(K2≥k)0.100.050.0100.0050.001k2.7063.841 6.6357.87910.828K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.[解](1)获得专业三等奖学金的频率为(0.008+0.016+0.04)×5×0.15+(0.04+0.056+0.016)×5×0.4+(0.016+0.008)×5×0.4=0.32,500×0.32=160(人),故这500名学生中获得专业三等奖学金的人数为160.(2)周课外平均学习时间不超过35h的“非努力型”学生有500×(0.008+0.016+0.04+0.04+0.056+0.016)×5=440(人),其中获得专业一、二等奖学金的学生有500×(0.008+0.016+0.04)×5×0.05+500×(0.04+0.056+0.016)×5×(0.25+0.05)=92(人).周课外平均学习时间超过35h的“努力型”学生有500×(0.016+0.008)×5=60(人),其中获得专业一、二等奖学金的学生有60×(0.35+0.25)=36(人).所以2×2列联表为“非努力型”学生“努力型”学生总计获得专业一、二等奖学金9236128未获得专业一、二等奖学金34824372总计44060500K2的观测值k=500×92×24-348×362128×372×440×60≈42.36>10.828,故有99.9%的把握认为该校学生获得专业一、二等奖学金与“努力型”学生有关.(3)X的可能取值为0,600,1500,3000.P (X =600)=0.32,P (X =1500)=0.05×(0.008+0.016+0.04)×5+0.25×(0.04+0.056+0.016)×5+0.35×(0.016+0.008)×5=0.198,P (X =3000)=0.05×(0.04+0.056+0.016)×5+0.25×(0.016+0.008)×5=0.058,P (X =0)=1-0.32-0.198-0.058=0.424.所以X 的分布列为X60015003000P 0.4240.320.1980.058故E (X )=0×0.424+600×0.32+1500×0.198+3000×0.058=663(元).16.核酸检测也就是病毒DNA 和RNA 的检测,是目前病毒检测最先进的检验方法,在临床上主要用于新型冠状乙肝、丙肝和艾滋病的病毒检测.通过核酸检测,可以检测血液中是否存在病毒核酸,以诊断机体有无病原体感染.某研究机构为了提高检测效率降低检测成本,设计了如下试验,预备12份试验用血液标本,其中2份阳性,10份阴性,从标本中随机取出n 份分为一组,将样本分成若干组,从每一组的标本中各取部分,混合后检测,若结果为阴性,则判定该组标本均为阴性,不再逐一检测;若结果为阳性,需对该组标本逐一检测.以此类推,直到确定所有样本的结果.若每次检测费用为a 元,记检测的总费用为X 元.(1)当n =3时,求X 的分布列和数学期望;(2)(ⅰ)比较n =3与n =4两种方案哪一个更好,说明理由;(ⅱ)试猜想100份标本中有2份阳性,98份阴性时,n =5和n =10两种方案哪一个更好(只需给出结论不必证明).[解](1)当n =3时,共分4组,当2份阳性在一组,第一轮检测4次,第二轮检测3次,共检测7次,若2份阳性各在一组,第一轮检测4次,第二轮检测6次,共检测10次,检测的总费用X 的所有可能值为7a,10a ,任意检测有C 312C 39C 36C 33种等可能结果,2份阳性在一组有A 14C 110C 39C 36C 33种等可能结果,P (X =7a )=A 14C 110C 39C 36C 33C 312C 39C 36C 33=211,P (X =10a )=1-P (X =7a )=911,所以检测的总费用X 的分布列为:X 7a 10a P211911X 的数学期望E (X )=7a ·211+10a ·911=104a11.(2)(ⅰ)当n =4时,共分3组,当2份阳性在一组,共检测7次,若2份阳性各在一组,共检测11次,检测的总费用Y 的所有可能值为7a,11a ,任意检测有C 412C 48C 44种等可能结果,2份阳性在一组有A 13C 210C 48C 44种等可能结果,P (Y =7a )=A 13C 210C 48C 44C 412C 48C 44=311,P (Y =11a )=1-P (Y =7a )=811,所以检测的总费用Y 的分布列为:Y 7a 11aP311811Y 的数学期望E (Y )=7a ·311+11a ·811=109a 11>104a11,所以n =3的方案更好一些.(ⅱ)n =10的方案更好一些.。
概率论与数理统计案例
概率论与数理统计案例案例背景在概率论与数理统计这个领域中,我们可以通过案例分析来更好地理解和应用所学的理论知识。
本文将通过介绍一个实际案例来探讨概率论与数理统计的应用。
案例介绍假设某个电商平台希望在销售季节到来之前预测某款商品的销售量,以便做好库存管理,制定营销策略和预测盈利情况。
该电商平台采集了过去一年的销售数据,并希望通过概率论与数理统计方法来预测未来的销售量。
数据收集该电商平台从过去一年的销售数据中获取到了每天该商品的销售量。
数据包括商品编号、销售日期和销售数量。
为了简化问题,我们仅考虑某一款商品的销售情况。
数据预处理在进行数据分析之前,首先对数据进行预处理。
预处理包括去除异常值、缺失值处理以及数据归一化等。
对于销售数量这个变量,我们可以先检查是否存在异常值,如果存在则进行删除或修正。
然后,我们需要处理可能存在的缺失值,可以使用均值填充或者删除缺失值较多的样本。
最后,为了进行统计分析,需要将数据进行归一化处理,例如使用z-score标准化方法。
数据分析在数据预处理完成后,我们可以开始进行数据分析了。
首先,我们可以计算该商品的每日平均销售量,并进行可视化展示。
通过对平均销售量的观察,我们可以初步判断销售量的分布情况。
平均销售量分布我们可以绘制柱状图来展示每天销售量的分布情况。
柱状图可以展示销售量的频数分布,帮助我们了解销售量的区间和分布特征。
同时,可以计算平均值和标准差来描述销售量的集中趋势和变异程度。
时间序列分析在考察销售量整体情况后,我们还可以进行时间序列分析。
时间序列分析可以帮助我们了解销售量的趋势和季节性变动。
通过绘制时间序列图和计算季节指数,我们可以确定销售量是否存在明显的趋势和周期性。
模型建立与预测在了解销售量的分布和规律后,我们可以基于概率论与数理统计的方法建立模型来预测未来的销售量。
随机游动模型随机游动模型是一种常用的时间序列模型,用于描述一系列随机变量的演化过程。
在本案例中,我们可以考虑用随机游动模型来预测未来的销售量。
随机变量与统计案例
• A={ (x,y) |x≤y, 6.5≤x ≤ 7.5,7.5 ≤ y ≤ 8 }; Ω= { (x,y) |6.5≤x ≤ 7.5,7.5 ≤ y ≤ 8 }。 P(A) =1(符合实际)
一、统计概率的整体定位和要求 二、随机变量及其分布 三、统计案例
第三章
统计案例
统计学不止是一种方法和技术, 还含有世界观的成分—它是看待世界 上万事万物的一种方法。 —陈希孺
4.教学中需注意的若干问题
(5)要重视“分布”对刻画随机现象的重要性 (6)要重视数字特征所反映的随机变量的重要信息 (7)注意超几何分布与二项分布背景的区别 (8)注意解释随机变量与样本均值(方差)的关系 (9)概率模型的选取 (10)定义合适的随机变量
分布的重要性
随机现象的两个特性: (1)结果的随机性;(2)频率的稳定性。 了解一个随机现象: (1)这个随机现象可能出现的结果; (2)每个结果出现的概率。
X P 1
1 6
2
1 6
3
1 6
4
1 6
5
1 6
6
1 6
当给出了随机变量,了解随机现象就变成了解这个随机 变量所有可能的取值和取每个值的概率。
数字特征的重要性
(1)数字特征的重要性在于它们有非常明确的含义, 反映了随机变量的重要信息。 (2)均值、方差等数字特征都是数,样本均值和方 差等是随机的。 (3)分布可以确定数字特征,数字特征一般无法确 定分布。
(1)比《数学3》中“回归”增加的内容
必修《数学3》已学回归内容
1. 画散点图 2. 了解最小二乘法的思想 3. 求回归直线方程 y=bx+a 4. 用回归直线方程解决应用问题
选修《数学2-3》新增内容
随机变量
随机变量在不同的条件下由于偶然因素影响,其可能取各种按照随机变量可能取得的值,可以把它们分为两种基本类型:①离散型随机变量,即在一定区间内变量取值为有限个,或数值可以一一列举出来。
例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。
②连续型随机变量,即在一定区间内变量取值有无限个,或数值无法一一列举出来。
例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。
3详细分析表示方法随机试验结果的量的表示。
例如掷一颗骰子出现的点数,电话交换台在一定时间内收到的呼叫次数,随机抽查的一个人的身高,悬浮在液体中的微粒沿某一方向的位移,等等,都是随机变量的实例。
一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间Ω(见概率)。
随机变量x是定义于Ω上的函数,即对每一基本事件ω∈Ω,有一数值x(ω)与之对应。
以掷一颗骰子的随机试验为例,它的所有可能结果见,共6个,分别记作ω1,ω2,ω3,ω4,ω5,ω6,这时,Ω={ω1,ω2,ω3,ω4,ω5,ω6},而出现的点数这个随机变量x,就是Ω上的函数x(ωk)=k,k=1,2,…,6。
又如设Ω={ω1,ω2,…,ωn}是要进行抽查的n个人的全体,那么随意抽查其中一人的身高和体重,就构成两个随机变量x和Y,它们分别是Ω上的函数:x(ωk)=“ωk的身高”,Y(ωk)=“ωk的体重”,k=1,2,…,n。
一般说来,一个随机变量所取的值可以是离散的(如掷一颗骰子的点数只取1到6的整数,电话台收到的呼叫次数只取非负整数),也可以充满一个数值区间,或整个实数轴(如液体中悬浮的微粒沿某一方向的位移)。
研究方法在研究随机变量的性质时,确定和计算它取某个数值或落入某个数值区间内的概率是特别重要的。
因此,随机变量取某个数值或落入某个数值区间这样的基本事件的集合,应当属于所考虑的事件域。
根据这样的直观想法,利用概率论公理化的语言,取实数值的随机变量的数学定义可确切地表述如下:概率空间(Ω,F,p)上的随机变量x是定义于Ω上的实值可测函数,即对任意ω∈Ω,x(ω)为实数,且对任意实数x,使x(ω)≤x的一切ω组成的Ω的子集{ω:x(ω)≤x}是事件,也即是F中的元素。
数理统计学的基础与实际应用案例
数理统计学的基础与实际应用案例数理统计学是一门研究收集、分析和解释数据的学科,它的应用范围广泛,涵盖了许多领域,如经济学、医学、生态学等。
本文将介绍数理统计学的基础概念,并结合实际应用案例,展示其在解决实际问题中的重要性。
一、基础概念1. 总体与样本在数理统计学中,总体是指研究对象的全体,而样本是从总体中选取的一部分。
研究者通常无法对整个总体进行研究,因此通过对样本的研究来推断总体的特征。
2. 参数与统计量参数是总体的数值特征,如总体均值、方差等。
统计量是样本的数值特征,如样本均值、样本方差等。
通过对样本的统计量进行计算,可以推断总体的参数。
3. 随机变量与概率分布随机变量是数理统计学中的重要概念,它表示随机试验的结果。
概率分布描述了随机变量的取值及其对应的概率。
常见的概率分布有正态分布、泊松分布等。
二、实际应用案例1. 市场调研市场调研是商业领域中常见的应用场景。
通过对一定数量的样本进行调查,可以了解市场的需求和消费者的偏好。
例如,某公司想要推出一款新产品,为了确定市场的潜在需求,可以对一定数量的消费者进行问卷调查,并通过数理统计学的方法分析调查结果,得出市场需求的估计值。
2. 医学研究在医学研究中,数理统计学发挥着重要的作用。
例如,某研究机构想要评估某种药物对某种疾病的治疗效果,可以将患者分为两组,一组接受药物治疗,另一组接受安慰剂治疗,然后通过对两组患者的治疗效果进行比较,利用数理统计学的方法判断药物的疗效是否显著。
3. 生态学研究生态学研究中,也经常使用数理统计学的方法。
例如,某生态学家想要了解某个生态系统中不同物种的数量分布情况,可以通过对样本进行抽样调查,然后利用数理统计学的方法估计总体的物种数量和分布情况。
三、数理统计学的局限性虽然数理统计学在实际应用中具有重要的作用,但也存在一定的局限性。
首先,数理统计学是基于样本的推断,因此样本的选择和样本量的大小对结果具有影响。
其次,数理统计学的结果只是概率性的估计,不能完全准确地描述总体的特征。
统计、统计案例
1 0 .0 , 第 一 、 三 、
四 、 五 小 组 的 频 率 分 布 别 是 ∴第 二 小 组 的 频 率 为 : 1 .0 0 -( 0 3 .0
+0 1 .5 +0 1 .0 +0 0 .5 )
=0 4 .0 .
第十章
统计、统计案例
走向高考 ·高考总复习 ·北师大版 ·数学
∴落在 5 9 5 . ~6 9 5 .
方法,即简单随机抽样、系统抽样、分层抽样.
第十章
统计、统计案例
为了考查某校的教学水平,将抽查这个学校高三年级的部分学
生本年度的考试成绩.为了全面反映实际情况,采取以下三种方式进行抽查 (已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了
学号,假定该校每班学生的人数相同):
①从高三年级 20 个班中任意抽取一个班,再从该班中任意抽取 20 名学 生,考察他们的学习成绩;
2
13)2] =0 8 ..
2 ( 2 ) 由 s2 > s 知 乙 的 成 绩 较 稳 定 . 从 折 线 图 看 , 甲 成 绩 基 甲 乙可
本 呈 上 升 状 态 , 而 乙 的 成 绩 上 下 波 动 , 可 知 甲 的 成 绩 在 不 断 提 高 , 而 乙 的 成 绩 则 无 明 显 提 高 .
法 抽 取 6 0 人 ; 在 普 通 生 中 用 简 单 随 机 抽 样 法 抽 取
第十章
统计、统计案例
走向高考 ·高考总复习 ·北师大版 ·数学
关于用样本估计总体的问题 用样本估计总体,主要包括用样本的频率分布估计总体的 分布,用样本的数字特征去估计总体的数字特征两部分内容, 这两部分是从不同角度对收集到的样本数据进行加工、整理, 并分析、判断样本数据的分布状况和数字特征,进而对总体进
四 变量间相关关系与统计案例
第四节变量间的相关关系与统计案例【最新考纲】 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(线性回归方程系数公式不要求记忆)3.了解回归分析的思想、方法及其简单应用.了解独立性检验的思想、方法及其初步应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.3.残差分析(1)残差:对于样本点(x1,y1),(x2,y2),…,(x n,y n),它们的随机误差为e i=y i-bx i-a,i=1,2,…,n,其估计值为e^i=y i-y^i =y i-b^x i-a^,i=1,2,…,n,e^i称为相应于点(x i,y i)的残差.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为则随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.1.(质疑夯基)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计和观测变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.()答案:(1)√(2)√(3)×(4)×2.(2014·重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x-=3,y-=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5)在回归直线上,排除B,选项A满足.答案:A3.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确...的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析:对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案:D4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是()A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C .有99%的把握认为该电视栏目是否优秀与改革有关系D .没有理由认为该电视栏目是否优秀与改革有关系解析:只有K 2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使K 2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D 正确.答案:D5.若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是y ^=0.849x -85.712,则第3名学生的体重估计为________.解析:设第3名学生的体重为a ,根据样本点的中心一定在回归直线上,可得48+57+a +54+64+61+43+598=0.849×165+165+157+170+175+165+155+1708-85.712,解得a ≈50. 答案:50 kg两条规律1.函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,相关关系是非随机变量与随机变量的关系.2.当K2>3.841时,则有95%的把握说事件A与B有关;当K2≤3.841时,认为两个分类变量无关.三点注意1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈直线时,求出的回归直线方程才有实际意义.2.线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差.3.独立性检验的随机变量K2的观测值k≤3.841是判断是否有关系的临界值,K2的观测值k≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值判断.A级基础巩固一、选择题2.第二届世界青年奥林匹克运动会于2014年8月16日~8月28日在南京举行,中国获37金,13银,13铜共63枚奖牌居奖牌榜首位,并打破十项青奥会记录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力() A.平均数与方差B.回归直线方程C.独立性检验D.概率解析:由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.答案:C3.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y--b^ x-,据此估计,该社区一户年收入为15万元家庭的年支出为() A.11.4万元B.11.8万元C.12.0万元D.12.2万元解析:由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 答案:B5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.答案:C二、填空题6.(2016·西安质检)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析:由x-=30,得y-=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案:687.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:∵K2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%8.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.解析:儿子和父亲的身高可列表如下:设线性回归方程为y ^=a ^+b ^x ,由表中的三组数据可求得b ^=1,且过中心点(173,176),故a ^=y --b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.答案:185 三、解答题9.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.解:(1)由题意知n =10,x -=1n i =1n x i =8010=8,(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y 之间是正相关.(3)将x=7代入回归方程,得y^=0.3×7-0.4=1.7(千元)所以可预测该家庭的月储蓄为1.7(千元).10.(2016·深圳调研)某企业通过调查问卷(满分50分)的形式对本企业900名员工的工作满意度进行调查,并随机抽取了其中30名员工(16名女员工,14名男员工)的得分,如下表:(1)根据以上数据,估计该企业得分大于45分的员工人数;(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均得分为“满意”,否则为“不满意”,请完成下列表格:(3)根据上述表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关?参考数据:解:(1)从表中可知,30名员工中有8名得分大于45分,所以任选一名员工,他(她)的得分大于45分的概率是830=4 15,所以估计此次调查中,该单位约有900×415=240名员工的得分大于45分.(2)依题意,完成2×2列联表如下:(3)假设H0:性别与工作是否满意无关,根据表中数据,求得K2的观测值k=30×(12×11-3×4)215×15×16×14≈8.571>6.635,查表得P(K2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为性别与工作是否满意有关.B级能力提升1.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()A.成绩B.视力C.智商D.阅读量解析:K 21=52×(6×22-10×14)216×36×20×32,设m =5216×36×20×32.则K 21=82m ,K 22=1122m ,K 23=962m ,K 24=4082m. ∴K 24>K 22>K 23>K 21,因此与性别有关联的可能性最大的变量是“阅读量”. 答案:D2.(2016·济南调研)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为________万元.解析:∵x -=4+2+3+54=72,y -=49+26+39+544=42,又y ^=b ^x +a ^必过(x -,y -),∴42=72×9.4+a ^,∴a ^=9.1. ∴线性回归方程为y ^=9.4x +9.1,∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 答案:65.53.(2014·辽宁卷)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:参考公式与临界表:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解:(1)将2×2列联表中的数据代入公式计算,得K2=100×(60×10-20×10)270×30×80×20=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.其中a i表示喜欢甜品的学生,i=1,2;b j表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.事件A是由7个基本事件组成,因而P(A)=7 10.统计与统计案例本章是新课程改革增加内容,是命题的热点,以程序框图、抽样方法、统计图表为重点,以客观题为主.命题重注背景新颖、角度灵活.但近年统计与统计案例、统计与概率交汇,加大考查力度.2014年、2015年课标全国均以解答题的形式呈现,强化统计思想方法和创新应用意识的考查,复习过程中应引起注意,多变换角度,注重新背景、新材料题目的训练.强化点1程序框图及应用(多维探究)高考中对程序框图的考查,以循环结构为主,考查程序运行后的结果,或考查控制循环的条件.主要以选择题或填空题的形式出现,以中低档难度为主.近年统计与相关知识交汇命题是高考的一大亮点,归纳起来常见的命题角度有:(1)程序框图与统计交汇;(2)程序框图与函数渗透;(3)程序框图与数列交汇渗透.角度一程序框图与统计的渗透交汇1.如图所示是计算某年级500名学生期末考试(满分为100分)及格率q的程序框图,则图中空白框内应填入________.解析:由判断框输出可知,M表示及格人数,N表示不及格人数,∴及格率q =MM +N ,因此执行框为“q =MM +N ”. 答案:q =MM +N角度二 程序框图与数列交汇2.(2015·湖南卷)执行如图所示的程序框图,如果输入n =3,则输出的S =( )A.67B.37C.89D.49解析:根据循环控制条件i>3,阅读程序框图,得到S 的值. 第一次循环:S =11×3,i =2;第二次循环:S =11×3+13×5,i =3;第三次循环:S =11×3+13×5+15×7,i =4,满足循环条件,结束循环.故输出S =11×3+13×5+15×7=12(1-13+13-15+15-17)=37.答案:B角度三 程序框图与函数交汇渗透3.(2014·湖南卷)执行如图所示的程序框图,如果输入的t ∈[-2,2],则输出的S 属于( )A.[-6,-2]B.[-5,-1]C.[-4,5] D.[-3,6]解析:由程序框图知,当0≤t≤2时,输出S=t-3,因此-3≤S≤-1.当-2≤t<0时,执行t=2t2+1后,1<t≤9.此时输出S=t-3,有-2<S≤6.综上可知,输出S的值取值范围为[-3,6].答案:D1.完善程序框图:结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.2.求解该类问题,关键是准确理解程序框图的结构,明确程序框图的功能,按照程序框图中的条件运行程序.【变式训练】(2015·天津卷)阅读右边的程序框图,运行相应的程序,则输出i的值为()A.2B.3C.4D.5解析:由题设,初始值S=10,i=0.i=i+1=1,S=S-i=10-1=9,不满足S≤1,i=i+1=2,S=S-i=9-2=7,不满足S≤1,i=i+1=3,S=S-i=7-3=4,不满足S≤1,i=i+1=4,S=S-i=4-4=0,满足S≤1,输出i=4.答案:C强化点2用样本估计总体(2015·课标全国Ⅱ卷)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频数分布表(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户的满意度分为三个等级:估计哪个地区用户的满意度等级为不满意的概率大?说明理由.解:(1)B地区用户满意度评分的频率分布直方图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值.B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由频率分布直方图,A地区用户不满意的频率f A=(0.010+0.020+0.030)×10=0.6,B地区用户不满意的频率f B=(0.005+0.02)×10=0.25,因此估计概率P(C A)=0.6,P(C B)=0.25.所以A地区用户的满意度等级为不满意的概率大.1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确的数据信息.2.本例通过画频率分布直方图考查对数据的处理能力和数形结合的思想方法,通过求概率考查运算求解能力和实际应用意识.【变式训练】为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图所示.(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x -1,x -2,估计x -1-x -2的值.解:(1)设甲校高三年级学生总人数为n.由题意知30n=0.05,解得n =600. 样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为1-530=56. (2)设甲、乙两校样本平均数分别为x -′1,x -′2.根据样本茎叶图可知30(x -′1-x -′2)=30x -′1-30x -′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15.因此x -′1-x -′2=0.5.故x -1-x -2的估计值为0.5分.强化点3 统计与概率的综合应用(2016·潍坊质检)某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表:(1)判断是否在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6位市民作为一个样本,从中任选2人,求恰有1位“大于40岁”的市民和1位“20岁至40岁”的市民的概率.下面的临界值表供参考:(参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d)解:(1)K 2=55(20×20-10×5)230×25×25×30≈11.978>7.879. 所以在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关.(2)设所抽样本中有m 个“大于40岁”市民,则m 20=630,得m =4,所以样本中有4个“大于40岁”的市民,2个“20岁至40岁”的市民,分别记作B 1,B 2,B 3,B 4,C 1,C 2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2)共15个.其中恰有1名“大于40岁”和1名“20岁至40岁”的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个.所以恰有1名“大于40岁”的市民和1名“20岁至40岁”的市民的概率为P=8 15.1.独立性检验关键有两点:(1)计算K2时要细致准确,参考数据表的应用要对应准确;(2)独立性检验中,K2值越大,两变量有关的可能性越大,在第(1)题中,易得出相反的错误结论.2.古典概型中列举基本事件时,要按照一定的顺序列举,做到不重不漏,在(2)中这是导致失分的主要原因.【变式训练】(2016·湖南雅礼中学模拟)某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.(1)求出m ,n 的值;(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s 2甲和s 2乙,并由此分析两组技工的加工水平;(3)质检部门从该车间甲、乙两组技工中各随机抽取一名,对其加工的零件进行检测,若两人加工的合格零件个数之和大于17,则称该车间“质量合格”,求该车间“质量合格”的概率.解:(1)根据题意,x -甲=15(7+8+10+12+10+m)=10, x -乙=15(9+n +10+11+12)=10. ∴n =8,m =3.(2)s 2甲=15[(7-10)2+(8-10)2+(10-10)2+(12-10)2+(13-10)2]=5.2,s 2乙=15[(8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2,∵x -甲=x -乙,s 2甲>s 2乙,∴甲、乙两组的整体水平相当,乙组更稳定一些.(3)质检部门从该车间甲、乙两组技工中各随机抽取一名,对其加工的零件进行检测,设两人加工的合格零件数分别为a ,b ,则所有(a ,b)有(7,8),(7,9),(7,10),(7,11),(7,12),(8,8),(8,9),(8,10),(8,11),(8,12),(10,8),(10,9),(10,10),(10,11),(10,12),(12,8),(12,9),(12,10),(12,11),(12,12),(13,8),(13,9),(13,10),(13,11),(13,12)共计25个.又满足a +b ≤17的基本事件有(7,8),(7,9),(7,10),(8,8),(8,9)共5个.因此满足a +b>17的基本事件共有25-5=20(个).故该车间“质量合格”的概率P =2025=45.A 级 基础巩固一、选择题1.(2017·石家庄模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为( )A .101B .808C .1 212D .2 012解析:由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N =808. 答案:B3.如果数据x 1,x 2,x 3,…,x n 的平均数为x -,标准差为s ,则数据3x 1+2,3x 2+2,…,3x n +2的平均数和标准差分别是( )A .3x -和9sB .3x -和3sC .3x -+2和9sD .3x -+2和3s解析:依题意,(3x 1+2)+(3x 2+2)+…+(3x n +2)n=3(x 1+x 2+…+x n )+2n n=3n x -+2n n=3x -+2,=3(x 1-x )2+(x 2-x )2+…+(x n -x )2n =3s.答案:D4.(2017·豫东、豫北十所名校联考)根据如下样本数据:得到的回归方程为y ^=bx +a.若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位 解析:依题意得,a +b -25=0.9,故a +b =6.5①又样本点的中心为(5,0.9),故0.9=5b +a ②联立①②,解得b =-1.4,a =7.9,则y ^=-1.4x +7.9, 故可知当x 每增加1个单位时,y 就减少1.4个单位. 答案:B二、填空题6.(2017·日照3月模拟)在某市“创建文明城市”活动中,对800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,据此估计这800名志愿者年龄在[25,30)内的人数为________.解:设年龄在[25,30)内的志愿者的频率是P,则有5×0.01+P+5×0.07+5×0.06+5×0.02=1,解得P=0.2.故估计这800名志愿者年龄在[25,30)内的人数是800×0.2=160.答案:1607.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:则在犯错误的概率不超过________的前提下认为喜爱打篮球与性别有关(请用百分数表示).解析:K 2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关.答案:0.5%8.(2016·西安调研)已知某产品连续4个月的广告费用x 1(千元)与销售额y 1(万元),经过对这些数据的处理,得到如下数据信息:所以x -=92,y -=72,因为回归直线方程y ^=b ^x +a ^中的b ^=0.8, 所以72=0.8×92+a ^,所以a ^=-110,所以y ^=0.8x -110.x =6时,可预测销售额约为4.7万元. 答案:4.7 三、解答题9.(2016·太原联考)如图所示,茎叶图记录了甲、乙两组各四名同学完成某道数学题(满分12分)的得分情况.乙组某个数据的个位数模糊,记为x,已知甲、乙两组的平均成绩相同.(1)求x的值,并判断哪组学生成绩更稳定;(2)在甲、乙两组中各抽出一名同学,求这两名同学的得分之和低于20分的概率.解:(1)x-甲=9+9+11+114=10,x-乙=8+9+12+10+x4=10,∴x=1,又s2甲=14[(10-9)2+(10-9)2+(11-10)2+(11-10)2]=1,s2乙=14[(10-8)2+(10-9)2+(11-10)2+(12-10)2]=52,∴s2甲<s2乙,∴甲组成绩比乙组稳定.(2)记甲组4名同学为:A1,A2,A3,A4;乙组4名同学为:B1,B2,B3,B4.分别从甲、乙两组中各抽取一名同学所有可能的结果为:(A1,B1),(A1,B2),(A1,B3),(A1,B4),(A2,B1),(A2,B2),(A2,B3),(A2,B4),(A3,B1),(A3,B2),(A3,B3),(A3,B4),(A4,B1),(A4,B2),(A4,B3),(A4,B4)共16种.其中得分之和低于20分的共6种.∴得分之和低于20分的概率P=616=3 8.10.(2016·玉林、南京联考)某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异“.参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56,“认为价格偏高者”的月平均收入为 x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75.∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x 1-x 2=50.56-38.75=11.81(百元). (2)根据条件可得2×2列联表如下:K2=50×(3×11-7×29)2(3+7)(29+11)(3+29)(7+11)≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.B级能力提升1.甲、乙两位歌手在“中国好声音”选拔赛中,5次得分情况如图所示.记甲、乙两人的平均得分分别为x-甲,x-乙中,则下列判断正确的是()A.x-甲<x-乙,甲比乙成绩稳定B.x-甲<x-乙,乙比甲成绩稳定C.x-甲>x-乙,甲比乙成绩稳定D.x-甲>x-乙,乙比甲成绩稳定解析:x-甲=76+77+88+90+945=85,x-乙=75+88+86+88+935=86,s2甲=15[(76-85)2+(77-85)2+(88-85)2+(90-85)2+(94-85)2]=52,s2乙=15[(75-86)2+(88-86)2+(86-86)2+(88-86)2+(93-86)2]=35.6,所以x-甲<x-乙,s2甲>s2乙,故乙比甲成绩稳定.答案:B2.从某小学随机抽样100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图所示),由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.解析:∵0.05×10+0.035×10+a×10+0.020×10+0.010×10=1,∴a=0.030.设身高在[120,130),[130,140),[140,150]内的三组学生各有x,y,z人,则x100=0.030×10,y100=0.020×10,z100=0.01×10.∴x=30,y=20,z=10.由分层抽样的意义,抽样比为1830+20+10=30%.因此从身高在[140,150]内的学生中选取10×30%=3(人).答案:(1)0.030(2)33.(2016·河南郑州第二次质量检测)最新高考改革方案已在上海和浙江实施,某教育机构为了解我省广大师生对新高考改革方案的看法,对某市部分学校500名师生进行调查,统计结果如下表:在全体师生中随机抽取1名“赞成改革”的人是学生的概率为0.3,且z=2y.(1)现从500名师生中用分层抽样的方法抽取50名进行问卷调查,求应抽取“不赞成改革”的教师和学生人数各是多少人;(2)在(1)中所抽取的“不赞成改革”的人中,随机选出3人进行座谈,求至少有1名教师被选出的概率.解:(1)由题意知x500=0.3,所以x=150,所以y+z=60,因为z=2y,所以y=20,z=40,则应抽取教师人数为50500×20=2,应抽取学生人数为50500×40=4.(2)所抽取的“不赞成改革”的2名教师记为a,b,4名学生记为1,2,3,4,随机选出3人的不同选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4),(1,2,3),(1,2,4),(1,3,4),(2,3,4),共20种,至少有1名教师的选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4),共16种,故至少有1名教师被选出的概率P=1620=45.。
随机过程与应用案例解析
随机过程与应用案例解析随机过程是概率论和数理统计中的一个重要分支,它研究了随机现象在时间或空间上的演化规律。
它是一个随时间变化的随机变量序列,可以用于描述各种实际问题中的随机现象。
随机过程在科学研究和工程应用中起着重要的作用,下面我们将通过一个应用案例来解析随机过程在实践中的应用。
案例背景某电子产品制造公司生产的一款手机零件存在一定的故障率。
为了提高产品的质量,公司需要分析该手机零件的故障发生概率,并根据相关数据制定出合理的改进方案。
解析过程1. 数据收集首先,公司需要收集大量的该手机零件的故障数据。
可以通过对一批零件进行长时间的稳定测试,记录每个零件在不同时间段内是否发生了故障。
这些数据将用于建立随机过程模型。
2. 随机过程建模根据收集到的数据,我们可以将该手机零件的故障情况看作是一个随机过程。
可以选用一些常见的随机过程模型来描述手机零件的故障率,如泊松过程、马尔可夫过程等。
通过对数据进行分析,可以确定合适的模型并估计模型参数。
3. 概率计算在建立了随机过程模型之后,我们可以通过该模型计算出手机零件在不同时间段内故障的概率。
这将为公司提供了评估产品质量和改进方案的依据。
比如,我们可以计算出某个时间段内零件不发生故障的概率,进而估计出该时间段内的平均故障率。
4. 风险评估通过概率计算,公司可以对手机零件故障率的分布进行分析,进而评估产品的风险。
通过对风险的评估,公司可以制定出合理的改进方案,以提高产品的质量和可靠性。
5. 具体应用根据随机过程的分析结果,公司可以根据不同的时间段制定合理的维修计划。
比如,在故障率较高的时间段加大对零件的检测力度,并提前准备足够的备件。
同时,对于频繁出现故障的零件,可以进一步研究故障原因并提出改进措施,以降低故障率。
通过以上的案例解析,我们可以看到随机过程在实际应用中的重要性和灵活性。
它可以帮助我们分析和处理各种带有随机性的问题,并提供决策依据。
随机过程不仅在电子产品制造领域有广泛的应用,也被广泛应用于金融工程、通信网络、系统可靠性和排队论等领域。
统计案例
- x)
i
∑(y
n i=1
2
- y)
i
n 2 _ 2 n 2 _ 2 ∑xi − n x ∑yi − ny i=1 i=1
相关系数的性质 (1)|r|≤1. (1)|r|≤1. (2)|r|越接近于 越接近于1 相关程度越强;|r|越接近于 越接近于0 (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱. 相关程度越弱. • 注:b 与 r 同号 • 问题:达到怎样程度,x、y线性相关呢?它们的相 问题:达到怎样程度, 线性相关呢? 关程度怎样呢? 关程度怎样呢?
问题二:在线性回归模型中, 是用 是用bx+a预报真实值 的随机误 预报真实值y的随机误 问题二:在线性回归模型中,e是用 预报真实值
差, 它是一个不可观测的量,那么应如何研究随机误差呢? 它是一个不可观测的量,那么应如何研究随机误差呢? e=y-(bx+a)
残差:一般的对于样本点(x1,y),(x2,y2 ),...,(xn ,yn ),它们的随机误差为 1 ei = yi −bxi − a, i =1,2,...n, 其估计值为ei = yi − yi = yi −bxi − a, i =1,2,...n
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况
问题2: 问题 :对于线性相关的两个变量用什么方法 来刻划之间的关系呢? 来刻划之间的关系呢? 2、最小二乘估计 、 最小二乘估计下的线性回归方程: 最小二乘估计下的线性回归方程:
求根据一名女大学生的身高预报她的体重的回归方程, 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名 身高为172cm的女大学生的体重。 的女大学生的体重。 身高为 的女大学生的体重 解:1、选取身高为自变量 ,体重为因变量 ,作散点图: 、选取身高为自变量x,体重为因变量y,作散点图:
个数为随机的独立正态随机变量之和不是正态分布的例子
个数为随机的独立正态随机变量之和不是正态分布的
例子
题目:个数为随机的独立正态随机变量之和不是正态分布的例子
摘要:
正态分布是统计学中最为重要的分布之一,它具有对称性、峰度和尖峰度等特点,在实际应用中广泛被使用。
然而,个数为随机的独立正态随机变量之和并不一定满足正态分布的性质,本文将通过阐述有关个数为随机的独立正态随机变量之和的相关概念、定义以及推导等内容,给出一个典型的例子并解释其结果。
第一部分:引言
1.1 背景和重要性
1.2 目的和意义
第二部分:相关概念和定义
2.1 正态分布的特性
2.2 随机变量
2.3 独立性
2.4 独立正态随机变量之和
第三部分:为何个数为随机的独立正态随机变量之和不一定是正态分布
3.1 问题陈述
3.2 结果推导
第四部分:典型例子和解释
4.1 独立正态随机变量之和的例子
4.2 结果解释
第五部分:实际应用和意义
5.1 对统计学和概率论的贡献
5.2 实际案例分析
第六部分:结论和展望
6.1 结论
6.2 展望未来研究方向
本文将按照上述大纲详细阐述,进一步探讨个数为随机的独立正态随机变量之和不满足正态分布性质的原因,并通过典型实例进行验证和解释。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机变量的分布列及统计案例复习学案参考答案例1、解析 ∵P (A )=C 22+C 23C 25=25,P (AB )=C 22C 25=110,∴P (B |A )=P (AB )P (A )=14. 答案 B例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=14.答案 (1)2π(2)14例3、专题三 离散型随机变量的分布列、均值与方差 例4、解设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ⎩⎪⎪⎪⎨⎪⎪⎪⎧P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即⎩⎪⎪⎪⎨⎪⎪⎪⎧P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29,得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119(舍). ∴P (A )=13,P (B )=14,P (C )=23.即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,23. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23×34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56.解 (1)记“该生考上大学”为事件A ,其对立事件为A -. 则P ⎝ ⎛⎭⎪⎫A -=C 15⎝ ⎛⎭⎪⎫13⎝ ⎛⎭⎪⎫234+⎝ ⎛⎭⎪⎫235. ∴P (A )=1-[C 15⎝ ⎛⎭⎪⎫13⎝ ⎛⎭⎪⎫234+⎝ ⎛⎭⎪⎫235]=131243. (2)参加测试次数X 的可能取值为2,3,4,5, P (X =2)=⎝ ⎛⎭⎪⎫132=19, P (X =3)=C 12·13·23·13=427, P (X =4)=C 13·13·⎝ ⎛⎭⎪⎫232·13=427, P (X =5)=C 14·13·⎝ ⎛⎭⎪⎫233+⎝ ⎛⎭⎪⎫234=1627. 故X 的分布列为: E (X )=2×19+3×427+4×427+5×1627=389.所以E (ξ)=1×15+2×35+3×15=2.由题意,η~B ⎝ ⎛⎭⎪⎫3,23,E (η)=3×23=2, 或者P (η=0)=C 03⎝ ⎛⎭⎪⎫133=127; P (η=1)=C 13⎝ ⎛⎭⎪⎫231⎝ ⎛⎭⎪⎫132=29; ⎛⎫⎛⎫⎛⎫⎝⎛⎭⎪⎫⎝ ⎛⎭⎪⎫P (η=1)=C 3⎝ ⎛⎭⎪⎫3⎝ ⎛⎭⎪⎫3=9; P (η=2)=C 2 ⎛⎪⎫22 ⎛⎪⎫1=4;P (η=3)=C 3 ⎛⎪⎫23=8,例6、例7、解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面所以E (ξ)=1×15+2×35+3×15=2.由题意,η~B ⎝ ⎛⎭⎪⎫3,23,E (η)=3×23=2, 或者P (η=0)=C 03⎝ ⎛⎭⎪⎫133=127;P (η=1)=C 13⎝ ⎛⎭⎪⎫231⎝ ⎛⎭⎪⎫132=29; P (η=2)=C 23⎝ ⎛⎭⎪⎫232⎝ ⎛⎭⎪⎫13=49;P (η=3)=C 33⎝ ⎛⎭⎪⎫233=827, 所以,E (η)=0×127+1×29+2×49+3×827=2. (2)D (ξ)=(1-2)2×15+(2-2)2×35+(3-2)2×15=25;由η~B ⎝⎛⎭⎪⎫3,23,D (η)=3×23×13=23.可见E (ξ)=E (η),D (ξ)<D (η),因此建议该单位派甲参加竞赛. 解 ∵考生成绩X ~N (500,502), ∴μ=500,σ=50, ∴P =(550<X ≤600) =12[P (500-2×50<X ≤500+2×50)-P (500-50<X ≤500+50)] =12(0.954 4-0.682 6)=0.135 9. 故考生成绩在550~600分的人数约为25 000×0.135 9 ≈3 398(人).求回归直线方程.为此对数据预处理如下:对预处理后的数据,容易算得x=0,y=3.2.b^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2 (-4)2+(-2)2+22+42-5×02=26040=6.5,a^=y--b x-=3.由上述计算结果,知所求回归直线方程为y^-257=b^(x-2 006)+a^=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2. ①(2)利用直线方程①,可预测2012年的粮食需求量为6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).例8、解(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K2=500×(40×270-30×160)270×300×200×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.随机变量的概率分布及统计案例课后检测参考答案一、选择题1、解析:k 越大,说明“X 与Y 有关系”成立的可信程度越大,反之越小.答案:B2、解析 ∵E (X )=1×16+2×13+3×12=16+23+32=146=73.∴E (X +2)=E (X )+2=73+2=133. 答案 C3、解析 任意取球5次,取得白球3次的概率为C 35·0.53·(1-0.5)2=C 350.55. 答案 D4、解:回归系数的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位. 答案:C5、解析 记“第一次摸出正品”为事件A ,“第二次摸到正品”为事件B ,则P (A )=C 16C 19C 110C 19=35, P (AB )=C 16C 15C 110C 19=13. 故P (B |A )=P (AB )P (A )=59. 答案 D6、解析 本题主要考查了正态分布及随机变量的概率问题.由随机变量服从正态分布N (0,1),由标准正态分布图可得:P (-1<ξ<0)=12-P (ξ<-1)=12-P (ξ>1)=12-p . 答案 D7、解析:依据两个变量具有相关关系的意义可知,①正确;根据散点图的定义得②正确;根据最小二乘法的思想,所求得的回归直线,满足一组数据对应点到该直线的距离最小,即线性回归直线方程最能代表观测值x ,y 之间的线性相关关系,故③正确;④不正确.答案:①②③8、解析 甲获胜有两种情况,一是甲以2∶0获胜,此时p 1=0.62=0.36;二是甲以2∶1获胜,此时p 2=C 12·0.6×0.4×0.6=0.288,故甲获胜的概率为p 1+p 2=0.648. 答案 D 。
9、解析 ∵X ~N (110,52), ∴μ=110,σ=5, 又5760=0.95≈P (μ-2σ<X ≤μ+2σ) =P (100<X ≤120). 答案 C10、解析 三颗骰子各掷一次,点数共有6×6×6=216种,事件B -表示“三次都没有出现3点”,共有5×5×5=125种,则P (B )=1-P (B -)=1-125216=91216,P (AB )=5×4×C 13216=518, 所以P (A |B )=P (AB )P (B )=6091. 答案 C11、解析 由已知,得3a +2b +0×c =2,得3a +2b =2,所以ab =16×3a ×2b ≤16⎝⎛⎭⎫3a +2b 22=16. 答案 D12、答案:A二、填空题13、解:设父亲身高为x cm ,儿子身高为y cm ,则x -=173,y -=176,b^=0×(-6)+(-3)×0+3×602+9+9=1,a ^=y --b ^x -=176-1×173=3,∴y ^=x +3,当x =182时,y ^=185. 答案:18514.解析 考察一位乘客是否在第20层下电梯为一次试验,这是5次独立重复 试验,故X ~B ⎝⎛⎭⎫5,13, 即有P (X =k )=C k 5⎝⎛⎭⎫13k×⎝⎛⎭⎫235-k(k =0,1,2,3,4,5.)∴P (X =4)=C 45⎝⎛⎭⎫134×⎝⎛⎭⎫231=10243. 答案 1024315.解析 由题意知甲服从X ~B (5,p 1),∴E (X )=5p 1=2.5 ∴p 1=12, 又∵1p 1+1p 2=5. ∴p 2=13.答案 12 1316.解析 设事件A 为“取出的两件中有废品”,事件B 为“取出的两件都是废品”,由题意,显然,A ∩B =B ,而P (A )=C 110·C 190+C 210C 2100,P (B )=C 210C 2100, 故P (B |A )=P (B )P (A )=C 210C 210+C 110·C 190=121. 答案 121 三、解答题17、解 记“这名同学答对第i 个问题”为事件A i (i =1,2,3), 则P (A 1)=0.8,P (A 2)=0.7,P (A 3)=0.6.(1)这名同学得300分的概率为:P1=P(A1A-2A3)+P(A-1A2A3)=P(A1)P(A-2)P(A3)+P(A-1)P(A2)P(A3)=0.8×0.3×0.6+0.2×0.7×0.6=0.228.(2)这名同学至少得300分的概率为:P2=P1+P(A1A2A3)=P1+P(A1)P(A2)P(A3)=0.228+0.8×0.7×0.6=0.564.18、解记3件元器件中有X件为不合格品.(1)P=1-P(X=0)=1-C318C320=2795;(2)X的可能取值为:0、1、2、3,P(X=0)=C316C320=2857,P(X=1)=C14C216C320=819,P(X=2)=C24C116C320=895,P(X=3)=C34C320=1285,∴X的分布列如下:E(X)=0×2857+1×819+2×895+3×1285=171285=35.19、解(1)设参赛学生的成绩为X,因为X~N(70,100),所以μ=70,σ=10.则P(X≥90)=P(X≤50)=12[1-P(50<X<90)]=12[1-P(μ-2σ<X<μ+2σ)]=12×(1-0.954 4)=0.022 8,12÷0.022 8≈526(人).因此,此次参赛学生的总数约为526人.(2)由P(X≥80)=P(X≤60)=12[1-P(60<X<80)]=12[1-P(μ-σ<X<μ+σ)]=12×(1-0.682 6)=0.158 7,得526×0.158 7≈83.因此,此次竞赛成绩为优的学生约为83人.20、解析:(1)由数据,求得x =12,y =27,由公式,求得b ^=52,a ^=y -b ^x =-3,所以y 关于x 的线性回归方程为y ^=52x -3.(2)当x =10时,y ^=52×10-3=22, |22-23|<2,同样,当x =8时,y ^=52×8-3=17, |17-16|<2.所以,该农科所得到的线性回归方程是可靠的.21、解析:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%. (2)K 2=1 000×(360×180-320×140)500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异.” 22、解 (1)设“环保会徽”卡有n 张,由C 2nC 210=13,得n =6.故“绿色环保标志”卡有4张.抽奖者获奖的概率为C 24C 210=215.(2)ξ~B ⎝⎛⎭⎫4,215,ξ的分布列为P (ξ=k )=C k 4⎝⎛⎭⎫215k·⎝⎛⎭⎫13154-k(k =0,1,2,3,4)2 15=815,D(ξ)=4×215×⎝⎛⎭⎫1-215=104225.∴E(ξ)=4×。