正态分布和线性回归

合集下载

正态分布与线性回归

正态分布与线性回归
独立重复试验时事件 A 第一次发生,且 P(ξ=k)=_q_k_-_1_p_(其中 P 是在
一次试题中事件 A 发生的概率;p+q=1,k=1,2,3,…),则称 ξ 服从 几何分布,记作 g(k,p)=qk-1p.
第74讲 │ 要点探究
要点探究
► 探究点1 离散型随机变量的分布列及其应用
例 1 已知某离散型随机变量 ξ 的分布列如下:
A=A1 B 1+ A 1B1+A1B1+A2B2,故所求的概率为
P(A)=P(A1 B 1)+P( A 1B1)+P(A1B1)+P(A2B2)
第74讲 │ 要点探究
=P(A1)P( B 1)+P( A 1)P(B1)+P(A1)P(B1)+P(A2)P(B2) =0.1×0.9+0.9×0.1+0.1×0.1+0.3×0.3=0.28.
[点评] (1)二项分布是一类重要的分布,要熟练掌握.在写分布列时, 首先要判断随机变量是否满足二项分布的条件.(2)在进行概率计算时, 要注意排列、组合等知识在等可能事件中的应用,要注意互斥事件、相 互独立事件、独立重复试验的概率的应用.
第74讲 │ 要点探究
某厂生产电子元件,其产品的次品率为 5%,现从 一批产品中任意连续取出 2 件.
3.课时安排:本单元共安排了4讲及一个单元能力训练卷, 每讲建议1课时完成,单元能力训练卷建议1课时完成,大约共 需5课时.
第74讲 │ 离散型随机变量的分布列
第74讲 离散型随机变量的分布 列
第74讲 │ 编读互动
编读互动
离散型随机变量及其分布列是高考必考的一个知识点,常常作为 解答题的一问出现.本讲主要复习离散型随机变量及其分布列的计算, 复习时,要抓住离散型随机变量的概率分布的两个本质特征:pi≥0(i =1,2,…,n),p1+p2+…+pn=1,这是确定分布列中参数值的依据.求 离散型随机变量的分布列时,首先要根据具体情况确定随机变量 ξ 的 取值情况,然后利用排列、组合与概率知识求出 ξ 取各个值的概率.掌 握几个典型的分布列:几何分布、二项分布等.

第四章 线性回归分析

第四章 线性回归分析
Y 0 1Z1 2 Z2 3Z3 k Zk
(4-1)
, zki 是 k 个对 Y 有显
其中 j ( j 1,2,
, k ) 是回归系数,Y 是被解释变量, z1i , z2i ,
著影响的解释变量 (k 2) , i 是反映各种误差扰动综合影响的随机项,下标 i 表 示第 i 期观察值 (Yi , z1i , z2i ,
, zki ), i 1,2,
2
,n 。
ˆ ˆZ ˆ Z ˆZ ˆ 假设多元样本回归函数为:Y i 0 1 1i 2 2i 3 3i
ˆ。 差为: i Yi Y i
由于有 n 期的观察值,这一模型实际上包含 n 个方程:
Y2 0 1Z12 Yn 0 1Z1n
另 V 对 b0 ,
bk zki )]2
(4-3)
, bk 的一阶偏导数都等于 0,即下列方程组:
2[Y (b
i
0
b1 z1i b1 z1i b1 z1i
bk zki )]( 1) 0, bk zki )]( z1i ) 0, bk zki )]( zki ) 0
把样本数据分别代入样本回归方程,得到回归方程组为:
ˆ b bz Y 1 0 1 11 ˆ b bz Y n 0 1 1n bk zk 1 ,
(4-4)
(4-5)
bk zkn
写成等价的向量方程,则为:
ˆ ZB Y
这样回归残差向量为:
ˆ Y ZB Y Y
再利用向量,矩阵的运算法则,可以得到残差平方和为:
k Zk ,
, bk 分 别 表 示 模 型 参 数 0 ,

线性回归的前提条件

线性回归的前提条件

线性回归的前提条件线性回归的前提假设条件是:(1)自变量与因变量是否呈直线关系。

(2)因变量是否符合正态分布。

(3)因变量数值之间是否独立。

(4)方差是否齐性。

其实如果正规地来说,应该是看残差(residual)是否正态、独立以及方差齐。

所谓残差,就是因变量的真实值与估计值之间的差值。

回归分析是一类统计方法,包括本次介绍的线性回归以及后面将要介绍的logistic回归、Cox回归等,该类方法内容十分丰富,在医学应用中也极为广泛。

回归分析主要是通过建立回归方程来说明某一个事物随另一个(或多个)事物的变化而变动的规律。

相关分析研究的是两个或多个变量相互依存变动的规律,见统计分析之相关,而回归分析则是探索某变量(因变量)如何依赖于其他变量(自变量)的变化而变动的规律,是单方依存,而不是相互依存。

回归分析主要根据因变量的类型而划分不同方法,线性回归其因变量必须是定量变量,后面介绍的logistic回归、Cox回归等因变量则属于其他类型。

线性回归可以说是回归家族中最为经典的方法,同时也是相对简单、容易理解的方法。

本系列主要介绍线性回归的应用,具体内容包括:(1)线性回归的单因素分析;(2)线性回归的多因素分析;一、线性回归简介线性回归是研究因变量(dependent variable)与自变量(independent variable)相依关系的技术。

因变量又称应变量(response variable),是随机变量,具有一个随机分布,依赖于一个或多个自变量。

自变量有时也被称为解释变量(explanatory variable)或预测变量(predictor variable),是非随机的,不依赖于其他变量。

线性回归中的因变量必须是定量变量,自变量可以是定量变量,也可以是分类变量。

例如研究体重对高血压的影响,体重是自变量,高血压受体重的影响,是因变量。

线性回归大致可分为三类:当因变量有一个,自变量也只有一个时,称之为简单线性回归(simple linear regression);当因变量有一个,自变量有多个时,称之为多重线性回归(multiple linear regression);当因变量有多个,自变量有多个时,称之为多元回归(multi-variate regression)。

正态分布-线性回归

正态分布-线性回归

正态分布、线性回归一、 知识梳理1.正态分布的重要性正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。

一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。

2.正态曲线及其性质正态分布函数:22()2()x f x μσ--=,x ∈(-∞,+∞)3.标准正态曲线标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。

4.一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)()(σμ-Φ=x x F 。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5.“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步:第一步,提出统计假设。

课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。

如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-∉a ,由于这是小概率事件,就拒绝统计假设。

6.相关关系研究两个变量间的相关关系是学习本节的目的。

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

备选例题1 设随机变量ξ服从正态分布:ξ~ N(1,4),试求:
(1)P(0<ξ≤2); (2)求常数C,使P(ξ≤C)=32·P(ξ>C).
参考数据:Φ(0)=0.5,Φ(1)=0.8413,Φ(2) =0.9772,Φ(0.5)=0.6915,Φ(1.88)= 0.9697,Φ(3)=0.9987.
2.小概率事件是指事件发生的概率很小的事, 通常认为这些情况在一次试验中几乎是不可 能发生的.
3.统计中假设检验的基本思想:根据小概率 事件在一次试验中几乎不可能发生的原理和 从总体中抽测的个体的数值,对事先所作的 统计假设作出判断,是拒绝假设,还是接受 假设.
4.利用线性回归方程,可由一个变量的值预 测或控制另一个变量的值.借助计算器,特 别是含统计的计算器,能简化手工的计算, 迅速得出正确结果.
(函数Φ(x0)实际上是正态总体N(0,1)的累积分
布函数),即Φ(x0)=

(5)两个重要公式:ⅰ.Φ(-x)=1Φ(x)


Φ(a)
ⅱ.P(a<ξ<b)=Φ(b)-
. 小于
(6)对于任一正态分布总体N(μ,σ2)来说,取
值 x的概率为F(x)=Φ(
).
(7)假设检验的基本思想
ⅰ.提出统计假设,如假设随机变量服从正态 分布等;
5.“回归”和“相关”含义是不同的:如果 两个变量中的一个变量是人为可以控制、非 随机的,另一变量的变化是随机的且随着控 制变量的变化而变化,则这两变量间的关系 就称为回归关系;若两个变量都是随机的, 则称它们之间的关系为相关关系,在本教材 中,两者不加区别.
方法规律·归纳
题型 一
正态分布的基本运算
思维 提示
①P(x<x0)=Φ(x0); ②Φ(x0)=1-Φ(-x0);

第十一章(理) 第四节 正态分布、线性回归

第十一章(理)  第四节  正态分布、线性回归

第十一章(理) 第四节 正态分布、线性回归1.111222则有 ( )A .μ1<μ2,σ1<σ2B .μ1<μ2,σ1>σ2C .μ1>μ2,σ1<σ2D .μ1>μ2,σ1>σ2解析:μ反映正态分布的平均水平,x =μ是正态曲线的对称轴,由图知μ1<μ2,σ 反映正态分布的离散程度,σ越大,曲线越“矮胖”,表明越分散,σ越小,曲线越 “高瘦”,表明越集中,由图知σ1<σ2. 答案:A2.已知随机变量ξ服从正态分布N (3,σ2),则P (ξ<3)= ( ) A.15 B.14C.13D.12解析:根据正态分布的知识可知此正态分布图象的对称轴为x =3,而P (ξ<3)表示对 称轴左边图象的面积,对称轴左右两边图象面积相等,整个图象的面积为1. 答案:D3.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξ<c -1),则c = ( ) A .1 B .2 C .3 D .4解析:由题意得随机变量ξ相应的正态密度曲线关于直线x =2对称,又P (ξ>c +1) =P (ξ<c -1),因此(c +1)+(c -1)2=2,c =2.答案:B4.设随机变量ξ服从标准正态分布N (0,1),已知Φ(-1.96)=0.025,则P (|ξ|<1.96)=( ) A .0.025 B .0.050 C .0.950 D .0.975 解析:P (|ξ|<1.96)=Φ(1.96)-Φ(-1.96) =1-2Φ(-1.96)=0.950. 答案:C5.已知随机变量ξ服从正态分布N (2,σ2),P (ξ≤4)=0.84,则P (ξ≤0)= ( ) A .0.16 B .0.32C .0.68D .0.84解析:根据正态分布曲线的对称性,得P (ξ≤0)=1-P (ξ≤4)=1-0.84=0.16. 答案:A6.对有线性相关关系的两个变量建立的回归直线方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .大于0 C .能等于0 D .只能小于0解析:因为b =0时,r =0,这时不具有线性相关关系,但b 能大于0也能小于0. 答案:A7.以下是两个变量x 和y 的一组数据:则这两个变量间的回归直线方程为 ( ) A.y ^=x 2 B.y ^=x C.y ^=9x -15 D.y ^=15x -9 解析:根据数据可得x =4.5,y =25.5, ∑i =1n x 2i =204,∑i =1nx i y i =1 296.b =1221niii nii x ynx y xnx ==--∑∑=1 296-8×4.5×25.5204-8×4.52=9,a =y -b x =25.5-9×4.5=-15. ∴y ^=9x -15. 答案:C8.已知回归直线方程y ^=4.4x +838.19,则可估计x 与y 的增长速度之比约为________. 解析:x 与y 的增长速度之比即为回归直线方程的斜率的倒数14.4=1044=522.答案:5229.某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势,统计近4个月这种病的新发病鸡只数的线性回归分析如下表所示:该养殖小区这种病的新发病鸡总只数约为________.解析:由上表可得:y ^=94.7x +1 924.7,当x 分别取9,10,11,12时,得估计值分别 为:2 777,2 871.7,2 966.4,3 061.1,则总只数约为2 777+2 871.7+2 966.4+3 061.1≈11 676. 答案:11 67610.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的 生产能耗y (吨标准煤)的几组对照数据:(1)请根据上表提供的数据,求出y 关于x 的回归直线方程y ^=bx +a ;(2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的回归 直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解:(1)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x —=3+4+5+64=4.5, y —=2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86,b =66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a =y —-b x —=3.5-0.7×4.5=0.35. 故回归直线方程为y ^=0.7x +0.35.(2)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨).。

线性回归分析及其在经济预测中的应用

线性回归分析及其在经济预测中的应用

线性回归分析及其在经济预测中的应用线性回归分析是一种常用的统计方法,用于研究自变量与因变量之间的关系。

它假设自变量与因变量之间存在线性关系,并通过拟合一条直线来描述这种关系。

线性回归分析在经济学领域有着广泛的应用,可以用于预测经济指标、分析经济政策的效果等。

首先,线性回归分析可以用于预测经济指标。

经济指标是评估经济状况和发展趋势的重要依据,例如国内生产总值(GDP)、消费者物价指数(CPI)等。

通过收集历史数据,我们可以建立一个线性回归模型,将过去的自变量与因变量进行拟合,然后利用这个模型来预测未来的因变量。

例如,我们可以利用过去几年的GDP增长率和其他相关因素,来预测未来一年的GDP增长率。

这样的预测对政府决策、企业投资等具有重要的指导作用。

其次,线性回归分析可以用于分析经济政策的效果。

在经济学中,政府的经济政策往往会对经济指标产生影响,例如降低利率可以刺激投资,提高税收可以增加政府财政收入等。

通过线性回归分析,我们可以将政策变量与经济指标进行拟合,从而判断政策对经济的影响程度。

例如,我们可以将货币供应量与通货膨胀率进行回归分析,来评估货币政策对通胀的影响。

这样的分析有助于政府制定更有效的经济政策,提高经济运行的稳定性和可持续性。

除了经济预测和政策分析,线性回归分析还可以用于经济学理论的验证和发展。

经济学理论通常会提出一些假设和关系,例如供给与需求之间的关系、劳动力市场的决定因素等。

通过线性回归分析,我们可以将理论中的变量与实际数据进行拟合,从而验证理论的有效性。

如果理论与实际数据拟合较好,那么就可以认为该理论在一定程度上解释了经济现象。

如果理论与实际数据拟合较差,那么就需要对理论进行修正或者寻找其他解释。

这样的研究有助于推动经济学理论的发展,提高其解释和预测能力。

然而,线性回归分析也存在一些限制和局限性。

首先,线性回归分析假设自变量与因变量之间存在线性关系,但实际情况往往更为复杂。

如果变量之间存在非线性关系,那么线性回归模型的拟合效果可能较差。

线性回归模型在社会科学中的应用

线性回归模型在社会科学中的应用

线性回归模型在社会科学中的应用在社会科学领域,线性回归模型是一种经济、心理学、社会学等学科中常用的统计分析工具。

线性回归模型能够提供变量之间的关联性和预测能力,对于研究人类行为和社会现象具有重要的应用。

下面将介绍线性回归模型在社会科学中的应用,并探讨其局限性和改进方向。

一、经济领域中的线性回归模型应用在经济学中,线性回归模型被广泛运用于经济现象的解释和预测。

例如,通过构建家庭收入与教育水平的线性回归模型,可以分析收入与教育之间的关系。

该模型可以帮助政府了解教育资源的投入效果,制定有针对性的教育政策。

此外,线性回归模型还可以用于研究物价与供求关系、经济增长与人口因素之间的关系等。

二、心理学中的线性回归模型应用心理学家常常使用线性回归模型来探索人类行为和心理现象之间的关系。

例如,通过构建社会支持与幸福感的线性回归模型,可以了解社会支持对个体幸福感的影响程度。

此外,线性回归模型还可以用于研究人格特征与工作表现之间的关系、家庭环境对儿童心理发展的影响等。

三、社会学中的线性回归模型应用社会学研究中,线性回归模型被广泛应用于社会现象的解释和预测。

例如,通过构建收入与社会阶层的线性回归模型,可以研究社会阶层对个体经济状况的影响。

此外,线性回归模型还可以用于研究种族、性别对职业选择和收入差距的影响等。

尽管线性回归模型在社会科学中具有广泛的应用,但也存在一些局限性。

首先,线性回归模型假设自变量和因变量之间的关系是线性的,但实际情况往往更为复杂。

其次,线性回归模型对数据的要求较高,需要满足一系列假设条件,如自变量和误差项之间应独立、误差项应服从正态分布等。

此外,线性回归模型容易受到离群值(outliers)的影响,进而导致模型拟合效果不佳。

为了克服线性回归模型的局限性,研究者们提出了一系列改进方法。

例如,非线性回归模型可以用于处理自变量与因变量之间的非线性关系。

加权最小二乘法和岭回归等方法可用于处理数据不满足线性回归模型的假设条件的情况。

高二数学期末复习之一概率与统计

高二数学期末复习之一概率与统计

高二数学期末复习之一概率与统计第一部分.复习目标:1. 了解典型分布列:0~1分布,二项分布,几何分布。

2. 了解离散型随机变量的期望值、方差的意义,会根据离散型随机变量的分布列求出期望值、方差。

3. 在实际中经常用期望来比较两个类似事件的水平,当水平相近时,再用方差比较两个类似事件的稳定程度。

4. 了解正态分布的意义,能借助正态曲线的图像理解正态曲线的性质。

5. 了解标准正态分布的意义和性质,掌握正态总体),(2σμN 转化为标准正态总体N (0,1)的公式)()(σμ-Φ=x x F 及其应用。

6. 通过生产过程的质量控制图,了解假设检验的基本思想。

第二部分.内容小结: (Ⅰ)基础知识详析㈠随机事件和统计的知识结构:㈡随机事件和统计的内容提要 1.主要内容是离散型随机变量的分布列、期望与方差,抽样方法,总体分布的估计,正态分布和线性回归。

2.随机变量的概率分布(1)离散型随机变量的分布列:两条基本性质①,2,1(0=≥i p i ...); ②P 1+P 2+ (1)(2)连续型随机变量概率分布:由频率分布直方图,估计总体分布密度曲线y=f(x);总体分布密度函数的两条基本性质: ①f(x) ≥0(x ∈R);②由曲线y=f(x)与x 轴围成面积为1。

3.随机变量的数学期望和方差 (1)离散型随机变量的数学期望:++=2211p x p x E ε…;反映随机变量取值的平均水平。

(2)离散型随机变量的方差:+-+-=222121)()(p E x p E x D εεε…+-+n n p E x 2)(ε…;反映随机变量取值的稳定与波动,集中与离散的程度。

(3)基本性质:b aE b a E +=+εε)(;εεD a b a D 2)(=+。

4.三种抽样方法。

5.二项分布和正态分布(1)记ε是n 次独立重复试验某事件发生的次数,则ε~B (n ,p );其概率,2,1,0,1()(=-==-k p q q p C k P kn k k n n …),n 。

线性回归分析范文

线性回归分析范文

线性回归分析范文线性回归是一种常用的统计分析方法,用于研究变量之间的线性关系。

它可以揭示自变量和因变量之间的数量关系,通过建立一个最佳拟合的线性模型来预测因变量的值。

线性回归广泛应用于经济、金融、社会科学和自然科学等领域。

线性回归模型的基本形式如下:Y=β0+β1X1+β2X2+…+βnXn+ε其中,Y是因变量,X1、X2、…、Xn是自变量,β0、β1、β2、…、βn是回归系数,ε是随机误差项。

线性回归的前提假设包括:1.线性关系假设:自变量和因变量之间是线性关系;2.同方差性假设:随机误差项ε在所有自变量取值下具有相同的方差;3.独立性假设:随机误差项ε之间是独立的;4.正态性假设:随机误差项ε服从正态分布。

线性回归的核心任务是通过最小化残差平方和来求解最佳的回归系数。

残差是预测值与实际观测值之间的差异。

最小二乘法是线性回归中常用的方法,它的目标是使残差平方和最小化,通过求解偏导数来得到最佳回归系数的估计。

线性回归模型的拟合程度可以通过判定系数R²来评估,其取值范围在0到1之间。

R²的值越接近1,说明模型越能解释因变量的变异性;反之,R²的值越接近0,说明模型的解释能力越弱。

线性回归模型的应用包括:1.预测与预测:根据自变量的取值,可以使用线性回归模型来预测因变量的值。

例如,在经济学中,可以根据经济指标,如GDP和失业率,来预测未来的经济增长率。

2.因果推断:线性回归模型可以用于研究自变量对因变量的影响程度。

通过估计回归系数,可以分析自变量的影响方向和强度。

例如,在医学研究中,可以通过线性回归分析来确定吸烟对呼吸道疾病的影响。

3.变量选择:线性回归可以用于识别对因变量影响最大的自变量。

通过分析回归系数的显著性,可以确定哪些自变量对因变量具有重要的解释能力。

这对于解释和理解研究问题非常有价值。

然而,线性回归也存在一些限制:1.假设限制:线性回归模型对回归系数的假设比较严格,要求线性关系、同方差性和独立性。

正态分布、回归分析、独立性检验(教师)

正态分布、回归分析、独立性检验(教师)

资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载正态分布、回归分析、独立性检验(教师)地点:__________________时间:__________________说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容正态分布、回归分析、独立性检验一、正态分布1.已知随机变量X服从正态分布N(a,4),且P(X>1)=0.5,则实数a的值为( )A.1B.2C.3D.4【解题指南】画正态曲线图,由对称性得图象关于x=a对称且P(X>a)=0.5,结合题意得到a的值.【解析】选A.随机变量X服从正态分布N(a,4),所以曲线关于x=a对称,且P(X>a)=0.5,由P(X>1)=0.5,可知μ=a=1.故选A.2.(2014·广州高二检测)已知ξ~N(3,σ2),若P(ξ≤2)=0.2,则P(ξ≤4)等于( )A.0.2B.0.3C.0.7D.0.8【解析】选D.根据正态曲线的特征:知对称轴为x=3,[来源:学+科+网Z+X+X+K]所以P(ξ≤3)=0.5,则P(ξ≤2)=P(ξ>4)=0.2,所以P(ξ≤4)=1-P(ξ>4)=1-0.2=0.8.3.随机变量ξ服从正态分布N(1,4),若P(2<ξ<3)=a,则P(ξ<-1)+P(1<ξ<2)=( )A.1-a2B.12-aC.a+0.003aD.12+a【解析】选B.因为随机变量ξ服从正态分布N(1,4),所以正态曲线关于x=1对称,因为P(2<ξ<3)=a,所以P(-1<ξ<0)=a,P(1<ξ<2)=P(0<ξ<1),P(ξ<-1)+P(1<ξ<2)=12-a,故选B.4.已知随机变量X服从正态分布N(3,1),且P(2≤X≤4)=0.6826,则P(X>4)= ( )A.0.158 8B.0.158 7C.0.158 6D.0.158 5【解析】选B.P(3≤X≤4)=12P(2≤X≤4)=0.3413,P(X>4)=0.5-P(3≤X≤4)=0.5-0.3413=0.1587.5.设随机变量ξ服从正态分布N(μ,σ2),且二次方程x2+4x+ξ=0无实数根的概率为12,则μ等于( )A.1B.2C.4D.不能确定【解析】选C.因为方程x2+4x+ξ=0无实数根的概率为12,由Δ=16-4ξ<0,得ξ>4,即P(ξ>4)=12=1-P(ξ≤4),故P(ξ≤4)=12,所以μ=4.6. 设某地区某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,令ξ表示从中随机抽取的一名儿童的身高,则下列概率中最大的是( )A.P(120<ξ<130)B.P(125<ξ<135)C.P(130<ξ<140)D.P(135<ξ<145)【解析】选C.因为某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,即ξ~N(135,100),所以在长度都是10的区间上,概率最大的应该是在对称轴两侧关于对称轴对称的区间,从四个选项可知C最大,故选C.7.设随机变量ξ服从正态分布N(0,1),则下列结论正确的是.①P(|ξ|<a)=P(ξ<a)+P(ξ>-a)(a>0);②P(|ξ|<a)=2P(ξ<a)-1(a>0);③P(|ξ|<a)=1-2P(ξ<a)(a>0);④P(|ξ|<a)=1-P(|ξ|>a)(a>0).【解析】因为P(|ξ|<a)=P(-a<ξ<a),所以①不正确;因为P(|ξ|<a)=P(-a<ξ<a)=P(ξ<a)-P(ξ<-a)=P(ξ<a)-P(ξ>a)=P(ξ<a)-(1-P(ξ<a))=2P(ξ<a)-1,所以②正确,③不正确;因为P(|ξ|<a)+P(|ξ|>a)=1,所以P(|ξ|<a)=1-P(|ξ|>a)(a>0),所以④正确.答案:②④8.在某次数学考试中,考生的成绩服从正态分布N(90,100),则考试成绩在110分以上的概率是.【解析】因为考生的成绩X~N(90,100),所以正态曲线关于x=90对称,且标准差为10,根据3σ原则知P(70<x<110)=P(90-2×10<x<90+2×10)=0.9544,所以考试成绩X位于区间(70,110)上的概率为0.9544,则考试成绩在110分以上的概率是=12(1-0.9544)=0.0228.9.某大型国有企业为10000名员工定制工作服,设员工的身高(单位:cm)服从正态分布N(173,52),则适合身高在163~183cm范围内员工穿的服装大约要定制套.【解析】因为员工的身高(单位:cm)服从正态分布N(173,52),即服从均值为173cm,方差为25的正态分布,因为适合身高在163~183cm范围内取值即在(μ-2σ,μ+2σ)内取值,其概率为:95.44%,从而得出适合身高在163~183cm范围内员工穿的服装大约套数是:10000×95.44%=9544套.10.随机变量ξ服从正态分布N(1,σ2),已知P(ξ<0)=0.3,则P(ξ<2)等于( )A.0.7B.0.6C.0.5D.0.3【解析】选A.根据图象的对称性知P(ξ>2)=P(ξ<0)=0.3,所以P(ξ<2)=1-P(ξ>2)=0.7.11.正态分布N0,49中,数值落在(-∞,-2)∪(2,+∞)内的概率是( )A.0.46B.0.997C.0.03D.0.0026[来源:]【解析】选D.由题意μ=0,σ=23,所以P(-2<X<2)=P0-3×23<X<0+3×23=0.9974,所以P(X<-2)+P(X>2)=1-P(-2≤X≤2)=1-0.9974=0.0026.故选D.12.某中学高考数学成绩近似地服从正态分布N(100,100),则此校数学成绩在80~120分的考生占总人数的百分比为( )A.31.74%B.68.26%C.95.44%D.99.74%【解析】选C.设此校学生的数学成绩为X,随机变量X~N(100,100),所以μ=100,σ2=100,即σ=10.则P(μ-2σ<X≤μ+2σ)=95.44%.故选C.13.我校在模块考试中约有1000人参加考试,其数学考试成绩ξ~N(90,a2)(a>0,试卷满分150分),统计结果显示数学考试成绩在70分到110分之间的人数约为总人数的35,则此次数学考试成绩不低于110分的学生人数约为( )A.600B.400C.300D.200【解析】选D.由平均分为90,考试成绩在70分到110分之间的人数为600,则落在90分到110分之间的人数为300人,故数学考试成绩不低于110分的学生人数约为500-300=200.14.某个部件由三个元件按如图方式连接而成,元件1或元件2正常工作,且元件3正常工作,则部件正常工作,设三个电子元件的使用寿命(单位:小时)均服从正态分布N(1000,502),且各个元件能否正常工作相互独立,那么该部件的使用寿命超过1000小时的概率为.【解析】三个电子元件的使用寿命均服从正态分布N(1000,502)得:三个电子元件的使用寿命超过1000小时的概率为p=12,超过1000小时时元件1或元件2正常工作的概率p1=1-(1-p)2=34,那么该部件的使用寿命超过1000小时的概率为p2=p1×p=38.二、回归分析1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心点(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【解析】选D.对于A,0.85>0,所以y与x具有正的线性相关关系,故正确;对于B,回归直线过样本点的中心点(x,y),故正确;对于C,因为回归方程为=0.85x-85.71,所以该大学某女生身高增加1cm,则其体重约增加0.85kg,故正确;对于D,x=170cm时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79kg,故不正确.2.某单位为了制定节能减排的目标,先调查了用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表: 由表中数据,得线性回归方程y=-2x+a,则a= ( )A.20 B.40C.60D.80【解析】选C.根据所给的表格中的数据,求出数据的样本点的中心,根据样本点的中心在线性回归直线上,代入可得a的值.由表格得x=18+13+10-14=10,y=24+34+38+644=40,因为(x,y)满足线性回归方程y=-2x+a,则可知40=10×(-2)+a,解得:a=60,3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+.(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解析】(1)如图(2)由对照数据,计算得:∑i=14xiyi=66.5,∑i=1nxi2=32+42+52+62=86,x=4.5,y=3.5,=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,=y-x=3.5-0.7×4.5=0.35,所求的线性回归方程为:=0.7x+0.35.(3)x=100,=100×0.7+0.35=70.35(吨),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨).三、独立性检验1.下面是一个2×2列联表:则表中a,b的值分别为( )A.54,103B.64,103C.54,93D.64,93【解析】选A.由题意,a+40=94,40+63=b,所以a=54,b=103.2.对于独立性检验,下列说法正确的是( )A.K2独立性检验的统计假设是各事件之间相互独立B.K2可以为负值C.K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”D.2×2列联表中的4个数据可以是任意正数【解析】选A.由独立性检验的检验步骤可知A正确;因为2×2列联表中的数据均为正整数,故K2不可能为负值,排除B;因为K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的出错率,故排除C;因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D.3.在对人们休闲方式的一次调查中,根据数据建立如下的2×2列联表:为了判断休闲方式是否与性别有关,根据表中数据,得到K2的观测值k≈4.667,因为3.841≤k≤6.635,所以判定休闲方式与性别有关系,那么这种判断出错的可能性至多为( )A.1%B.99%C.5%D.95%选C.因为3.841≤k≤6.635,P(K2≥3.841)≈0.05,P(K2≥6.635)≈0.01,所以判断出错的可能性至多为5%.4.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见,2452名女性中有1200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力( )A.平均数与方差B.回归直线方程C.独立性检验D.概率【解析】选C.由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.5.在列联表中,类1在类B中所占的比例为.【解析】因为由列联表可以看出类1在类B中有c个,而类B共有(c+d)个,所以类1在类B中所占的比例是cc+d.6.某厂家为调查一种新推出的产品的颜色接受程度是否与性别有关,数据如下表:根据表中的数据,得到k≈10.653,因为k≥7.879,所以产品的颜色接受程度与性别有关系,那么这种判断出错的可能性为.【解析】根据k≈10.653,对照临界值表可以得到,这种判断出错的可能性是0.005.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k≈4.844.则可以在犯错误的概率不超过的前提下认为选修文科与性别有关系.【解析】因为根据表中数据,得到K2的观测值k≈4.844>3.841.所以可以在犯错误的概率不超过0.05的前提下认为选修文科与性别有关系.答案:0.058.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.【解析】(1)将2×2列联表中的数据代入计算公式,得K2的观测值k=100×60×10-20×10280×20×70×30=10021≈4.762,由于4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中抽取3人的一切可能结果所组成的基本事件为下列10个:a1,a2,b1,a1,a2,b2,a1,a2,b3,a1,b1,b2,a1,b1,b3,a1,b2,b3,a2,b1,b2,a2 ,b1,b3,a2,b2,b3,b1,b2,b3,其中ai(i=1,2)表示喜欢甜品的学生,bj(j=1,2,3)表示不喜欢甜品的学生,这10个基本事件的出现是等可能的.抽取3人,至多有1人喜欢甜品的事件为以下7个:a1,b1,b2,a1,b1,b3,a1,b2,b3,a2,b1,b2,a2,b1,b3,a2,b2,b3,b1,b2,b3,从这5名学生中随机抽取3人,至多有1人喜欢甜品的概率为710.。

高考数学概率与统计知识点

高考数学概率与统计知识点

高中数学之概率与统计求等可能性事件、互斥事件和相互独立事件的概率解此类题目常应用以下知识:(1)等可能性事件(古典概型)的概率:P(A)=)()(I card A card =n m;等可能事件概率的计算步骤:计算一次试验的基本事件总数n ;设所求事件A,并计算事件A 包含的基本事件的个数m ; 依公式()mP A n =求值;答,即给问题一个明确的答复.(2)互斥事件有一个发生的概率:P(A+B)=P(A)+P (B); 特例:对立事件的概率:P(A)+P(A )=P(A +A )=1. (3)相互独立事件同时发生的概率:P(A ·B)=P (A )·P(B ); 特例:独立重复试验的概率:Pn(k)=kn k kn p p C --)1(.其中P 为事件A在一次试验中发生的概率,此式为二项式[(1-P)+P]n 展开的第k+1项.(4)解决概率问题要注意“四个步骤,一个结合”:求概率的步骤是:第一步,确定事件性质⎧⎪⎪⎨⎪⎪⎩等可能事件 互斥事件 独立事件 n 次独立重复试验即所给的问题归结为四类事件中的某一种. 第二步,判断事件的运算⎧⎨⎩和事件积事件即是至少有一个发生,还是同时发生,分别运用相加或相乘事件.第三步,运用公式()()()()()()()()(1)k k n k n n m P A nP A B P A P B P A B P A P B P k C p p -⎧=⎪⎪⎪+=+⎨⎪⋅=⋅⎪=-⎪⎩等可能事件: 互斥事件: 独立事件: n 次独立重复试验:求解第四步,答,即给提出的问题有一个明确的答复. 例1. 在五个数字12345,,,,中,。

例2. 若随机取出三个数字,则剩下两个数字都是奇数的概率是(结果用数值表示).[解答过程]0.3提示:1335C 33.54C 102P ===⨯例2.一个总体含有100个个体,以简单随机抽样方式从该总体中抽取一个容量为5的样本,则指定的某个个体被抽到的概率为 .[解答过程]1.20提示:51.10020P == 例3.接种某疫苗后,出现发热反应的概率为0.80.现有5人接种该疫苗,至少有3人出现发热反应的概率为__________.(精确到0.01)[考查目的] 本题主要考查运用组合、概率的基本知识和分类计数原理解决问题的能力,以及推理和运算能力.[解答提示]至少有3人出现发热反应的概率为33244555550.800.200.800.200.800.94C C C ⋅⋅+⋅⋅+⋅=.故填0.94.离散型随机变量的分布列 1.随机变量及相关概念①随机试验的结果可以用一个变量来表示,这样的变量叫做随机变量,常用希腊字母ξ、η等表示.②随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量. ③随机变量可以取某区间内的一切值,这样的随机变量叫做连续型随机变量. 2.离散型随机变量的分布列①离散型随机变量的分布列的概念和性质一般地,设离散型随机变量ξ可能取的值为1x ,2x ,……,ix ,……,ξ取每一个值ix (=i 1,2,……)的概率P(i x =ξ)=i P ,则称下表.为随机变量ξ的概率分布,简称ξ的分布列.由概率的性质可知,任一离散型随机变量的分布列都具有下述两个性质: (1)0≥i P ,=i 1,2,…;(2)++21P P …=1. ②常见的离散型随机变量的分布列: (1)二项分布n 次独立重复试验中,事件A 发生的次数ξ是一个随机变量,其所有可能的取值为0,1,2,…n,并且kn k kn k q p C k P P -===)(ξ,其中n k ≤≤0,p q -=1,随机变量ξ的分布列如下:称这样随机变量ξ服从二项分布,记作),(~p n B ξ,其中n 、p 为参数,并记:),;(p n k b q p C k n k k n =- .(2) 几何分布在独立重复试验中,某事件第一次发生时所作的试验的次数ξ是一个取值为正整数的离散型随机变量,“k ξ=”表示在第k 次独立重复试验时事件第一次发生. 随机变量ξ的概率分布为:例1.厂家在产品出厂前,需对产品做检验,厂家将一批产品发给商家时,商家按合同规定也需随机抽取一定数量的产品做检验,以决定是否接收这批产品.(Ⅰ)若厂家库房中的每件产品合格的概率为0.8,从中任意取出4件进行检验,求至少有1件是合格的概率;(Ⅱ)若厂家发给商家20件产品中,其中有3件不合格,按合同规定该商家从中任取2件.都进行检验,只有2件都合格时才接收这批产品.否则拒收,求出该商家检验出不合格产品数ξ的分布列及期望ξE ,并求出该商家拒收这批产品的概率.[解答过程](Ⅰ)记“厂家任取4件产品检验,其中至少有1件是合格品”为事件A 用对立事件A 来算,有()()4110.20.9984P A P A =-=-=(Ⅱ)ξ可能的取值为0,1,2.()2172201360190C P C ξ===, ()11317220511190C C P C ξ===,()2322032190C P C ξ===136513301219019019010E ξ=⨯+⨯+⨯=.记“商家任取2件产品检验,都合格”为事件B,则商家拒收这批产品的概率()136271119095P P B =-=-=.所以商家拒收这批产品的概率为2795.例12.某项选拔共有三轮考核,每轮设有一个问题,能正确回答问题者进入下一轮考核,否则即被淘汰. 已知某选手能正确回答第一、二、三轮的问题的概率分别为54、53、52,且各轮问题能否正确回答互不影响.(Ⅰ)求该选手被淘汰的概率;(Ⅱ)该选手在选拔中回答问题的个数记为ξ,求随机变量ξ的分布列与数学期望. (注:本小题结果可用分数表示)[解答过程]解法一:(Ⅰ)记“该选手能正确回答第i 轮的问题”的事件为(123)i A i =,,,则14()5P A =,23()5P A =,32()5P A =,∴该选手被淘汰的概率112223112123()()()()()()()P P A A A A A A P A P A P A P A P A P A =++=++142433101555555125=+⨯+⨯⨯=.(Ⅱ)ξ的可能值为123,,,11(1)()5P P A ξ===,1212428(2)()()()5525P P A A P A P A ξ====⨯=, 12124312(3)()()()5525P P A A P A P A ξ====⨯=.ξ∴的分布列为11235252525E ξ∴=⨯+⨯+⨯=.解法二:(Ⅰ)记“该选手能正确回答第i 轮的问题”的事件为(123)i A i =,,,则14()5P A =,23()5P A =,32()5P A =.∴该选手被淘汰的概率1231231()1()()()P P A A A P A P A P A =-=-4321011555125=-⨯⨯=. (Ⅱ)同解法一.(3)离散型随机变量的期望与方差随机变量的数学期望和方差(1)离散型随机变量的数学期望:++=2211p x p x E ξ…;期望反映随机变量取值的平均水平.⑵离散型随机变量的方差:+-+-=222121)()(p E x p E x D ξξξ…+-+n n p E x 2)(ξ…;方差反映随机变量取值的稳定与波动,集中与离散的程度.⑶基本性质:b aE b a E +=+ξξ)(;ξξD a b a D 2)(=+. (4)若ξ~B(n,p),则 np E =ξ ; Dξ =npq(这里q =1-p) ;如果随机变量ξ服从几何分布,),()(p k g k P ==ξ,则p E 1=ξ,D ξ =2p q 其中q=1-p.例1.甲、乙两名工人加工同一种零件,两人每天加工的零件数相等,所得次品数分别为ε、η,ε和η的分布列如下:思路:一是要比较两名工人在加工零件数相等的条件下出次品数的平均值,即期望;二是要看出次品数的波动情况,即方差值的大小.解答过程:工人甲生产出次品数ε的期望和方差分别为:7.0103210111060=⨯+⨯+⨯=εE ,891.0103)7.02(101)7.01(106)7.00(222=⨯-+⨯-+⨯-=εD ;工人乙生产出次品数η的期望和方差分别为:7.0102210311050=⨯+⨯+⨯=ηE ,664.0102)7.02(103)7.01(105)7.00(222=⨯-+⨯-+⨯-=ηD由E ε=E η知,两人出次品的平均数相同,技术水平相当,但D ε>D η,可见乙的技术比较稳定.小结:期望反映随机变量取值的平均水平;方差反映随机变量取值的稳定与波动,集中与离散的程度. 例2.某商场经销某商品,根据以往资料统计,顾客采用的付款期数ξ的分布列为商场经销一件该商品,采用1期付款,其利润为200元;分2期或3期付款,其利润为250元;分4期或5期付款,其利润为300元.η表示经销一件该商品的利润.(Ⅰ)求事件A :“购买该商品的3位顾客中,至少有1位采用1期付款”的概率()P A ;(Ⅱ)求η的分布列及期望E η.[解答过程](Ⅰ)由A 表示事件“购买该商品的3位顾客中至少有1位采用1期付款”. 知A 表示事件“购买该商品的3位顾客中无人采用1期付款”2()(10.4)0.216P A =-=, ()1()10.2160.784P A P A =-=-=.(Ⅱ)η的可能取值为200元,250元,300元.(200)(1)0.4P P ηξ====,(250)(2)(3)0.20.20.4P P P ηξξ===+==+=,(300)1(200)(250)10.40.40.2P P P ηηη==-=-==--=.η的分布列为2000.42500.43000.2E η=⨯+⨯+⨯240=(元).抽样方法与总体分布的估计 抽样方法1.简单随机抽样:设一个总体的个数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法. 2.系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样). 3.分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样. 总体分布的估计由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体的分布,一般地,样本容量越大,这种估计就越精确.总体分布:总体取值的概率分布规律通常称为总体分布.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及相应的频率表示,几何表示就是相应的条形图.当总体中的个体取值在某个区间上时用频率分布直方图来表示相应样本的频率分布.总体密度曲线:当样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,即总体密度曲线. 典型例题例1.某工厂生产A 、B 、C 三种不同型号的产品,产品数量之比依次为2:3:5.现用分层抽样方法抽出一个容量为n 的样本,样本中A种型号产品有16件.那么此样本的容量n= .解答过程:A 种型号的总体是210,则样本容量n=1016802⨯=.例2.一个总体中有100个个体,随机编号0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m k +的个位数字相同,若6m =,则在第7组中抽取的号码是 .解答过程:第K组的号码为(1)10k - ,(1)101k -+,…,(1)109k -+,当m =6时,第k 组抽取的号的个位数字为m+k的个位数字,所以第7组中抽取的号码的个位数字为3 ,所以抽取号码为63.正态分布与线性回归1.正态分布的概念及主要性质(1)正态分布的概念如果连续型随机变量ξ 的概率密度函数为222)(21)(σμπσ--=x ex f ,x R ∈ 其中σ、μ为常数,并且σ>0,则称ξ服从正态分布,记为~N ξ(μ,2σ).(2)期望Eξ =μ,方差2σξ=D .(3)正态分布的性质 正态曲线具有下列性质:①曲线在x 轴上方,并且关于直线x =μ对称.②曲线在x=μ时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低.③曲线的对称轴位置由μ确定;曲线的形状由σ确定,σ越大,曲线越“矮胖”;反之越“高瘦”. 三σ原则即为数值分布在(μ—σ,μ+σ)中的概率为0.6526数值分布在(μ—2σ,μ+2σ)中的概率为0.9544ﻫ数值分布在(μ—3σ,μ+3σ)中的概率为0.9974(4)标准正态分布当μ=0,σ=1时ξ服从标准的正态分布,记作~N ξ(0,1) (5)两个重要的公式①()1()x x φφ-=-,② ()()()P a b b a ξφφ<<=-.(6)2(,)N μσ与(0,1)N 二者联系.若2~(,)N ξμσ,则~(0,1)N ξμησ-=;②若2~(,)N ξμσ,则()()()b a P a b μμξφφσσ--<<=-.2.线性回归简单的说,线性回归就是处理变量与变量之间的线性关系的一种数学方法.变量和变量之间的关系大致可分为两种类型:确定性的函数关系和不确定的函数关系.不确定性的两个变量之间往往仍有规律可循.回归分析就是处理变量之间的相关关系的一种数量统计方法.它可以提供变量之间相关关系的经验公式.具体说来,对n 个样本数据(11,x y ),(22,x y ),…,(,n n x y ),其回归直线方程,或经验公式为:a bx y+=ˆ.其中,,)(1221x b y a x n xyx n yx b ni ini ii⋅-=--=∑∑==,其中y x ,分别为|i x |、|i y |的平均数.例1.如果随机变量ξ~N (μ,σ2),且E ξ=3,D ξ=1,则P(-1<ξ≤1=等于( ) A .2Φ(1)-1 ﻩB.Φ(4)-Φ(2) C.Φ(2)-Φ(4) ﻩD.Φ(-4)-Φ(-2)解答过程:对正态分布,μ=E ξ=3,σ2=D ξ=1,故P (-1<ξ≤1)=Φ(1-3)-Φ(-1-3)=Φ(-2)-Φ(-4)=Φ(4)-Φ(2). 答案:B例2. 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N (d ,0.52). (1)若d=90°,则ξ<89的概率为 ;(2)若要保持液体的温度至少为80 ℃的概率不低于0.99,则d 至少是 ?(其中若η~N(0,1),则Φ(2)=P (η<2)=0.9772,Φ(-2.327)=P(η<-2.327)=0.01).解答过程:(1)P(ξ<89)=F(89)=Φ(5.09089-)=Φ(-2)=1-Φ(2)=1-0.9772=0.0228.(2)由已知d 满足0.99≤P(ξ≥80),即1-P(ξ<80)≥1-0.01,∴P(ξ<80)≤0.01.∴Φ(5.080d-)≤0.01=Φ(-2.327).∴5.080d -≤-2.327.∴d ≤81.1635. 故d 至少为81.1635.小结:(1)若ξ~N(0,1),则η=σμξ-~N(0,1).(2)标准正态分布的密度函数f (x )是偶函数,x<0时,f(x )为增函数,x>0时,f (x )为减函数.。

线性回归模型及其参数估计

线性回归模型及其参数估计

线性回归模型及其参数估计线性回归模型是一种常用的统计分析方法,用于研究自变量和因变量之间的关系。

它的基本假设是,自变量和因变量之间存在线性关系,并且误差项服从正态分布。

在实际应用中,线性回归模型可以用于预测和解释因变量的变化。

一、线性回归模型的基本形式线性回归模型的基本形式可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1、X2、...、Xn表示自变量,β0、β1、β2、...、βn表示模型的参数,ε表示误差项。

二、参数估计方法为了确定模型中的参数,需要通过样本数据进行估计。

常用的参数估计方法有最小二乘法和最大似然估计法。

1. 最小二乘法最小二乘法是一种常用的参数估计方法,它的基本思想是通过最小化观测值与估计值之间的差异来确定参数。

具体而言,最小二乘法通过最小化残差平方和来估计参数。

残差是指观测值与估计值之间的差异,残差平方和是所有残差平方的总和。

最小二乘法的优势在于它是一种无偏估计方法,即在大样本情况下,估计值的期望等于真实值。

2. 最大似然估计法最大似然估计法是一种基于概率统计的参数估计方法,它的基本思想是通过选择参数值,使得观测到的样本数据出现的概率最大化。

最大似然估计法的优势在于它是一种有效的估计方法,能够提供参数的置信区间和假设检验等统计推断。

三、线性回归模型的评估指标在应用线性回归模型时,需要评估模型的拟合程度和预测能力。

常用的评估指标有残差平方和、决定系数和均方根误差等。

1. 残差平方和残差平方和是评估模型拟合程度的指标,它表示观测值与估计值之间的差异的总和。

残差平方和越小,说明模型的拟合程度越好。

2. 决定系数决定系数是评估模型预测能力的指标,它表示因变量的变异程度中能够被自变量解释的比例。

决定系数的取值范围为0到1,越接近1表示模型的预测能力越好。

3. 均方根误差均方根误差是评估模型预测能力的指标,它表示观测值与估计值之间的差异的平均值的平方根。

概率统计中的正态分布的参数估计

概率统计中的正态分布的参数估计

概率统计中的正态分布的参数估计正态分布(Normal Distribution)是概率统计中最常见的一种分布,也被广泛应用于各个领域。

正态分布由两个参数来描述,即均值μ和标准差σ。

在实际应用中,我们常常需要通过样本数据来估计正态分布的参数,从而对总体进行推断。

本文将介绍概率统计中的正态分布的参数估计方法。

一、最大似然估计法最大似然估计法是一种常用的参数估计方法,通过寻找最大化样本观测出现的概率来确定参数的值。

在正态分布中,最大似然估计法可以用来估计均值μ和标准差σ。

对于给定的样本数据X1, X2, ..., Xn,我们假设这些数据是从一个正态分布N(μ, σ^2)中独立地随机抽取得到的。

那么样本的似然函数可以表示为:L(μ, σ^2) = Π(1/√(2πσ^2)) * exp(-(xi-μ)^2/(2σ^2))其中,Π表示连乘符号,xi表示第i个观测值。

为了简化计算,我们通常对似然函数的对数取负值,得到对数似然函数:l(μ, σ^2) = -n/2 * log(2πσ^2) - Σ(xi-μ)^2/(2σ^2)最大似然估计法的目标是找到使对数似然函数取得最大值的参数值。

对于均值μ,我们可以通过求导等于0的方式得到:∂l/∂μ = Σ(xi-μ)/σ^2 = 0解得:Σ(xi-μ) = 0即样本观测值与均值的偏差之和为0。

这意味着最大似然估计下的均值估计值等于样本的平均值。

对于标准差σ,我们可以通过求导等于0的方式得到:∂l/∂σ^2 = -n/(2σ^2) + Σ(xi-μ)^2/(2σ^4) = 0解得:σ^2 = Σ(xi-μ)^2/n即最大似然估计下的标准差估计值等于样本偏差平方和的均值。

二、置信区间估计法在实际应用中,我们通常还需要给出参数估计的不确定性范围。

置信区间估计法可以用来估计参数的置信区间,即参数真值落在某个区间内的概率。

对于均值μ的置信区间估计,假设样本数据X1, X2, ..., Xn满足正态分布N(μ, σ^2),我们可以使用样本均值的抽样分布来构建置信区间。

高中数学概率与统计问题的题型与方法

高中数学概率与统计问题的题型与方法

高中数学概率与统计问题的题型与方法篇一:高二数学概率与统计问题的题型与方法2第110-113课时概率与统计问题的题型与方法一.备考目标:1.了解典型分布列:0~1分布,二项分布,几何分布。

2.介绍线性型随机变量的期望值、方差的意义,可以根据线性型随机变量的原产列求出来期望值、方差。

3.在实际中经常用期望来比较两个类似事件的水平,当水平相近时,再用方差比较两个类似事件的稳定程度。

4.介绍正态分布的意义,能够利用正态曲线的图像认知正态曲线的性质。

5.了解标准正态分布的意义和性质,掌握正态总体n(?,?2)转化为标准正态总体n (0,1)的公式f(x)??(x??)及其应用。

6.通过生产过程的质量掌控图,介绍假设检验的基本思想。

7.了解相关关系、回归分析、散点图等概念,会求回归直线方程。

8.介绍相关系数的计算公式及其意义,可以用相关系数公式展开排序。

了解相关性检验的方法与步骤,会用相关性检验方法进行检验。

二.考试建议:⑴了解随机变量、离散型随机变量的意义,会求出某些简单的离散型随机变量的分布列。

⑵介绍线性型随机变量的期望值、方差的意义,可以根据线性型随机变量的原产列求出来期望值、方差。

⑶会用抽机抽样,系统抽样,分层抽样等常用的抽样方法从总体中抽取样本。

⑷会用样本频率分布去估计总体分布。

⑸介绍正态分布的意义及主要性质。

⑹了解假设检验的基本思想。

⑺可以根据样本的特征数估算总体。

⑻了解线性回归的方法。

三.教学过程:(ⅰ)基础知识详析㈠随机事件和统计数据的知识结构:㈡随机事件和统计的内容提要1.主要内容就是线性型随机变量的原产列于、希望与方差,样本方法,总体原产的估算,正态分布和线性回归。

2.随机变量的概率分布(1)离散型随机变量的分布列:两条基本性质①pi?0(i?1,2,?);②p1+p2+?=1。

(2)连续型随机变量概率分布:由频率分布直方图,估计总体分布密度曲线y=f(x);总体原产密度函数的两条基本性质:①f(x)≥0(x∈r);②由曲线y=f(x)与x轴围起面积为1。

正态分布的条件分布

正态分布的条件分布

正态分布的条件分布
正态分布的条件分布是指在已知某些条件下,所得的随机变量的分布仍然是正态分布的情况。

具体来说,如果已知一个正态分布随机变量X的平均数和方差,以及另一个随机变量Y与X之间的线性关系,那么在已知Y的取值时,X的条件分布仍然是正态分布,其平均数和方差可以通过线性回归方法求得。

条件分布在统计学和机器学习中有着广泛的应用,例如在回归分析、贝叶斯推断、数据挖掘等领域中常常涉及到条件分布的计算和使用。

正态分布的条件分布是其中的一个重要例子,可以帮助我们更好地理解数据的分布规律和预测未知值。

- 1 -。

概率问题的解题方法与策略

概率问题的解题方法与策略

概率与统计问题的题型与方法一.复习目标:1. 了解典型分布列:0~1分布,二项分布,几何分布。

2. 了解离散型随机变量的期望值、方差的意义,会根据离散型随机变量的分布列求出期望值、方差。

3. 在实际中经常用期望来比较两个类似事件的水平,当水平相近时,再用方差比较两个类似事件的稳定程度。

4. 了解正态分布的意义,能借助正态曲线的图像理解正态曲线的性质。

5. 了解标准正态分布的意义和性质,掌握正态总体),(2σμN 转化为标准正态总体N (0,1)的公式)()(σμ-Φ=x x F 及其应用。

6. 通过生产过程的质量控制图,了解假设检验的基本思想。

7. 了解相关关系、回归分析、散点图等概念,会求回归直线方程。

8. 了解相关系数的计算公式及其意义,会用相关系数公式进行计算。

了解相关性检验的方法与步骤,会用相关性检验方法进行检验。

二.考试要求:⑴了解随机变量、离散型随机变量的意义,会求出某些简单的离散型随机变量的分布列。

⑵了解离散型随机变量的期望值、方差的意义,会根据离散型随机变量的分布列求出期望值、方差。

⑶会用抽机抽样,系统抽样,分层抽样等常用的抽样方法从总体中抽取样本。

⑷会用样本频率分布去估计总体分布。

⑸了解正态分布的意义及主要性质。

⑹了解假设检验的基本思想。

⑺会根据样本的特征数估计总体。

⑻了解线性回归的方法。

三.教学过程:(Ⅰ)基础知识详析㈠随机事件和统计的知识结构:㈡随机事件和统计的内容提要1.主要内容是离散型随机变量的分布列、期望与方差,抽样方法,总体分布的估计,正态分布和线性回归。

2.随机变量的概率分布(1)离散型随机变量的分布列: ε 1x 2x … i x … P1p 2p…i p…两条基本性质①,2,1(0=≥i p i …);②P 1+P 2+ (1)(2)连续型随机变量概率分布:由频率分布直方图,估计总体分布密度曲线y=f(x); 总体分布密度函数的两条基本性质: ①f(x) ≥0(x ∈R);②由曲线y=f(x)与x 轴围成面积为1。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

专题:正态分布和线性回归一、基础知识回顾1( x)21. 正态分布:若总体密度曲线就是或近似地是函数 f ( x)e 22的图象2, x,其中:π是圆周率; e 是自然对数的底; x 是随机变量的取值 ,为正态分布的平均值; 是正态分布的标准差.这个总体是无限容量的抽样总体,其分布叫做正态分布.正态分布由参数 , 唯一确定,记作 ~ N ( , 2 ) ,E( )= ,D( )=2 .2. 函数 f(x) 图象被称为正态曲线 .(1) 从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为 x=μ,并在 x=μ时.... ..........取最大值 。

(2) 从 x=μ点开始,曲线向正负两个方向递减延伸,不断逼近x 轴,但永不与 x....轴相交,因此说曲线在正负两个方向都是以 x 轴为渐近线的 ,(3) 当μ的值一定时 , σ越大,曲线越“矮胖”,总体分布越分散;σ越小,曲线越“高”.总体分布越集中.3. 把 ~ N (0,1) 即μ =0, σ=1 称为标准正态分布,这样的正态总体称为标准正态总体 , 其密度函1 1 x2 数为 f ( x)e22,x ∈(- ∞,+∞) ,相应的曲线称为标准 正态曲线.4. 利用标准正态分布表可求得标准正态总体在某一区间内取值的概率 .(1) 对于标准正态总体 N (0,1) , ( x 0 ) 是总体取值小于 x 0 的概率,即: ( x 0 ) P(xx 0 ) ,其中 x 0 0 ,其值可以通过 “标准正态分布表” 查得,也就是图中阴影部分的面积,它表示总体取值小于 x 0 的概率.(2) 标准正态曲线关于 y 轴对称。

因为当 x 0 0 时, ( x 0 ) P(xx 0 ) ;而当 x 0 0 时,根据正态曲线的性质可得: ( x 0 ) 1( x 0 ) ,并且可以求得在任一区间(x 1 , x 2 ) 内取值的概率: P(x 1 x x 2 ) ( x 2 )( x 1 ) , 显然Φ(0)=0.5.5. 对于任一正态总体 ~ N ( ,2) , 都可以通过使之标准化 ~ N (0,1) , 那么 ,P(x )=P( <x)= (x) ,求得其在某一区间内取值的概率 .例如:~ N(1,4), 那么 , 设 =1, 则~ N (0,1) , 有 P( <3)=P( <1)= (1)=0.8413.26. Φ(1)=0.8413 、Φ (2)=0.9772 、Φ(3)=0.9987二、例题1x2(1) f ( x)2,(- ∞<x<+∞e21( x 1) 2(2) f ( x)8,(- ∞< x<+∞e22(3)f ( x) 2 e2( x 1)2,(- ∞<x<+∞22. 正态总体的函数表示式是 f (x)2e 2( x 1)2,(- ∞< x<+∞) (1)求 f (x)的最大值;2(2)利用指数函数性质说明其单调区间,以及曲线的对称轴.3. 利用标准正态分布表 ( Φ(1)=0.8413 、Φ(2)=0.9772 、Φ(3)=0.9987) 求标准正态总体在下面区间取值的概率.(1)(0,1);(2)(1,3);(3)(-1 ,2).4.利用标准正态分布表 (( Φ (1)=0.8413 、Φ (1.84)=0.9671) ,求正态总体在下面区间取值的概率.(1)在 N(1,4) 下,求 F(3)(2)在 N ( , 2 )下,求P(μ-1.84σ<X<μ+1.84σ)*5 . 对于正态总体 N ( , 2 ) 取值的概率:(1) ( μ - σ,μ +σ):(2) ( μ -2 σ,μ +2σ):(3) ( μ -3 σ,μ +3σ):取值的概率分别为 68.3%、95.4%、99.7%。

因此我们时常只在区间 ( μ-3 σ,μ +3σ ) 内研究正态总体分布情况,而忽略其中很小的一部分 , 这一部分情况发生为小概率事件。

6.下列关于正态曲线性质的叙述正确的是(1)曲线关于直线 x=μ对称 , 这个曲线只在 x 轴上方;(2)曲线关于直线 x=σ对称 , 这个曲线只有当 x∈(-3 σ, 3σ) 时才在 x 轴上方;(3)曲线关于 y 轴对称,因为曲线对应的正态密度函数是一个偶函数;(4)曲线在 x=μ时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低;(5)曲线的对称轴由μ确定,曲线的形状由σ确定;(6) σ越大,曲线越“矮胖”,总体分布越分散;σ越小,曲线越“高”.总体分布越集中.()(A) 只有( 1)( 4)( 5)( 6)(B)只有 (2)( 4)( 5)(C) 只有 (3)( 4 )( 5)( 6)(D)只有( 1)( 5)( 6)7.把一个正态曲线 a 沿着横轴方向向右移动 2 个单位 , 得到一个新的曲线 b, 下列说法不正确的是(A) 曲线 b 仍然是正态曲线(B)曲线a和曲线b的最高点的纵坐标相等(C)以曲线 a 为概率密度曲线的总体的方差比以曲线 b 为概率密度曲线的总体的方差大 2(D)以曲线 a 为概率密度曲线的总体的期望比以曲线 b 为概率密度曲线的总体的期望小 28. 在正态总体N (0 , 1) 中, 数值落在 (- ∞,-1) ∪(1,+ ∞) 里的概率为9(A )0.097 (B )0.046 (C)0.03 (D)0.0039. 设随机变量ζ~ N(2,4), 则 D( ) 等于(A)1 (B)2 (C)0.5 2(D)410. 设随机变量ζ~N ( μ, σ2 ), 且 P(ζ≤C)=P(ζ>C), 则 C 等于 ( )(A)0 (B) μ (C)- μ (D)σx 211. 正态总体的概率密度函数为 f ( x)1e 8 , x,, 则总体的平均数和标准差分别8是(A)0 和 8 (B)0 和 4 (C)0 和 2 (D)0和 212. 填空题(1) 若随机变量ζ~ N(1,0.25), 则 2ζ的概率密度函数为 . (2) 期望为 2, 方差为 2 的正态分布的密度函数是 .(3) 已知正态总体落在区间 (0.2,+ ∞) 的概率是 0.5 ,则相应的正态曲线 f(x) 在 x=时, 达 到最高点 .(4) 已知ζ~N(0,1),P( ζ≤1.96)= Ф(1.96)=0.9750, 则Ф(-1.96)= .(5) 某种零件的尺寸服从正态分布 N(0,4), 则不属于区间 (-4,4) 这个尺寸范围的零件约占总数 的.(6) 某次抽样调查结果表明 , 考生的成绩 ( 百分制 ) 近似服从正态分布 , 平均成绩为 72 分,96 分以上 的考生占考生总数的 2.3%,则考生成绩在 60 至 84 分之间的概率为 . Φ(1)=0.8413 、Φ (2)=0.977 、Φ(3)=0.9987参考答案 :1(1)0,1(2)1,2(3)-1,0.5;2.(1)x=-1时f max ( x)1 ,(2)对称轴为2x=-1.3.(1)0.3413(2)0.1574(3)0.81854. (1)F(3)=0.8413(2) P( μ-1.84 σ<X<μ+1.84σ)=0.9342;6.A;7.C;8.D;9.A;10.B;11.C;12.(1)1 ( x2) 2 f (x)e44f ( x)2 e 2( x 1) 2;(2);(3)0.2;(4)0.025;(5)4.56%;(6)=12;P=0.6826.F(96)= (9672) 1 0.0230.9770(2) , 12 ,F(84)- F(60)=( 84 72 ) (60 72)(1)( 1) 2 (1) 1 0.68261212正态分布和线性回归高考要求1. 了解正态分布的意义及主要性质2. 了解线性回归的方法和简单应用知识点归纳1.正态分布密度函数:1 (x ) 2f ( x)2 ,(σ> 0,- ∞<x <∞)e 22其中π是圆周率; e 是自然对数的底; x 是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差 . 正态分布一般记为 N ( ,2)2.正态分布 N ( ,2) )是由均值μ和标准差σ唯一决定的分布例 1、下面给出三个正态总体的函数表示式,请找出其均值μ和标准差σ.1 x 2(1) f ( x),(- ∞<x <+∞e22 ( x 1) 21(2) f ( x)8,(- ∞< x <+∞2 e2 解: (1)0,1(2)1,23.正态曲线的性质 :正态分布由参数μ、σ唯一确定,如果随机变量2~N(μ,σ ) ,根据定义有:μ =E ,σ=D 。

正态曲线具有以下性质:(1)曲线在 x 轴的上方,与 x 轴不相交。

(2)曲线关于直线 x μ对称。

=(3)曲线在 xμ时位于最高点。

=(4)当 xμ时,曲线上升;当 x μ时,曲线下降。

并且当曲线向左、右两边无限延伸<>(5)当μ一定时,曲线的形状由σ确定。

σ越大,曲线越“矮胖” ,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。

五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学4.标准正态曲线 : 当μ =0、σ=l 时,正态总体称为标准正态总体,其相应的函数表示式是1x2f (x) e 2,(- ∞<x<+∞)2其相应的曲线称为标准正态曲线标准正态总体 N(0,1)在正态总体的研究中占有重要的地位任何正态分布的概率问题均可转化成标准正态分布的概率问题5.标准正态总体的概率问题 :y-x 2标准正态分布曲线12f x =e2x x对于标准正态总体 N(0,1),( x0 ) 是总体取值小于 x0的概率,即( x0 ) P(x x0 ) ,其中 x00 ,图中阴影部分的面积表示为概率 P( x x0 )只要有标准正态分布表即可查表解决.从图中不难发现 : 当 x00 时,(x0 ) 1( x0 ) ;而当 x00 时,Φ( 0)=0.5例 2 设 X ~ N ( , 2 ),且总体密度曲线的函数表达式为:1 x 22x1e4,x ∈ R 。

f ( x)2(1)求μ,σ;(2)求 P(| x 1 | 2) 的值。

分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。

利用一般正态总体N ( , 2 ) 与标准正态总体 N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解 决。

22 x 1( x 1) 21 x12 ) 2解:(1)由于 f (x)4e 2(2 e2,2根据一般正态分布的函数表达形式,可知μ =1,2 ,故 X ~N (1,2)。

(2) P(| x 1 |2) P(12 x 1 2)F (12) F(12)(2 1) ( 2 1)2 2(1)( 1) 2 (1) 1 2 0.8413 10.6826 。

相关文档
最新文档