第三章 正态分布
第三章多元正态分布
1 n
nΣ
n
1 n
Σ
n 1 n
Σ
26
2.有效性
设θˆ 是θ的一个无偏估计,若对θ的任一无偏估计 θ有
V θˆ V θ,θ Θ 即V θ -V θˆ 为非负定矩阵,则称θˆ 为θ的一致最优
1 1
0 0
0 2
4 2
4 1
41
1 1
0 0
0 2
6 16
16 20
16
20 40
17
给定y2时y1的条件均值和条件协差阵分别为
2 1
+
16 20
1 40
y2
3
=
1 2
,
Σ
12 1 2
1 2
2 2
易见,ρ是x1和 x2的相关系数。当|ρ|<1时,可得x的 概率密度函数为
f
x1,
x2
1
21 2
1
2
exp 2
1
1 2
x1 1 1
2
,
14 34
11 31
13 33
。
12
(5)设x1,x2,⋯,xn相互独立,且xi~Np(μi, Σi) ,i=1,2,⋯,n, 则对任意n个常数k1,k2,⋯,kn,有
n
ki xi
第三章 多元正态分布均值向量和协方差的检验
第三章多元正态分布均值向量和协方差的检验
1.基本思想和步骤
2.均值向量的检验
(1)分布:设且X与S相互独立,,则称统计量的分布为非中心分布
当时,称服从(中心)分布,记为
(2)转换为F分布:若且X与S相互独立,令,则
3.一个正态总体均值向量的检验
(1)协差阵已知,检验统计量为
(2)协差阵未知,检验统计量为
4.两个正态总体均值向量的检验
设为来自p维正态总体的容量为n的样本,
为来自p维正态总体的容量为m的样本,且两组样本相互独立
①针对共同已知协差阵,检验统计量为
②针对共同未知协差阵,检验统计量为
(2)协差阵不等
①针对n=m的情形,检验统计量为
②针对n≠m的情形,检验统计量为
5.多个正态总体均值向量的检验
(1)单因素方差分析:设k个正态总体分别为,从k个总体中取个独立样本,,假设H0成立,检验统计量为
其中,组间平方和为,组内平方和为,总平方和为,其中,
(2)若,则为X的广义方差,为样本广义方差
(3)Wilks分布:若且二者相互独立,
为Wilks统计量,分布为Wilks分布,简记为
(4)多元方差分析:检验统计量为
其中,,A为组间离差阵,E为组内离差阵,T为总离差阵,且T=A+E
6.协差阵的检验
(1)一个正态总体协差阵的检验:构造检验统计量
(2)多个协差阵相等的检验:构造检验统计量。
多元统计分析-第三章 多元正态分布
第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。
多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。
第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。
一、随机变量及概率分布函数 (一)随机变量随机变量是随机事件的数量表现,可用X 、Y 等表示。
随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(二)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。
设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)((Λ,2,1=k )称k k p x XP ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质: (1)0≥k p ,Λ,2,1=k(2)11=∑∞=k k p2、连续型随机变量的概率分布若随机变量X 的分布函数可以表示为dt t f x F x⎰∞-=)()(对一切R x ∈都成立,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。
正态分布 课件
;
• 特别地有:P(μ-σ<X≤μ+σ)= 0.6862 ;
• P(μ-2σ<X≤μ+2σ)= 0.9544 ;
• P(μ-3σ<X≤μ+3σ)= 0.9974 .
[答案] B
[解析] 仔细对照正态分布密度函数:f(x)= 21πσe-
(x-μ)2
2σ2 (x∈R),注意指数 σ 和系数的分母上的 σ 要一致,以及
正态分布
• 1.当样本容量无限增大时,它的频率分 布直方图 无限接近于 一条总体密度曲 线,在总体所在系统相对稳定的情况下, 总体密度曲线就是或近似地是以下函数的 图象:
• 其中μ和σ(σ>0)为参数.我们称φμ,σ(x)的图 象为 正态分布密度曲线,简称 正态曲线 .
• (4)曲线与x轴之间的面积为 1 ;
• (5) 当 σ 一 定 时 , 曲 线 随 μ 的 变 化而沿 x 轴 平移;
• (6)当μ一定时,曲线的形状由σ确定:σ越小,
曲线越“
瘦高”,表示总体的分布越
集中 ;σ越大,曲线越“
矮胖 ”,表示
总体的分布越 分散 .
• 4.若X~N(μ,σ2),则对任何实数a>0,概
率P(μ-a<X≤μ+a)=
称 性 得 P(3<X≤4) = P(6<X≤7) , 所 以
P(6<X≤7)=
=0.1359.
• [点评] 解此类题首先由题意求出μ及σ的
值,然后根据三个特殊区间上的概率值及
正态曲线的特点(如对称性,与x轴围成的 面积是1等)进行求解.
• [例5] 某年级的一次信息技术测验成绩近 似服从正态分布N(70,102),如果规定低于 60分为不及格,求:
03正态分布与医学参考值范围(医学统计学)
正态曲线下的面积分布有一定的规律
图3-3
图3-4
方差相等、均数不等的正态分布图示
2 1 3
3 1 2
正态方程的积分式(分布函数):
F(X)为正态变量X的累计分布函数,反映正态曲线 下,横轴尺度自-∞到X的面积,即下侧累积面积 。
Normal distribution
图3-5
图3-6
正态分布是一种对称分布,其对称轴为直线X=µ,即均 数位置,理论上:
µ±1σ范围内曲线下的面积占总面积的68.27% µ±1.96σ范围内曲线下的面积占总面积的95% µ±2.58σ范围内曲线下的面积占总面积的99% 实际应用中:
±1 S范围内曲线下的面积占总面积的68.27% ±1.96 S范围内曲线下的面积占总面积的95% ±2.58 S范围内曲线下的面积占总面积的99%
属异常,采用双侧界值;有些指标仅过大或者过 小为异常,采用单侧界值。
肺活量参考值范围
白细胞数参考值范围
血铅参考值范围
5. 选择适当的百分数范围 结合专业知识,根据研究目的、研究指标的性质、
数据分布特征等情况综合考虑。百分数范围的不同 将导致不同的假阳性率和假阴性率。
6. 选择计算参考值范围的方法
异常
正常
异常
异常
正常
双侧下限
双侧上限
单侧下限
正常
异常
单侧上限
例3-3 已知某地140名正常成年男子红细胞计数近似服 从正态分布, X =4.78×1012/L,S =0.38×1012/L, 估计该地正常成年男子红细胞计数95%参考值范围。
X z0.05 2S 4.78 1.960.38 4.04 , 5.52
《医学统计学》医统-第三章正态分布与医学参考值范围
• 近似正态分布资料可按正态分布法处理,因红细胞 计数值过大或过小均为异常,故应估计双侧95%参 考值范围:
X z 0 . 0 5 2 S 4 . 7 8 1 . 9 6 0 . 3 8 4 . 0 4 , 5 . 5 2
即该地正常成年男子红细胞计数的95%参考值范围 为4.04×1012/L~5.52×1012/L。
表3-2 某年某地100名正常成年人血铅含量(μg/dl)对数值频数表
对数组段
频数
累计频数
0.6~
4
4
0.7~
2
6
0.8~
5
11
0.9~
9
20
1.0~
12பைடு நூலகம்
32
1.1~
15
47
1.2~
18
65
1.3~
14
79
1.4~
12
91
1.5~
5
96
1.6~
3
99
1.7~1.8
1
100
合计
100
—
A
36
Medical reference range
P2.5~P97.5 P5
P95
99 X 2.58S X 2.33S X 2.33S P0.5~P99.5 P1 P99
A
33
Medical reference range 例3-3 已知某地140名正常成年男子红细胞计数近似服
从正态分布,X =4.78×1012/L,S =0.38×1012/L,
,求单侧95%上限值: l g 1 ( X 1 . 6 4 S ) l g 1 ( 1 . 2 1 . 6 4 0 . 2 4 0 6 ) 3 9 . 3 1 7 3 (μg/dl)
3.5正态分布
动 脑 思 考 探 索 新 知
设随机变量 ~ N (0,. 1) 由概率密度曲线的定义知道,任给
区间(-∞,a), P( a) 的值为下图中阴影部分的面积.
P(a b) 的值为下图中阴影部分的面积.因此,
动 脑 思 考 探 索 新 知
创 设 情 境 兴 趣 导 入
[145.5,148.5)
[148.5,151.5)
[151.5,154.5)
3 一 正 ̄
6 8 18 11 10
0.050
0.100 0.133 0.300 0.183 0.167
[154.5,157.5) 正 [157.5,160.5) 正正正 一 [160.5,163.5) 正正 ̄ [163.5,166.5) 正正
(2)该厂某一周加工该零件5000个,求直径在41~43 mm之间的
巩 固 知 识 典 型 例 题
零件的大约个数.
解
故 (1)因为 40, 2,
P(41 ≤ ≤ 43) ( 43 40 41 40 ) ( ) 2 2 (1.5) (0.5) 0.2417.
1) 0, 1 的正态分布叫做标准正态分布,即 ~ N (0,.
标准正态分布的密度函数为
动 脑 思 考 探 索 新 知
f ( x)
1 2π
e
x2 2
,( x )
相应的曲线叫做标准正态分布曲线(如图).
设随机变量 ~ N (0,. 1) 由概率密度曲线的定义知道,任给
时,曲线逐渐降低,呈现"中间高,两边低"的形状;
动 脑 思 考 探 索 新 知
第三章 正态分布与抽样分布
图3-5 正态分布的概率
关于正态分布,有几个概率应记住: 关于正态分布,有几个概率应记住: 一般正态分布: 一般正态分布:
P(µ-1.96σ≤x<µ+1.96σ)=0.95 1.96σ≤x<µ+1.96σ)= )=0.95 P(µ-2.58σ≤x<µ+2.58σ)=0.99 2.58σ≤x<µ+2.58σ)= )=0.99 P(µ-σ≤x<µ+σ)=0.6826 σ≤x<µ+σ)= )=0.6826 P(µ-2σ≤x<µ+2σ)=0.9545 2σ≤x<µ+2σ)= )=0.9545 P(µ-3σ≤x<µ+3σ)=0.9973 3σ≤x<µ+3σ)= )=0.9973
对于大样本资料,常将样本标准差S 对于大样本资料,常将样本标准差S 与样本均数配合使用,记为 X ± S ,用 与样本均数配合使用, 以说明所考察性状或指标的优良性与稳 定性。对于小样本资料, 定性。对于小样本资料,常将样本标准 误 SX 与样本均数 X 配合使用,记 配合使用, 为 X ± S ,用以表示所考察性状或指 标的优良性与抽样误差的大小。 标的优良性与抽样误差的大小。
学上已证明 总体的两个参数与x总体的两 总体的两个参数与x 个参数有如下关系: 个参数有如下关系:
µx = µ
σx =
σ
n
表 X 的抽样分布形式与原总体X分布形式的关系 的抽样分布形式与原总体X
2.2 均数标准误
均数标准误 σx = 的大小反映样本均数 X n 抽样误差的大小 标准误大, 的大小。 的抽样误差的大小。标准误大,说明各样本均 间差异程度大;反之,亦然。 数 X 间差异程度大;反之,亦然。 在实际工作中,总体标准差σ往往是未知的, 在实际工作中,总体标准差σ往往是未知的, σx 此时,可用样本标准差S 因而无法求得 。此时,可用样本标准差S估 S 于是, 计σ 。于是,以 估计 n 。记σx 为 n, S SX 称作样本标准误或均数标准误。 称作样本标准误或均数标准误。 是均数抽样 SX 误差的估计值。 误差的估计值。
第三章 多元正态分布
作业
P.91 3.6
x
2
x1 和x2 的边际密度分别是
2 1 1 x1 1 f1 ( x1 ) exp 2 1 2 1 2 1 1 x2 2 f 2 ( x2 ) exp 2 2 2 2
第三章 多元正态分布
多元正态分布是一元正态分布在多元情形下 的推广,是多元统计中最重要的一个分布,多 元分析中的许多理论都是建立Байду номын сангаас多元正态分布 的基础上。
3.1多元正态分布的定义
一元回顾
定理
f X h( y) h( y ) , y , fY ( y ) 0, 其它, 其中 min(g (), g ()), max(g (), g ()), h( y )是 g ( x) 的反函数。
x1 x x , 2
1 , 2
是 x1和 x2 的相关系数。由于 易见, 故当 1 时, 0,这时有
12 1 2 2 2 1 2
2 12 2 (1 2 ),
3.2多元正态分布的性质
例子
3.3极大似然估计及估计量的性质
一、样本的联合分布概率密度
和 的极大似然估计 二、
三、相关系数的极大似然估计
简单相关系数
和 四、 的极大似然估计的性质
3.4 x 和(n 1)S 的抽样分布
一、x 的抽样分布
(n 1) S 的抽样分布 二、
2 x1 1 1 1 f ( x1 , x2 ) exp 2 2 ( 2 1 ) 21 2 1 1
5.1 第三章 常用概率分布10.14
相等。
设有一个总体 ,总体平均数为 μ,方差为σ2,总 体中各变数为 x, 将 此总体称为原总体。现从这个 总体中随机抽取含量为n的样本,样本平均数记为 。 可以设想,从原总体中可抽出很多甚至无穷多个 x 含量为n的样本。由这些样本算得的平均数有大有小, 不尽相同,与原总体平均数μ相比往往表现出不同程 度的差异。这种差异是由随机抽样造成的 ,称为 抽 样误差(sampling error)。 显然,样本平均数也是一个随机变量,其概率分 布叫做样本平均数的抽样分布。由样本平均数构成的 总体称为样本平均数的抽样总体。
由(4-11) 式及正态分布的对称性可推出 下列关系式, 再借助附表1 , 便能很方便地 计算有关概率:
P(0≤u<u1)=Φ(u1)-0.5
P(u≥u1) =Φ(-u1)
P(|u|≥u1)=2Φ(-u1)
P(|u|<u1==1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
【例4.6】 已知u~N(0,1),试求: (1) P(u<-1.64)=?
P(|u|≥1.96)=1-0.95=0.05
P(|u|≥2.58)=1-0.99=0.01
(二)一般正态分布的概率计算
正 态 分 布 密度曲线和横轴围成的一个区
域,其面积为1,这实际上表明了“随机变量x
取值在-∞与+∞之间”是一个必然事件,其概
率为1。
若随机变量 x服从正态分布N(μ,σ2),则x
即大数定理
x2 2. 若随机变量x服从平均数是 μ,方差是 σ2的分布(不是正态分布); x1, x 2 ,…, x n 是 x 由此总体得来的随机样本,则 统 计 量 x =Σx/n的概率分布,当n相当大时逼近正态分 布N(μ,σ2/n)。这就是中心极限定理。
4.第三章 正态分布及其应用(第3次课)
正态分布及其应用课件下载Email:yixuetjx@ 密码:000000变异指标小结1.极差较粗,适合于任何分布;2.四分位间距比极差稳定,但仍未考虑每个观察值的变异。
常用于:①偏态分布资料; ②分布不明;③分布末端无确切值;3.标准差与均数的单位相同,最常用,适合于近似正态分布;4.变异系数主要用于单位不同或均数相差悬殊资料;5.平均指标和变异指标分别反映资料的不同特征,常配套使用。
如正态分布:均数、标准差;偏态分布:中位数、四分位间距正态分布及其应用(Normal distribution)一. 正态分布的概念和特征二. 正态曲线下面积的分布规律三. 标准正态分布的性质四. 正态分布的应用【学习要求】¾掌握正态分布的概念、图形特征、¾掌握u转换的思想及方法,其图形的面积规律及求法。
¾掌握医学参考值范围的求法。
在医学卫生领域中,许多变量的频数分布是中间(靠近均数处)频数多,两边频数少,且左右对称。
如人体的尺寸、许多生化指标等。
等。
这种变量的频数分布规律可用概率论中的一种重要的随机变量分布—正态分布(Normal distribution)加以描述。
一.正态分布的概念和特征1.正态分布的概念正态曲线( normal curve):是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。
若变量x 的频率曲线对应于数学上的正态分布曲线,则称该变量服从正态分布。
二.正态密度函数曲线下的面积规律③曲线下在区间(μ-σ,μ+σ)的面积为68.27%,曲线下在区间(μ-1.96σ,μ+1.96σ)的面积为95.00%,曲线下在区间(μ-2.58σ,μ+2.58σ)的面积为99.00%。
三、标准正态分布实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。
对于不同的参数μ和σ会产生不同位置、不同形状正态分布,(x1,x2)范围内的面积也不同,计算起来很麻烦。
3章 正态分布与医学参考值范围
u
19
标准正态分布(累积)分布函 数为:
(u )
u
-
1 e 2
u2 2
du
20
对于任何参数μ和σ的正态分布,都可以通过一个简单 的变量变换化成标准正态分布,即:
u
X
标准化
21
X1
u
X
u1
为了方便,统计学家编制了标准正态分布曲线下面
积分布表,通过查表可以得到u值左侧的面积。
(C.F.Gauss,1777-1855)
2
值广为人知。
高斯的肖像已经被印在从1989年至 2001年流通的10德国马克的纸币上。
3
一、正态曲线
图2-1
图3-1
图3-2
某地正常成年男子红细胞数的分布情况
4
正态曲线:是一条高峰位于中央,两侧逐渐下降并
完全对称,曲线两端永远不与横轴相交的钟型曲线。
-3
-2 -
+ +2 +3
-4
-3
-2
-1
0
1
2
3
4
10
正态曲线下的面积规律
1-S(- , +)=0.3174 1-S(-2 , +2)=0.0456 1-S(-3 , +3)=0.0026
-3
-2 -
+ +2 +3
-4
-3
28
第二节 医学参考值范围
一、医学参考值范围的概念
医学参考值范围(reference value range):指
正常人体的解剖、生理、生化、免疫及组织代谢产物 的含量等各种数据的波动范围。
第三章正态分布
第三章 正态分布一、教学大纲要求(一) 掌握内容1.正态分布的概念和特征 (1)正态分布的概念和两个参数; (2)正态曲线下面积分布规律。
2.标准正态分布标准正态分布的概念和标准化变换。
3.正态分布的应用 (1)估计频数分布; (2)制定参考值范围。
(二) 熟悉内容 标准正态分布表。
(三) 了解内容1.利用正态分布进行质量控制 2.正态分布是许多统计方法的基础二、教学内容精要(一)正态分布 1.正态分布若X 的密度函数(频率曲线)为正态函数(曲线)2.正态分布的特征服从正态分布的变量的频数分布由μ、σ完全决定。
(1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以x μ=为对称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于μ。
(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。
σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
(二)标准正态分布1.标准正态分布是一种特殊的正态分布,标准正态分布的0=μ,12=σ ,通常用u(或Z )表示服从标准正态分布的变量,记为u ~N (0,21)。
2.标准化变换:σμ-=X u ,此变换有特性:若X 服从正态分布),(2σμN ,则u 就服从标准正态分布,故该变换被称为标准化变换。
3. 标准正态分布表标准正态分布表中列出了标准正态曲线下从-∞到u 范围内的面积比例()u Φ。
(三)正态曲线下面积分布1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。
不同),(21X X 范围内正态曲线下的面积可用公式3-2计算。
)()(2112)22(2)(21u u dx eD X X X Φ-Φ==--⎰σμπσ (3-2)1212X X u u μμσσ--==其中, , 。
2.几个重要的面积比例X 轴与正态曲线之间的面积恒等于1。
医学统计学第3讲正态分布
86
146
百分
35.98326
61.08787
194 位数法 81.17155 212 实例 88.70293 228 234 95.39749 97.90795 98.32636
17~
19~21
111 2 239 0 95% 212 1 12.88 μ 235 P95 mol/kg 16 1 0 1 236 2 120 1 119 3 239 239 -
制定参考值范围
参考值范围又称正常值范围,医学上是指 绝大多数正常人的某指标值所在的范围。 参考值范围的意义
划分正异常
制定步骤
1. 2. 3. 4. 5. 6. 从“正常人”总体中抽样:明确研究总体 控制检测误差 判断是否需要分组(如性别、年龄)确定 根据专业知识决定单侧还是双侧 选择百分界值 确定可疑范围
单侧上限---过高异常 双侧---过高、过低均异常
单侧下限---过低异常
异常
正常
正常
异常
异常
正常
异常
单侧下限
单侧上限
双侧下限
双侧上限
正常人与病人的数据分布重叠示意图(单侧)
正常人
假阴性 病人 假阳性
正常人与病人的数据分布重叠示意图(单侧)
正常人
假阴性率 病人 假阳性率
正常人与病人的数据分布重叠示意图(双侧)
N(, 2)
N(0,1)
0.6 0.5
f (X )
N (1,0.8 )
2
0.4 0.3 0.2 0.1 0
N (0,1 )
N (1,1.2 )
2
2
-4
-3
-2
-1
0
1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
u
u指单侧U界值,也称
随机变量U的上侧α 分 位数。其意义为:从u 到+∞这一侧的面积为 α。
u/2
u/2 指双侧U界值,也
称随机变量U的双侧α 分位数。其意义为:从 u/2 到+∞这一侧的面 积为α /2,从-∞到-u/2 这一侧的面积也为α /2, 两侧面积之和为α 。
1.3 正态分布曲线及其面积分布
图3-8 两尾概率
图 正态分布两尾概率
对于标准正态分布,其两尾概率为: P(∣u∣≥1.96)=0.05 P(∣u∣≥2.58)=0.01
图 标准正态分布两尾概率
图 标准正态分布两尾概率
标准正态分布,其单尾概率为
图 标准正态分布单尾概率
图 标准正态分布单尾概率
图 正态分布与标准分布的概率
例如 x在(μ -1.96σ ,μ +1.96σ )之外取值的两尾概率 为0.05,而一尾概率为0.025。即: P(x<μ -1.96σ )=P(x>μ +1.96σ )=0.025
图
正态分布两尾概率
同理,x在(μ-2.58σ,μ+2.58σ)之外取值的两尾概率为0.01, 而一尾概率为0.01。即: P(x<μ-2.58σ)=P(x>μ+2.58σ)=0.01。
第三章 正态分布
正态分布的概念 • 正态分布的通俗概念: 如果把数值变量资料编 制频数表后绘制频数分布图(又称直方图,它用 矩形面积表示数值变量资料的频数分布,每条直 条的宽表示组距,直条的面积表示频数(或频率 )大小,直条与直条之间不留空隙。),若频数 分布呈现中间为最多,左右两侧基本对称,越靠 近中间频数越多,离中间越远,频数越少,形成 一个中间频数多,两侧频数逐渐减少且基本对称 的分布,那我们一般认为该数值变量服从或近似 服从数学上的正态分布。
N(μ1 ,σ2)、N(μ2 ,σ2)
max
f(x)
0
µ1 µ2
在μ不变的情况下,函数曲线位置不变,若σ变大 时,曲线形状变的越来越“胖”和“矮”;若σ变 小时,曲线形状变的越来越“瘦”和“高”,故 称σ为形态参数或变异度参数。
N(μ,0.52)、N(μ,12)、N(μ,22)
σ =0.5
f(x)
σ =1 σ =2
0
µ
(4)正态分布概率密度曲线与横轴围成
的区域的总面积等于1。
1.2 标准正态分布
参数μ=0,σ2 =1时的正态分布称为 标准正态分布。一般地,若随机变量 X~N(μ,σ2),则都可以通过标准化 转换:u=(x-μ)/σ,将X 转化为标准 正态变量U(U的取值为u ),记为 U ~N(0,1)。
标准正态分布的概率密度函数为
(u )
1
1 2
e
u2 2
(-≦<u<+≦)
标准正态分布的概率分布函数为:
(u )
2
u
e
u2 2
du
(-∞<u<+∞)
图 正态分布与标准正态分布的面积与纵高
标准正态分布曲线 的纵坐标与面积关 系图
即纵坐标从-∞移到u所对应区域的面积为上图红色区域 面积的大小,这样一个区域的面积我们用Ф(u)表示,可通 过查标准正态分布曲线面积分布表得到Ф(u)的大小。 u值查表所对应的面积是区间(-∞,u)所对应的面积,即 Ф(u)。 若u=-1.96,那么Ф(-1.96)则表示从-∞移到-1.96所对应 区域的面积,通过查标准正态分布曲线面积分布表得到 Ф(-1.96)=0.025。
正态分布密度曲线和横轴围成的整个区域面积为1,随机 变量x在(-∞,+∞)之间取值,是一个必然事件,其 概率为1。若随机变量x服从正态分布N(μ ,σ 2),则x的 取值落在任意区间[x1,x2)的概率,记作:P(x1≤x<
x2),等于下图中阴影部分的面积。
图 正态分布的概率
• 在正态曲线下,μ±1σ、μ±1.96σ和 μ±2.58σ所对应的面积分别为0.6827、 0.9500和0.9900。
以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态 分布。 • 频数分布表:
某地 13 岁女孩 118 人的身高(cm)资料频数分布 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
160.5
身高(cm)
某地13岁女孩118人身高(cm)频数分布图
频数分布图二
20
频数
10
0
身高(cm)
某地13岁女孩118人身高(cm)频数分布图
频数分布图三
14 12
10
8
频数
6
4
2 0
身高(cm)
某地13岁女孩118人身高(cm)频数分布图
1 正态分布
1.1 正态分布的定义及其特征 正态分布的定义:若连续型随机变量X的概 率密度函数为
关于正态分布,有几个概率应记住:
一般正态分布:
P(μ-σ≤x<μ+σ)=0.6826
P(μ-1.96σ≤x<μ+1.96σ)=0.95 P(μ-2.58σ≤x<μ+2.58σ)=0.99
标准正态分布:
P(-1≤u<1)=0.6826
P(-1.96≤u<1.96)=0.95 P(-2.58≤u<2.58)=0.99
1
2
x
e
(t ) 2
2
2
dt
正态分布的特征
(1)正态分布曲线 位于横轴上方,呈钟 形。
f(x)
max
(2)正态分布曲线 以均数所在处最高, 且以均数为中心左右
0
µ
对称。
(3)正态分布曲线由两个参数决定,即总体均数μ 和总体标准差σ。 在σ不变的情况下,函数曲线形状不变,若μ变大 时,曲线位置向右移;若μ变小时,曲线位置向左 移。故称μ为位置参数。
f x
1 2
e
1 2
2 x 2
x
则该随机变量服从正态分布。 其中,σ>0,μ、σ均为常数,则称随机 变量X服从参数为μ和σ2的正态分布,记作 X ~N (μ,σ2 )。
图
正态分布密度函数曲线
其正态分布的概率分布函数为:
F ( x)
频数分布图一(又称直方图 )
30
20
从频数表及频数分布图上可得 知: 该数值变量资料频数分 布呈现中间频数多,左右两侧 基本对称的分布。所以我们通 俗地认为该资料服从正态分布 。
频数
10 0 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5
154.5
157.5