第3节 常用统计分布(三个常用分布)
三大分布--超几何分布
其中 N=100 , n=3, M=5
故 P(X k)
即X的分布列为
C5k
C 3 95
k
C3 100
(k
0,1, 2, 3)
X
0
C
50C
3 95
P
C3 100
1
C51C925 C3
100
2
C52C915 C3
100
3
C53C905 C3
100
为何不计算出具体的数值?
操作量太大,故省去 不可模仿!
①加法公式 P(A B) P(A) P(B) P(AB) 注:若A,B互斥,则有 P( A B) P( A) P(B)
②乘法公式 P(AB) P(A)P(B | A) P(B)P(A | B) 注:若A,B独立,则有 P( AB) P( A)P(B)
③和积互补公式 P(A1 A2 An ) 1 P(A1 • A2 • • An ) 注:若A,B对立,则有 P( A) P(B) 1,反之则不然 ④对偶律 P(A• B •C) P(A B C) P(A• B •C) P(A B C)
体现了总体的稳定性波动性pnb?2??dabad??若则随机变量期望与方差常用的公式及性质aae?0?ad????eee?22???eed??2n???nmnh?pg?1pnpdnpe?????p121pp?2??????de1???nnnmnnnnmbaebae?????若则若则若则????de????dnnme????eee???11若若相互独立则随机变量期望与方差的求法1
故
应有 k=0,1,2,3,4 ,但显然有 k=1,2,3,4
(允4许).不(2同0是1协5否年会天服的津从运)超动为员推几组动何队乒分参乓布加球?.运现动“有的避来发自而展甲不,协某论会乒”的乓!运球动比员赛 3名,其中只种用子不选说手,2名蒙;乙头协发会大的财运…动…员5名,其中种子选手
数据分析-分布类别
数据分析-分布类别数据分析是一门应用统计学和信息技术手段来对数据进行分析、解释和预测的学科。
数据分析可以帮助我们发现数据中的规律和趋势,从而支持决策和解决问题。
在数据分析中,分布是一种重要的统计概念。
分布描述了数据的频率分布情况,可以用来揭示数据的集中趋势和离散程度。
本文将从不同类型的分布入手,讨论它们的特点和应用。
首先,我们来讨论常见的离散分布。
离散分布主要用于描述离散型数据的频率分布情况。
其中最常见的是二项分布和泊松分布。
二项分布是描述二分类试验的结果,比如抛硬币、投骰子等。
它的特点是结果只能是成功或失败,并且每次试验的成功概率相同。
泊松分布则常用于描述单位时间内事件发生次数的概率分布,比如一天内接到的电话数量、网站每小时的访问量等。
离散分布的研究可以帮助我们预测和规划未来的事件发生。
接下来,我们讨论连续分布。
连续分布用于描述连续型数据的概率分布情况。
最常见的连续分布是正态分布。
正态分布是自然界和社会现象中最常见的一种分布,例如身高、体重、考试成绩等。
正态分布的特点是呈钟形曲线,均值和标准差可以完全决定分布的形态。
正态分布的研究可以帮助我们了解各种现象的普遍规律。
除了常见的分布类型,还有其他一些特殊的分布。
例如,指数分布用于描述连续事件的间隔时间,如等待的时间、失效的时间等。
对数正态分布用于描述正态分布取对数后的分布情况,例如收入、房价等。
这些特殊的分布在实际问题中也有重要的应用,可以帮助我们更好地理解和分析现象。
在实际应用中,分布的分析对于数据的合理解读和判断至关重要。
通过对某一现象的分布分析,我们可以了解其集中趋势、离散程度、对称性等特征。
在决策和解决问题时,我们可以根据分布的特点采取相应的措施。
例如,对于一个右偏分布(即正态分布的尾部向右延伸),我们可以采取措施加强对极端值的防范和管理。
因此,掌握各种分布的特点和应用,对于数据分析工作至关重要。
最后,我们需要注意数据分析中对于分布的合理假设和验证。
五个数据分布类型及实例 -回复
五个数据分布类型及实例-回复数据分布是指数据在整体上呈现出的规律或特征。
不同的数据集可能呈现出不同的分布类型,而了解和理解这些分布类型可以帮助我们更好地分析和解释数据。
本文将介绍五种常见的数据分布类型,并提供实例来帮助读者更好地理解这些概念。
第一种数据分布类型是正态分布,也被称为高斯分布。
正态分布是统计学中最常见的分布类型之一,它的形状呈现出钟形曲线。
在正态分布中,平均值、中位数和众数都是相等的,且曲线关于平均值对称。
一个典型的正态分布的例子是身高分布。
在一个大样本中,大多数人的身高都聚集在平均值附近,然后逐渐减少,直到达到极端的身高。
这个分布通常受到遗传、环境和营养等多种因素的影响。
第二种数据分布类型是偏态分布,也被称为斜态分布。
在偏态分布中,数据的分布形成一个长尾,其中一个尾部更长或更重,使曲线形状不对称。
一个例子是收入分布。
在许多国家和地区,大多数人的收入聚集在较低的水平上,而只有少数人的收入非常高。
这导致了偏态分布,其中大部分数据集中在左侧,右侧的数据则呈现出较长的尾巴。
第三种数据分布类型是均匀分布,也被称为矩形分布。
在均匀分布中,数据在整个范围内的出现频率是相等的,没有明显的高点或低点。
一个例子是掷骰子的结果。
假设我们投掷一个公正的六面骰子,每个面的结果出现的概率相等。
在大量的掷骰子试验后,每个面的出现频率将趋近于相等,这意味着结果呈现出均匀分布。
第四种数据分布类型是二项分布,用于描述在一系列独立的是/非实验中的成功次数。
二项分布是离散性的,其形状由两个参数决定:成功的概率和试验次数。
一个实例是硬币的正面朝上概率。
假设我们有一个公正的硬币,进行了10次独立投掷的实验,我们想知道正面朝上的次数。
这种情况下,我们可以使用二项分布来描述正面朝上次数的分布。
第五种数据分布类型是泊松分布,用于描述一段时间或空间内某事件发生的次数。
泊松分布是离散分布,它的形状由一个参数决定,即事件的平均发生率。
一个例子是某地区每小时发生的交通事故次数。
统计学第3章数据分布特征描述
3.分析现象之间的依存关系。 如研究劳动者文化程度与收入的关系。
4.(数值)平均指标是推断统计中的重要 统计量,是进行统计推断的基础。
几种常见的位置特征数
N
MH
N
i 1
1
1 xi
wi
wi
i 1
N
i 1
1 xi
wi
N
wi
i 1
MH
1 N1
N N1
i1 xi i1 xi
N
k0:几何平均数 加权
N
M G i 1w i x 1 w 1x2 w 2 xN w N
简单
M G N x 1x 2 x N
fi
i1
i 1(xifi)254 674 58 012 1110 % 01.7 1%
n(xifi) i1 xi
1 2% 6 56 1 4% 0 75 1 4% 2 80 10350
(四)几何平均数(Geometric mean)
简单几何平均数— n个变量值连乘积的n次方根。
n(xi x)2 min
i1
性质(3)证明:
(三)调和平均数(Harmonic mean)
调和平均数,也称倒数平均数。 各变量值倒数(1/xi)的算术平均数的倒数。 计算公式为:
n
xHx11m1x12m12... x1nmn
m1m2... mn
m1m2 ... mn
与单项式分组资料一样,采用加权算术平均数计算。
第三章统计分布的数值特征
=1.02439元/斤
3*(1/1.5+1/0.7+1/1.2)
某超市香蕉,梨,苹果某日的销售价格见表
水果 销售 销售额 名称 价格
H
香蕉 1.5 梨 0.7 苹果 1.2 合计 -
4500 3500 7200 15 200
= 销售总额 ( m) 销售量 ( m) x
=
15200 14000
= 1.0857 (元 斤)
样,调和平均数有简单调和平均数和加权调和平均数两 种。
1、简单调和平均数
计算公式:
H=
N
1+ 1 +
x1 x2
=N
+1 xn
1 xi
应用条件:资料未分组,各个变量值次数都是1。
例:一个人步行两里,走第一里时速度为每小时
10里,走第二里时为每小时20里,则平均速度为:
2、加权调和平均数
计算公式:
H
=
8%、第6年至第8年为10%、第9年至第10年12%,
计算平均年利率
设本金为 x0
年份
累计存款额
本利率%
第1年 x0 + x0 5% = x0105%
105%
第2年 x0105% + x0105%5% = x0105%2
105%
第3年 x0105%2 + x0105%28% = x0105%2108% 108%
1.2
2
2.8
1
1.5
1
5.5
4
课堂练习:
某水泥生产企业1999年的水泥产量为100万 吨,2000年与1999年相比增长率为9%, 2001年与2000年相比增长率为16%,2002 年与2001年相比增长率为20%。求各年的 年平均增长率
数学分布类型
数学分布类型
1. 均匀分布
在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。
均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
2. 正态分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。
其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
当μ = 0,σ = 1时的正态分布是标准正态分布。
3. t分布
在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。
如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
t分布曲线形态与n(确切地说与自由度df)大小有关。
与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。
第3章 常用概率分布(田间试验与统计分析 四川农业大学)
P(“至少1粒种子出苗”) = P(x=1)+P(x=2)+…+P(x=6) = C610.6710.335 C62 0.6720.334 C66 0.6760.330 = 0.0157+0.0799+0.2162 +0.3292+0.2672+0.0905 = 0.9987
二项分布的应用条件:
在统计学上,把小概率事件在一次试验中 看成是实际不可能发生的事件称为小概率事件 实际不可能性原理,亦称为小概率原理(small probability principle)。
小概率事件实际不可能性原理是统计学上 进行假设检验(显著性检验)的基本依据。
第二节 概率分布
事件的概率表示了一次试验某一个结果发生的 可能性大小。
标准正态分布的概率密度函数及分布函数分别 记作ψ(u)和Φ(u)。
(u)
1
u2
e2
2
(u) 1
u 1u2
e 2 du
2
u~N(0,1)
对于任何一个服从正态分布N(μ,σ2)的随 机变量x,都可以通过标准化变换:
u x
将其变换为服从标准正态分布的随机变量u。
一、正态分布的定义及其特征
(一) 正态分布的定义 若连续型随机变 量 x 的概率分布密度函数为
其中μ为平均数,σ2为方差,则称随机变量 x 服从正 态分布(normal distribution) , 记为x~N(μ, σ2)。
相应的概率分布函数为:
F(x) 1
e dx x
(
x) 2 2
对于样本是取自连续型随机变量的情况,这 条函数曲线将是光滑的。这条曲线排除了抽样和 测量的误差,完全反映了水稻行产量的变动规律。 这条曲线叫概率分布密度曲线,相应的函数叫概 率分布密度函数 。
概率统计讲课稿第七章第三节(下)t分布F分布)
第七章第三节(下)t 分布和F 分布三、t 分布定理 设随机变量)1,0(~N X ,)(~2n Y χ,且X 与Y 相互独立, 则随机变量X T =的概率密度为212)1()2()21()(+-+Γ+Γ=n n t n n n t f π, +∞<<∞-t , (7.5)称T 服从自由度为n 的t 分布, 记作)(~n t T .证明 X 的概率密度是2221)(x Xe xf -=π,Y 的概率密度)(y f Y由式(7.3)给出,Y X ,的联合概率密度是)(2122v f e Yu ⋅-π, 于是)X X xP x P ≤=≤22()u Y e f v dudv-=⎰⎰作变量替换:u =,v s =,它的雅可比行列式是 tv sv t u su J ∂∂∂∂∂∂∂∂===,于是dtds es nx nY X p s n xt t n n ⎰⎰>≤+--Γ=≤0)1(212122)2(221)/(π211(1)2201()22()2n t s dts e ds n ∞--+-∞=⋅⋅⎰21(1)2()2n t zodt zedz n ∞-+-∞=⋅⎰,由于⎰∞+++--++Γ=0212)1(21)1()21(2n zt n t n dz ez , 所以⎰∞-++⋅Γ+Γ=≤xn dunu n n n x nY X P 212)1(1)2()21(}/{π上式两边对x 求导,即得式(7.5).212)1()2()21()(+-+Γ+Γ=n nn t n n n t f π 212)1(+-+=n nntC ,21221222])1[()1(lim lim +⋅-+∞→+-+∞→+=+n n t t n n n n ntnt22t e -=, dt ntC dt t f n n n212)1()(1+-∞+∞-∞+∞-+==⎰⎰,dt nt C n nn 212)1(1lim +-∞+∞-+∞→+=⎰⎰∞+∞-+-+∞→+∞→+⋅=dt nt C n n n n 212)1(lim lim⎰∞+∞--+∞→⋅=dt e C t nn 22lim π2lim ⋅=+∞→nn C ,π21lim =+∞→nn C ,)(lim t f nn +∞→212)1(lim +-+∞→+=n nn ntC2221t e -=π.图7-2给出了当n=1,4,10时的t(n)分布的密度函数曲线,它的图形关于t=0对称, 且当n →+∞时,有2221)(lim t nn e t f -+∞→=π,故当n 很大时,t 分布近似于N(0,1).然而对于比较小的n 的值,t 分布与正态分布之间有较大的差异.dt t f x T P x F x )(}{)(⎰∞-=≤=, 0)()(>='x f x F , )(x F 严格单增,)1,0(),(:→+∞-∞F 是一一对应, 对给定10:<<αα,存在唯一)(n t α,使得αα=))((n t F ,即对于给定的10:<<αα,可查t 分布表(见附录三)求出 )(n t α, 满足=))((n t F αααα==≤⎰∞-)()()}({n t dt t f n t T P ,的点)(n t α称为t 分布的(下侧)α分位点.t 分布的分位点的性质:由)(t f 的对称性, 即)(t f 是偶函数,可得,1)()(=+-x F x F 21)0(=F ,(1) )()(1n t n t αα-=-, αα-=≤-1)}({1n t T P ,αα=>-)}({1n t T P(2) 数12()tn α-,满足21)}({21αα-=≤-n t T P ,则12{||()}1P T tn αα-≤=-;αα=>-)}(|{|21n t T P ,称)(2/1n t α-为双侧α分位点.当n>45时,t 分布表中没有列出,此时可查标准正态分布表,得αz , 且有ααz n t ≈)( .例5 设1232,,,X X X L 为来自于正态总体)4,(2μN 的样本,令 ∑∑==--=32172161)()(j ji iX X Y μμ,求Y 的分布。
数的概率分布
数的概率分布概率分布是概率论中重要的概念之一,用于描述一个随机变量取值的可能性。
在数学和统计学领域里,数的概率分布研究了在特定情况下数值出现的概率。
本文将介绍数的概率分布的基本含义、常见的概率分布类型以及其在实际应用中的重要性。
一、概率分布的基本定义概率分布是随机变量的可能取值及其对应概率的描述。
随机变量可以是离散型变量或连续型变量。
离散型变量的取值有限且可数,如掷骰子的点数;连续型变量的取值为无限个且不可数,如人的身高。
概率分布描述了随机变量每个取值的概率。
二、常见的概率分布类型1. 离散型概率分布离散型概率分布用于描述随机变量为离散型的情况。
以下是几种常见的离散型概率分布:(1)伯努利分布伯努利分布是一种简单的离散型分布,常用于描述试验只有两个可能结果的情况,如硬币的正反面。
(2)二项分布二项分布是描述n次成功失败试验的离散型分布,例如n次掷硬币中正面朝上的次数。
(3)泊松分布泊松分布用于描述单位时间内随机事件发生的次数,如单位时间内电话呼叫次数、交通事故发生次数等。
2. 连续型概率分布连续型概率分布用于描述随机变量为连续型的情况。
以下是几种常见的连续型概率分布:(1)均匀分布均匀分布描述了在一个区间内随机取值时,每个取值的概率相等,如抛硬币的落点在一个平面上的坐标。
(2)正态分布正态分布是最常见的连续型概率分布之一,也称为高斯分布。
它以钟形曲线为特征,广泛应用于自然和社会科学领域,如身高、体重等。
(3)指数分布指数分布用于描述事件发生的时间间隔或等待时间,如设备故障发生的时间间隔、用户等待的响应时间等。
三、概率分布在实际应用中的重要性概率分布在实际应用中具有重要的作用,主要体现在以下几个方面:1. 预测和决策通过分析和建模某个事件或现象的概率分布,可以对未来可能的结果进行预测。
例如,在金融领域中,通过对股票收益率的概率分析,可以帮助投资者做出决策。
2. 风险评估概率分布可以用于评估风险。
在保险行业中,通过对保险索赔次数或大小的概率分析,可以估算保险公司的风险,并确定合理的保费。
第3节 常用统计分布(三个常用分布)
例2
设X
~
N
(
,
2
),
Y
2
~
2 (n),且X ,Y相互独立,
试求 T X 的概率分布.
Yn
解 因为X ~ N(, 2),所以 X ~ N(0,1)
又Y
2
~
2 (n),且X ,Y独立,则
X
与Y
2
独立,
由定理得
T (X ) / X ~ t(n) (Y / 2) / n Y n
n
事实上,它们受到一个条件的约束:
Xi nX
i 1
n
i 1
Xi
X
1
n
(
i 1
Xi
nX )
1
0
0.
例1
设X1 ,
X 2 ,
,
X
为
6
来
自
正
态
总
体N
(0,1)的
一
组
样
本,
求C1
,
C
使
2
得
Y C1( X1 X 2 )2 C2( X 3 X4 X5 X6 )2
服 从 2分 布.
解
X1
2
4
则C1 1 2 ,C2 1 4 .
3. t 分布 定义 设 X ~ N (0, 1), Y ~ 2 (n), 且 X , Y
独立,则称随机变量 T X 服从自由度为 n Y /n
的 t 分布, 记为T ~ t(n).
t 分布又称学生氏(Student)分布. t(n) 分布的概率密度函数为
2. 2分布(卡方分布)
定义、设 X1, X 2 ,L , X n 相互独立,同服从 N (0, 1)
医学统计学3. 正态分布及应用
例习题3-1题
130名健康成年男子脉搏资料的均数、标准差分 别为:71.32与5.80 (次/分);问在正态分布假定下, 脉搏在65~75(次/分)之间有多少人?
Z1
65
71.32 5.80
1.09,该界值左侧面积为0.1379
Z2
75
71.32 5.80
0.63,该界值左侧面积为0.7357
肺活量参考 值范围
白细胞数参 血铅参考值范
考值范围
围
5. 选择适当的百分数范围 结合专业知识,根据研究目的、研究指标的性质、 数据分布特征等情况综合考虑。百分数范围的不同 将导致不同的假阳性率和假阴性率。
6. 选择计算参考值范围的方法 根据资料的分布类型,样本含量的多少和研究目 的等,选用适当的方法确定参考值范围。
过低异常 过高异常
过低异常过高异常
表 3-1 医学参考值范围的正态分布法和百分位数法计算公式
概率 (%) 双侧
正态分布法
单侧
下限
上限
百分位数法
双侧
单侧 下限 上限
90 X 1.64S X 1.28S X 1.28S
P5 ~ P95
P10
P90
95 X 1.96S X 1.64S X 1.64S
P2.5~P97.5 P5
Z=0.43,所对应左侧的面积 P=1-0.3336
Standard normal distribution 图3-7
0.07
f(X)
0.06
0.05
0.04
0.03
0.02
0.01
0 57 60 63 66 69 X 72 75 78 81 84
P(65 x 75) (0.43) (1)
大学数学统计篇之数理统计的基本概念——常用统计分布
例1 设 0.05, 求标准正态分布的水平 0.05 的上 侧分位数和双侧分位数.
解 由于
( u0.05 ) 1 0.05 0.95,
查标准正态分布函数值表可得
u0.05 1.645, 而水平 0.05 的双侧分位数为 u0.025 , 它满足: ( u0.025 ) 1 0.025 ቤተ መጻሕፍቲ ባይዱ.975,
正态分布, 故有
t ( n) u , t / 2 ( n) u / 2 .
一般当 n 45 时, t 分布 的位数可用正态近似. ② 设 t ( n ) 为 t ( n) 的上侧 分位数,则
P{T t ( n)} 1 , P {T t ( n)} ,
分布
2
t 分布
F 分布
一、分位数
设随机变量 X 的分布函数为 F ( x ), 对给定的实数
(0 1), 若实数 F 满足不等式
P { X F }
位数. (1)
则称 F 为随机变量 X 的分布的水平为 的上侧分 若实数 T / 2 满足不等式 P{ X T / 2 } 分位数. (2)
, x
(1)
f ( x ) 的图形关于 y 轴对称,且
lim f ( x ) 0 ; x
(2) 即有
当 n 充分大时,t 分布近似于标准正态分布,
1 lim f ( x ) e n 2
t 分布的分位数
2 x 2
,
但 n 较小时,两者相差较大;
(3) 对给定的实数 (0 1), 称满足条件
2 1 2 2
X X X X
2 1 2 2 2 m
几个常用的分布和临界值
7 2 P X i 4 i 1
解:∵总体为N(0,0.52) ∴Xi~N (0,0.52 ) i=1,2,…,7 Xi 0 1) 从而 0.5 2 X i ~ N (0,
2 (7) 由 分布定 有 ( 2 X i ) 4 X ~
2
7
2
7
i 1
自由度n是指(3.1)式右端的独立变量个数。
2
分布的概率密度为
n x 1 1 x2 e 2, n n f ( x ) 2 2 2 0,
x 0, 其它.
(3.2)
由第二章知, 分布密度函数f ( x)的图像:
2
n 1 分布的密度函数正是参数为2 , 2 的 分布。
t分布的概率密度函数 f ( x)的图像为:
f(x)
f ( x )的图形关于x 0 对称, 当n充分大时,图形接 近于标准正态变量概率密 度的图形.
x f(x)
m
n
m n
x
3. F分布
定义4 设X ~ (m), Y ~ (n), 且X , Y独立,则称随机变量 X /m (3.7) Y /n 服从自由度为m, n的F分布, 记为F ~ F (m, n).其中m称为第一自由 F 度,n称为第二自由度
1-α
t ( n)
t1 (n)
4.F分布的临界值
定义8 对于给定的正数 称满足条件 P{F F (m, n)}
F ( m , n )
f ( x)dx
的实数F (m, n)为F (m, n)分布的临界值. 如图所示:
F分布的临界值 有表可查(见附表5) .
二 几个重要分布的临界值
概率论常用统计分布
由定 5.8,有 义 T2X 2~F (1,n ). Yn
例5 设X ~ F (n, m)(n 4),试求EX 1, DX 1.
解 因为 X~F (n ,m ),所以
由F分布的性质知
所以得
X1~F(m,n)
EX1 n , n2
DX 1m n2((n2m2)22(n n44)).
二、概率分布的分位数
1. 定义
定义5.9 对 于 总 体 X 和 给 定 的 ( 0 1 ) ,
若存在 x , 使
P {Xx}
则x 称 为 X的分布 分 的位 .上数 侧
2. 常用分布的上侧分位数记号
分布 N(0,1) 记号 u
2(n) t(n) F(n1,n2) 2(n) t(n) F(n1,n2)
<3> T的数字特征
E(T)0, D (T) n (n2).
n2
例3 设总体X和Y相互独立,且都服从N(0,9)
X1, X2,, X9和Y1,Y2,,Y9来自总体X ,Y的样本,
求统计量T的分布,其中
9
9
T Xi / Yi2 .
i 1
i 1
解 从抽样分X布 ~N知 (0,1)
而 Y i~ N ( 0 , 9 ) 故 Y ,i/3 ~ N ( 0 , 1 ) ,
又 Y1X12X2与Y2X3X4 4X5X6
相互独立.
所以 (X1X2)2(X3X4X5X6)2
2
4
Y12Y22 ~ 2(2)
则 C 1 12,C 2 14.
2. t 分布
历史上,正态分布由于其广泛的应用背景 和良好的性质,曾一度被看作是"万能分布", 在这样的背景下,十九世纪初英国一位年轻 的酿酒化学技师Cosset. WS, 他在酒厂从事试验 数据分析工作,对数据误差有着大量感性的认 识,我们知道在总体均值和方差已知情况下,
医学统计学(课件)正态分布
CV舒张压
10.7 100% 77.5
13.8%
17.1
CV收缩压
100% 122.9
13.9%
第三章 正态分布及应用
一、正态分布(Normal Distribution)
f (X) 1.2 1
0.8
f (X) 1.2 1
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
0
3.8 4.2 4.6 5.0 5.4 5.8 X
异常
正常
异常
单侧上限
双侧下限 双侧上限
单侧上限---过高异常 双侧---过高、过低均异常
(b)24小时尿糖参考值范围 (c)白细胞数参考值范围
(五)选择适当的百分范围
参考值的百分范围应根据资料的性质和研究目的选 择,它与诊断阈值有确定的关系。百分范围的不同将导 致不同的假阳性率和假阴性率。
图3-6 正常人和病人数据分布重叠
图3-2 正态分布曲线下的面积
1 2
3
-4 -3 -2 -1 01 1 22 3 43 5 6 7
1 2 3
图3-3 三种不同均值的正态分布
-5 -4 -3 -2 -1 0 1 2 3 4 5
1 2 3 图3-4 三种不同标准差的正态分布
0.6
f (X )
0.5
上限: X 1.96S 4.78 1.96 0.38 5.52(1012 / L)
例3.5 见第二章表2-4资料。为该地区50岁~60岁女性高 血脂诊断与治疗提供参考依据,试估计血清甘油三脂含量的 95%单侧参考值范围。
(630 0.95 580)
P 1.90
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
并且
2 i
(i 1, 2,, m) 相互
m
独立, 则
2 i
~ 1
性质2 若 2 ~ 2(n), 则 E( 2 ) n, D( 2 ) 2n.
性质3 设样本( X1, X2, , Xn) 是来自总体X , 而
X ~ N (, 2),
则(1)
(n 1)S 2
2
1
3. t 分布 定义 设 X ~ N (0, 1), Y ~ 2 (n), 且 X , Y
独立,则称随机变量 T X 服从自由度为 n Y /n
的 t 分布, 记为T ~ t(n).
t 分布又称学生氏(Student)分布. t(n) 分布的概率密度函数为
h(t)
n
2
1
πn
n 2
1
二、概率分布的分位数
定义 对于总体X 和给定的 (0 1),若存 在x,使 P{X x}
则称x为X的分布的上侧分位数.通常记作x
记x为x
x
定义 对于总体X 和给定的 (0 1),
若存在x /2 , 使P{X
x / 2}
2
,则称x /2为X的分布
的上侧 / 2分位数.
若存在x1 /2 , 使P{X
n1
( Xi 1)2
n1
2 1
的两个样本,求统计量 i1 n2
的分布.
(Yi 2 )2
n2
2 2
i 1
3、设X 服从t(n)分布,求下列随机变量的分布: (1) X 2; (2) X 2
4、设X1, X 2
X
是独立且同分布的随机变量,
5
且每一个Xi (i 1, 2 5)都服从N (0,1)分布.
其中
Sw2
(n1 1)S12 (n2 1)S22 n1 n2 2
,
Sw
Sw2 .
2
S1
和S22
分别是来自两个总体样本的样本方差.
证 由定理知
X
Y
~
N
(1
2,
2
n1
2)
n2
U
(X
Y ) (1 2 ) 11
~
N (0,1),
n1 n2
由
(n1 1)S12
2
~ 2 (n1 1),
(n2 1)S22
所以
P F1
F
(n2 ,
n1
)
,
比较后得
F1-
1 ( n1 ,
n2 )
F
(n2 ,
n1 ),
即F1 (n1,
n2 )
F
1 (n2 ,
. n1 )
用来求分布表中未列出的一些上 分位点.
例
F0.95 (12,9)
1 F0.05 (9,
12)
1 2.8
0.357 .
三、小结
1.三大统计分布
2 分布, t 分布, F 分布.
x1 / 2}
2
,则称x1 / 2为X的
分布的上侧1- / 2分位数.
x / 2和x1 / 2统称双侧分位数.
1.正态分布的上侧分位数u 设 X 服从标准正态分布N(0,1), N(0,1) 的上
分位点u 满足 P{X u } 1 (u ) , 即(u ) 1
给定 ,由附表2可查得u的值.
1 ( n )
n 1 x
x2 e 2
2
x0
0
其它
2 (n)分布的概率密度曲线如图.
2 分布的性质
性质1 ( 2 分布的可加性)
设
2 1
~
2(n1 ),
2 2
~
2(n2 ),
并且
2 1
,
2 2
独
立, 则
2 1
2 2
~
2(n1
n2 ).
(此性质可以推广到多个随机变量的情形)
设
2 i
~
2(ni ),
Xi nX
i 1
n
i 1
Xi
X
1
n
(
i 1
Xi
nX )
1
0
0.
例1
设X
1
,
X
2
,
,
X
为
6
来
自
正
态
总
体N
(0,1)的
一
组
样
本,
求C1
,
C
使
2
得
Y C1( X1 X 2 )2 C2( X 3 X4 X5 X6 )2
服 从 2分 布.
解
X1
X2
~
N (0,2), 则
X1 X2 2
(1)试给出常数c,使得c(
X
2 1
X
2 2
)服从
2分布,
并指出它的自由度;
(2)试给出常数d,使得d 并指出它的自由度.
X1 X 2 服从t分布,
X
2 3
X
2 4
X
2 5
5、求总体N (20,3)的容量分布为10,15的两个独立样 本均值差的绝对值大于0.3的概率.
6、设X1, X 2 X10为N (0, 0.32 )的一个样本,
为
2
(
n)
分布的
上
分位数(
分位
点).
对于不同的 , n,
可以通过查表求
得上 分位点的值.
2 0.025
(8)
17.535,
附表4-1
2 0.975
(10)
3.247,
附表4-2
2 0.1
(
25)
34.382.
附表4-3
附表4只详列到 n=45 为止.
费歇(R.A.Fisher)证明:
当
n
充分大时,
. n1 )
因为F ~ F (n1, n2 ),
所以 1 P{F F1 (n1 , n2 )}
P
1 F
1 F1 (n1,
n2 )
1
P
1 F
1 F1 (n1,
n2
)
1
P
1 F
1 F1 (n1 ,
n2 ),
故
P
1 F
F1
1 (n1 ,
n2 )
,
因为
1 F
~
F (n2 ,
n1 ),
u0.05 1.645,
u0.025 1.96,
附表2-1 附表2-2
根据正态分布的对称性知
u1 u .
2.t分布的上侧分位数t (n) 对于给定的, 0 1, 称满足条件 P{t t (n)}
的点 t (n) 为 t(n) 分布的上 分位数(或分位点).
可以通过查表求 得上分位数的值.
2
~
2 (n2
1),
且它们相互独立, 故由 2 分布的可加性知
V
(n1 1)S12
2
(n2
1)S
2 2
2
~ 2(n1 n2 2),
由于 U 与V 相互独立,按 t 分布的定义
T
U
V /(n1 n2 2)
(X
Y Sw
) (1
11 n1 n2
2)
~
t ( n1
n2
2).
例3 设X1, X2 , X3 , X4来自总体N (0, 2 ),则统计量
~
N (0,1)
同理
X3
X4
X5
X6
~
N (0,4), 则
X3
X4
X5 4
X6
~
N (0,1)
且 X1 X 2 与 X3 X 4 X5 X6 相互独立
2
4
所以( X1 X 2 )2 ( X 3 X 4 X 5 X 6 )2 ~ 2 (2)
2
4
则C1 1 2 ,C2 1 4 .
第3节 抽样分布
一、常见分布 二、概率分布的分位数 三、小结
一、常见分布
1.X的分布
设总体X的均值为,方差为 2,分布形式可以
是未知的,( X1, X 2, , X n ) 为一样本,则X1, X 2, , X n 独立且与总体X同分布,因而有
EXi , DXi 2 (i 1, 2 n)
从而E(X )
2
n
(Xi
i 1
X )2 ~
2(n 1)
其中S 2是样本方差.
(2) X 与 S 2 独立.
注
1
2
n
(Xi X )2
i1
n ( Xi X )2
i1
~
2(n 1),
减少一个自由度的原因:
自由度减少一个!
{ Xi X }(i 1,2, n)不相互独立.
n
事实上,它们受到一个条件的约束:
的定义,性质. 2.概率分布的分位数
练习
1、设总体X 服从N (, 2 )分布,X1, X 2
X
是来自
n
总体的一个样本,求统计量 1
2
n
(Xi
i 1
)2的分布.
2、设总体X
服从N
(1
,
12
)分布,总体Y
服从N
(2
,
2 2
)
分布,X1, X 2 X n1和Y1,Y2 Yn2分别是来自总体X 和Y
(
y)
n1
n2
n1
n1
2
n1 1
y2
2 n2
n1 n2
n1 2
n2 2
1
n1 y n2
2
,
y0
0,
其它