第五章常用概率分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 常用概率分布
二项分布的概念与特征:如果每个观察对象阳性结果的发生概率是π,陰性結果的發生概率均為(1-π),而且各個觀察對象的結果是相互獨立的,那么,重复观察n个人,发生阳性结果的人数X的概率分布为二项分布,记作B(n,π)
二项分布的概率函数:P(X)=C(n,X)*π^X*(1-π)^(n-X).
二项分布的特征:二项分布图的形态取决于π和n,高峰在μ=nπ处。当π接近0.5时,图形是对称的;π离0.5越远,对称性越差,但随着n的增大,分布趋于对称。当n→∞时,只要π不太靠近0或1(特别是nπ和n(1-π)均大于5时),二项分布趋于对称。
二项分布的总体均数为 μ=nπ
方差为σ^2=nμ=nπ(1-π).
标准差为σ
如果将出现阳性结果的频率计为p=X/n
则p的总体均数为μp=π。
方差为σp^2=π(1-π)/n.
标准差为σp.
二项分布的应用:1)概率估计。 2)累计概率计算。
poisson分布的概念与特征:poisson分布可以看作是每个观察对象阳性结果的发生概率π很小,而观察例数n很大时的二项分布。除二项分布的三个基本条件以外,它还要求π接近于0.有些情况π和n都难以确定,只能以观察单位(时间,空间,面积等)内某种稀有事件的发生数X来近似。
poisson分布的概念函数:P(X)=e^-λ * λ^x /x!.
其中,λ=nπ为poisson分布的总体均数,X为观察单位内某种稀有事件的发生次数,e为自然对数的底,为常数,约等于2.71828.
分布特征:当总体均数λ<5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。poisson分布的总体均数和总体方差相等,均为λ,且poisson分布的观察结果具有可加性。
特点:凡个体有传染性,聚集性,均不能视为二项分布或poisson分布。
poisson分布的应用:1)概率估计。 2)累计概率计算。
正态分布的概念:正态分布是自然界最常见的分布之一,正态分布的特点是中间频数最多,两边频数渐少且对称。
正态曲线是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。
正态分布曲线的特点:
1)关于x=μ对称。
2)在x=μ处取得该概率密度函数的最大值,在x=μ和x=-μ处有拐点。
3)曲线下面积为1.
4)μ决定曲线在横轴上的位置,μ越大,曲线沿横轴向右移;反之,μ越小,曲线沿横轴向左移。
5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线矮胖;σ越小,数据越集中,曲线越瘦高。
一般来说,若影响某一数量指标的随机因素很多,而每个因素所起的作用均不太大,那么这个指标服从正态分布。
正态曲线下面积的分布规律:
标准正态分布:总体均数为0,
总体标准差为1的正态分布。用N(0,1)表示。
对于任意一个服从正态分布N(μ,σ^2)的随机变量,经如下的标准化变换:
Z=(X-μ)/σ.都可以转变为标准正态分布。
正态曲线下面积有一个共同规律,即如果用标准差作为衡量单位,正负一个标准差内,其总面积为68.27%,正负两个标准差内,面积为95.44%,正负三个标准差内,面积为99.74%。
标准正态分布的分布函数值等于标准正态曲线下z值左侧的面积,记作φ(z)。对于正态分布而言,正负1.96个标准差内面积为95%,正负2.58个标准差内面积为99%。
正态分布的应用:
1)确定医学参考值范围。医学参考值范围是指特定的正常人群(排除了对研究指标有影响的疾病和有关因素的特定人群)的解剖,生理,生化指标及组织代谢产物含量等数据中大多数个体取值所在的范围。人们习惯用该人群95%个体某项医学指标的取值范围作为该指标的医学参考值范围。
计算方法 :确定医学参考值范围的方法有两种:
①百分位数法:双侧95%医学参考值范围是(P2.5,P97.5),单侧范围是P95以下或P5以上。该法适用于任何分布类型的资料。
②正态分布法:若X服从正态分布,医学参考值范围还可以依正态分布的规律计算。正态分布资料双侧医学参考值范围一般按下式作近似估计:Xbar=+-1.96S.三个符号依次表示样本的均数和样本的标准差。
2) 质量控制图。当影像某一数量指标的随机因素很多,且每个因素所起的作用均不大时,这个指标的随机波动属于随机误差,则往往服从正态分布。相反,如果除随机误差外,还存在某些较大的影响因素导致的误差,这时指标的波动就不再服从正态分布。利用这一原理,人们可以进行测量过程的质量控制。质量控制的一个重要工具是控制图。
控制图的基本原理:如果某一波动仅仅由于个体差异或随机测量误差所致,那么观察结果服从正态分布。控制图共有七条线,中心线位于总体均数μ处,警戒限位于μ+-2σ处,控制限位于μ+-3σ处。此外还有两条位于μ+-σ处。如果总体样本和总体标准差未知,也可用样本估计值代替。
依时间顺序记录观察数据,在控制图上依次描点。如果发生下列情况之一,则认为可能存在某种非随机的系统性误差。
1)有一个点位于控制限以外。
2)连续三个点中有两个点位于警戒限以外。
3)连续五个点中有四个点距中心线距离超过一个标准差。
4)连续六个点稳定的增加或减少。
5)中心线两侧连续八个点距中心线距离都超过一个标准差范围。
6)在中心线的一侧连续有九个点。
7)连续十四个点交替上下。
8)中心线两侧连续15个点距中心线距离都在一个标
准差以内。
二项分布,泊松分布的正态分布近似:
1二项分布的正态近似:随着n的增大,二项分布趋于对称。理论上可以证明,当n相当大时,只要π不太靠近0或1,特别是nπ和n(1-π)都大于5时,二项分布近似于正态分布。由于二项分布为离散型变量分布,为了借用连续型变量的分布函数计算概率,要对概率函数作校正。
二项分布累计概率的正态近似计算公式为:
P(X<=K)=φ((K+0.5-nπ)/√(nπ(1-π))). 即P=φ((X-μ)/σ).
同理可计算P(X>=K)和P(K1<=X<=K2).
2泊松分布的正态近似:随着总体均数λ的增大,泊松分布趋向对称。理论上可以证明,随着λ→∞,泊松分布也渐近正态分布。一般,当λ>=20时,泊松分布资料可按正态分布处理。和二项分布相同,泊松分布也是离散型变量,也需对其进行相应校正。公式略。
1简述二项分布,泊松分布和正态分布的区别与联系。
二项分布,泊松分布是离散型概率分布,用概率函数描述其分布情况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布情况。泊松分布可以视为n很大而π很小的二项分布。当n很大而π不太靠近0或1的时候,二项分布近似正态分布,当λ>=20时,泊松分布渐近正态分布。
2控制图的基本原理。
如果某一波动仅仅由于个体差异或随机测量误差所致,那么观察结果服从正态分布;依据标准正态分布曲线下面积的分布规律,确定出现概率非常小的若干情况作为异常标准,如果出现相应结果则判为异常。
3简述双侧正态分布资料的医学参考值范围为什么是均数+-1.96倍标准差。
因为医学参考值范围是指特定的正常人群(排除了对研究指标有影响的疾病和有关因素的特定人群)的解剖,生理,生化指标及组织代谢产物含量等数据中大多数个体取值所在的范围。人们习惯用该人群95%个体某项医学指标的取值范围作为该指标的医学参考值范围。对于过大,过小均属不正常的情形取双侧。观察值出现在均数+-1.96倍标准差范围内的概率是95%,所以双侧正态分布资料的医学参考值范围是均数+-1.96倍标准差。