几种常见的分布知识讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、常见数据类型

在正式的解释分布之前,我们先来看一看平时遇到的数据。数据可大致分为离散型数据和连续型数据。

离散型数据

离散型数据顾名思义就是只取几个特定的值。例如:当你掷骰子的时候,结果只有1,2,3,4,5,6,不会出现类似1.5,2.5。

连续型数据

在一个给定的范围内,连续型数据可以取任意值。这个范围可以是有限的或者是无穷的。例如:一个人的体重或者身高,可以取值54kg,54.4kg,54.33333kg等等都没有问题。

下面就开始介绍分布的类型。

二、分布类型

伯努利分布(Bernoulli Distribution)

首先从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。伯努利分布一次实验有两个可能的结果,比如1代表success及0代表failure。随机变量X X一个取值为1并代表成功,成功概率为p p,一个取值为0表示失败,失败概率为q q或者说1−p1−p。

这里,概率分布函数为p x(1−p)1−x px(1−p)1−x,其中x∈(0,1)x∈(0,1),我们也可以写成如下形式:

P(x)={1−p,p,x=0x=1P(x)={1−p,x=0p,x=1

成功和失败的概率没必要相同,也就是没必要都是0.5,但是这俩概率加和应该为1,比如可以是下面的图:

这个图就是p(success)=0.15,p(failure)=0.85p(success)=0.15,p(failure) =0.85。

下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。服从伯努利分布的随机变量X X的期望值就是:

E(X)=1∗p+0∗(1−p)=p E(X)=1∗p+0∗(1−p)=p

服从伯努利分布的随机变量的方差是:

V(X)=E(X2)−[E(X)]2=p−p2=p(1−p)V(X)=E(X2)−[E(X)]2=p−p2=p(1−p)

还有许多伯努利分布的例子,比如说明天是否会下雨,今天会不会去健身,明天乒乓球比赛是不是会赢。

均匀分布(Uniform Distribution)

当你掷骰子的时候,结果出现1到6中的任何一个,而任何一个结果出现的概率都是相同的,这就是均匀分布最原始的雏形。你可能看出来了,与伯努利分布不同的是,这n n个出现的结果的概率都是相同的。

一个随机变量X X为均匀分布是指密度函数如下:

f(x)=1b−a−∞

下图为均匀分布的密度图的样子:

咱们可以看出来均匀分布的密度图是个矩形,这也就是为啥均匀分布的昵称是矩形分布。

对于均匀分布来说a a和b b都是参数,分布的参数。

例子:假如花店每日销售的花束数量均匀分布,最多40只,最少10只。

我们来尝试计算每日卖花数量在15到30之间的概率。由于随机变量所有可能发生的事件的概率和为1,并且卖花数量是均匀分布,所有在15到30之间的概率为(30−15)∗1(40−10)=0.5(30−15)∗1(40−10)=0.5。类似的对于每日卖花数量大于20发生的概率就是1−(20−10)∗1(40−10)=231−(20−10)∗1(40−10)=23。若随机变量X X服从均匀分布,那么它的均值和方差分别为:

Mean->E(X)=(a+b)2E(X)=(a+b)2

Variance->V(X)=(b−a)212V(X)=(b−a)212

标准的均匀分布的密度参数为a=0a=0和b=0b=0,所以对于标准的均匀分布的密度函数为:

f(x)={1,0,0≤x≤1otherwise f(x)={1,0≤x≤10,otherwise

二项分布(Binomial Distribution)

我们假定一个随机变量,比如X X,表示你赢得比赛的次数。X X可能的值是什么?它可以是任何数字,赢得比赛的次数。

如果就两个可能的结果。成功,失败。因此,成功概率= 0.5,失败的概率可以容易地计算为:q=p−1=0.5q=p−1=0.5。

只有两种结果是可能的分布,如成功或失败,以及所有试验的成功和失败概率相同的情况称为二项分布。

发生结果的可能性不同时,前面的例子如果实验成功的概率是0.2,那么失败的概率可以很容易地计算出来,q=1−0.2=0.8q=1−0.2=0.8。

每次试验都是独立的,因为之前的结果并不决定或影响当前的结果。只有两次重复n次的可能结果的实验称为二项式。二项分布的参数是n n和p p,其中n n是试验的总数,p p是每个试验中成功的概率。

基于上述解释,二项分布的性质是:

1. 每次实验独立

2. 试验中只有两种可能的结果- 成功或失败。

3. 共进行了n n次相同的试验。

4. 所有试验的成功和失败的概率是相同的。(试验是相同的。)

二项分布的数学表达式由下式给出:

P(x)=n!(n−x)!x!p x q n−x P(x)=n!(n−x)!x!pxqn−x

一个二项分布图,其中成功的概率不等于失败的概率长这样:

成功概率与失败概率相等,长这样:

二项分布均值和方差:

Mean -> μ=n∗pμ=n∗p

Variance -> Var(X)=n∗p∗q Var(X)=n∗p∗q

正态分布(Normal Distribution)

正态分布可以表示宇宙中大多数的事件发生情况。如果任何分布具有以下特征,则称为正态分布:

1. 均值、中位数、众数在一个分布中取相同的值;

2. 分布曲线关于x=μx=μ对称;

3. 曲线下面的面积总和为;

4. 中心位置的左半边和右半边对应位置的概率取值相同。

正态分布与二项分布有很大的不同。但是,如果试验次数接近无穷大,则形状将非常相似。

服从正态分布的随机变量X X的密度函数为:

f(x)=12πσ−−−√e{−12(x−μσ)2}−∞

服从均匀分布的随机变量X X的均值和方差,如下:

Mean -> E(X)=μE(X)=μ

Variance -> Var(X)=σ2Var(X)=σ2

这里μμ(mean)和σσ(standard deviation)是两个参数,随机变量X∼N(μ,σ)X ∼N(μ,σ)的不同取值的变化图如下:

标准正态分布的均值为0,方差为1,密度图如下:

f(x)=12π−−√e−x22∞

相关文档
最新文档