第3讲 概率统计基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x11 x 21 xn1
x12 x22 xn 2
x13 x23 xn 3
x14 x24 xn 4 n4
其中,1=Cu, 2=Pb, 3=Zn, 4=Ag, 将这组样品中一切测定值的集合称为总体(population) 某个样品上所得到的测定值为样本(group)
A=AB1+AB2+…+ABn, 则事件A出现的概率为:
P(A)=P(B1)P(A|B1) +…+ P(Bn)P(A|Bn)
(5)贝叶斯准则(Bayes’ theory )
贝叶斯准则的基本公式为: P(AB) = P(B|A)P(A) 即事件A、B同时出现的概率等于事件A已经出现时事件 B出现的概率乘以事件A发生的概率。上式等价于:
这种描述总体分布特征的特征值称为参数,因此 正态分布记为:X~N(μ, σ) ,标准正态分布X~N(0, 1) .
作为总体特征值的参数,事先是未知的,它们只 能分别由样本的相应特征值来代替,这种由样本 导出的特征值称之为统计量。 换句话说,总体的参数是由相应的样本统计量来 估计的,这种做法称为参数估计。
P{Z (a, b)} f ( x)dx
a
b
6.概率分布函数(probability distribution function)
定义:设X是随机变量,对于任何实数x,若事件 (X≤x)的概率P(X≤x)有意义,则可定义函数: F (x) = P (X≤x) [x∈R1=(-∞, +∞)]
变异系数(Coefficient of ariation)
CV=
变异系数是衡量矿化均匀程度等的重要参数
(3)协方差(Coariance), σXY
用以表征表征随机变量X、Y相对于各自平均值的 协同变化(joint ariation)。分别对随机变量X和Y进行 观测,得样本容量为n的一组观测值x1,x2…xn和y1, y2…yn,则
SiO2 73.68 72.55 73.53 73.53 73.53 67.76 67.53 67.14 65.38 64.40 64.49 64.49 64.49 60.19 60.35
TiO2 0.36 0.39 0.43 0.43 0.43 0.67 0.67 0.75 0.82 0.86 0.83 0.83 0.83 0.97 1.01
数据的统计分布是指经频率曲线拟合后得到 的样本频率曲线,称之为统计分布。
曲线的峰数 样本的统计分布曲线有三种类型,即单峰、双峰和多峰。 曲线的偏度 按曲线的对称形态可分为两类,即对称、偏态曲线。 a 对称曲线:单峰对称曲线、双峰对称曲线 b 偏态曲线:单峰、双峰或多峰,按主峰的位置确定为正偏或负偏。 正偏:主峰位于均值的左侧,在大于均值的一侧有一长尾。 负偏:主峰位于均值的右侧,在小于均值的一侧有一长尾。
则称F (x)为随机变量X的概率分布函数。它给出随机变 量X不大于x值的概率。
在数学上,F(x) = P (X≤x) 可用积分形式表示:
F ( x) P( x) f ( x)dx
x
正态分布的 随机变量的 概率密度函 数
正态分布的 随机变量的 概率分布函 数
7.随机变量的若干重要数字特征
若A、B为两个随机事件,且P (B)≠0,则事件B已经 出现的条件下事件A出现的概率称为条件概率,即
P (A|B) =
P ( AB ) P( B)
P (AB)表示AB同时出现的概率,即联合概率(joint probability)。
例:将某一区域划分为16个单元,其中7个单元出 现NE向断裂,4个单元出现铅锌矿化;其中三个 出现在有NE向断裂的单元内,试计算当存在NE向 断裂的条件下有矿化的概率。
i i
xy rxy xx yy
( x x )( y y )
i 1
(x x ) ( y y)
2 i 1 i i 1 i
n
n
2
相关系数有以下性质: 1)对任意随机变量X和Y, -1≤rxy≤1 2)相互独立的随机变量x, y,其rxy=0,σxy也为0)
4.频率(frequency)和概率(probability)
若进行N次观测,某一事件A出现的次数m称为其 发生的频数(f*),m/N比值称事件A发生的频率.
如果试验(观测)条件相同,当N→∞时,频率f 的极限值称为事件A出现的概率,用P表示。实际 上,当N足够大时(N>50~100),可取事件A的频 率作为概率的近似值。
P(NE向断裂) =7/16=0.44,
P(矿化|NE向断裂) =P(矿化&NE向断裂)/ P(NE向断裂) =(3/16)/0.44=0.187/0.44=42.5%
(4)全概率公式
若事件B1, B2, …., Bn是一组互不相容的事件,并且 B1+B2+….+Bn是一个必然事件,则称 B1, B2, …., Bn 构成了一个互不相容的事件完备群。若事件A与事件Bi (i=1, 2, …, n)中之一同时出现,即:
样本中的单个测定值称为个体(individuals)
一个总体中所含个体的数目称为总体大小(此处为n×4)
样本中所包含个体的总数为样本大小/容量(此处为4)
注意:样本和样品Baidu Nhomakorabea区别!
MD6 MDG9 87DR 87DR 87DR MD28 MD65 MD114 MD283 MDG6 MDG3A MDG3A MDG3A MDG3B MDG3B
P(磁异常/矿化) P(矿化) P(矿化 / 磁异常)= P(磁异常)
5.频率分布和概率分布(frequency distribution & probability distribution)
如果观测次数无限增大,且分组区间无限减小,则可 以用频率分布曲线来代表总体分布的概率分布曲线,它对 应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数 (probability density function)。若f(x)已知,给定区间(a, b),则随机变量X在(a, b)区间的取值概率
FeO 3.06 3.46 3.12 3.12 3.12 4.91 4.95 4.97 4.8 6.29 5.94 5.94 5.94 7.09 8.05
Cu 17.4 19.4 16.0 17.7 18.3 19.6 18.9 28.1 20.1 25.6 30.7 32.2 28.2 35.2 34.6
具有钟形图像,单峰, 峰值在x=μ处。
在x=μ±σ处有两个拐点 x→±∞时,f (x) →0 以直线x=μ为轴呈对称 分布
对某一地区500个水系沉积物样品进行Au的含量分析, 其中64个样品的品位>50 ppb,则 样品品位高于50ppb的频数为64,频率为64/500=12.8%, 它接近于本区样品Au含量超过50ppb的概率。
5.随机事件的概率有以下重要性质
(1)对任意事件A,0≤P (A)≤1 (2)若事件A和事件B互不相容(即A、B不可能 同时出现)则P (A +B) = P (A) + P (B)(概率加法) (3)条件概率(conditional probability)
第3讲 概率统计基本概念
一、概率统计的基本概念
1.随机事件(random test)
在一定条件下可能实现,也可能不能实现的 现象称为随机事件。 如“某一铜矿体中铜品位为0.5%-1.2%”、 “闪长岩侵入于碳酸盐地层中形成矽卡岩铁矿”、 “钻探到地下1000米处见矿”等。 由于地质作用的长期性和复杂性,地质过程 中的大多数地质现象都可当作是随机事件。
E(X) =
xf ( x)dx
μ=
样本算术平均值
x
i 1
n
i
n
众数 (mode): 具有最大频率的随机变量的取值
中位数 (median): 累积概率50%时对应的观测值.
在正态分布中,mode=median=expectation
0.4
.
P(x)
f(x)
0
1
2
3
4
5
6
7
x
(2)方差、标准差、变异系数
2.总体(population)和样本(group) 假设我们研究某个矿体,并从该矿体上采集一组 (n个)样品,并分析这组样品中成矿元素Cu和伴生金 属元素Pb、Zn、Ag的含量,便可得到一系列元素含量 的值,如下所示: x11 x12 x13 x14 x x22 x23 x24 21 xn1 xn 2 xn 3 xn 4 n4 其中,1=Cu, 2=Pb, 3=Zn, 4=Ag,
,
1 f ( x) e 2
1 ( x )2 2 2
x (, )
1 x2 2
当μ=0,σ=1时, 以上密度函数简化为:
1 f ( x) e 2
正态分布的概率密度函数或分布函数由总体的平均值μ和 标准差确定: 1 ( x u ) 2 1 2 f ( x) e 2 2
Yb 4.73 4.31 4.25 4.46 4.4 3.89 3.39 3.58 3.6 4.0 3.32 3.47 3.52 3.2 3.4
S 0 67 70
37 23 77 85 93
190
Au 1.47 1.06 3.7 73.5 3.81 1.35 0.92 3.31 0.79 2.02 4.22 4.37 2.13 0.51 1.33
平均数、中位数、众数反映数据的集中程度, 称为整体代表性特征数; 方差、标准差、极差、变异系数反映数据分散 性特征,称之为离散型特征数。
K max JK K min
二、地质上几种重要的概率分布模型
1、正态分布(normal distribution)
地质学中最重要、最常见的分布,其概率密度函 数为:
(1)平均值(aerage/expectation) 设离散型随机变量X 的可能取值为x1, x2, …, xn, .., P (X =xi) = Pi,则X的平均值 μ =
xp / p
i i i 1 i 1
n
n
i
(即以取值概率为权的加权平均值)
对连续型随机变量X,设其概率密度函数为f (x),则
M M M M M M M M
3.随机变量(random variables)
在观测或试验中,可能取这个或那个数值,但事 前不能确定取什么样的值,而一旦观测/试验完成, 其值也随之唯一确定。这种变量称为随机变量(离 散型、连续型)。
在某个铜矿体的不同部位取样并分析各样品的Cu品位值。 显然,每个样品的品位事先是不能预测,且随其在矿体 位置的不同而有所变化,但经化验分析后其值又是唯一 的,因此Cu品位是一个随机变量。 • 地质学中大多数变量都是随机变量。
方差(ariance)是对随机变量离散性质的反映和 度量,实际上反映了每一个体(观测值)偏离总体平均 值的程度。其数学表达式为: D(X) = E[X-E(X)]2
样本方差的计算:
S2=
1 n 2 ( xi ) n 1 i 1
方差的平方根称为标准差(standard deiation), 记为σ.
P(AB) = P(A|B)P(B)
即P(B|A)P(A) = P(A|B)P(B)。此式又可写成:
P(B|A) =
P(A|B)P(B)
P(A)
贝叶斯公式非常有用,因为有时我们只知道条件概率中 A事件的概率,但恰恰所关心的是B事件的概率。
例:
经测量发现某一地区有磁场异常的出现(A), 但我们所关心的是磁异常出现的情况下该区出现矿床 (B)的概率是多少。我们可以获得矿区的条件概率P (磁异常|矿化)和非条件概率P(矿化),但却很难 直接获得P(矿化/磁异常),因为需要对每一个磁异 常进行检查和验证,这在实际工作中往往是不太可能 的。通过贝叶斯公式,我们可以对P(矿化|磁异常) 进行计算,即:
cov(X,Y )=E[X-E(X)][Y-E(Y)]
样本协方差计算:
1 XY ( xi x )( yi y ) n 1 i 1
n
(4)相关系数(correlation coefficient)
随机变量X与Y之间的相关系数记为
样本相关系数计算:
n
cov( X , Y ) rxy D( X ) D(Y )