01第一章背景与异常划分的一元方法(精)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章背景与异常划分的一元方法
地球化学背景与异常划分是化探数据统计分析的基本问题,以后就简称为背景与异常划分。这方面的具体方法很多,而且正在发展,有的还不完全成熟。本书只介绍一些常用的或理论上具有一定系统性的方法。本章内容不仅是解决背景与异常划分的方法基础,也是以后各章有关其它统计方法的基础,因而虽然简单,却很重要。这里只涉及单个因素,因而是一元方法,且一般不考虑样本的采样位置。第二章主要讨论与地理位置有关的背景与异常划分问题,也属于一元方法。背景与异常划分的多元方法将在以后的有关章节中顺便介绍,因为那时我们有了解多元问题的数学基础。希望在有了这些基础知识后能广阅参考文献,甚至提出更成熟的方法。
§1 背景与异常划分的基本原理
常用的背景与异常划分方法是以一元正态分布为前提的。只要熟知一元正态分布的有关性质,背景与异常划分的原理就十分明确。正态分布是最简单的情形。但一切的复杂情形都可视为简单情况的综合。对简单问题的讨论是解决复杂问题的基础,因而十分重要。
一、一元正态分布的有关性质
设x为一元正态随机变量,其概率密度函数为11(x−μ)2
exp(−),-∞ F(x)=∫x −∞f(t)dt (1.2) 其图形如图1-2所示。 若用P(A)表示随机事件A发生的概率,则正态分布具有如下重要特性: 图1-1 一元正态总体的概率密度分布图1-2 一元正态总体的概率分布 1、f(μ)=max[f(x)]; 2、P(x≤μ)=F(μ)=50%; 3、P(x≤μ-σ)=F(μ-σ)=15.9%; 4、P(x≤μ+2σ)=F(μ+2σ)=97.7%; 5、P(μ-tασ 6、 P(-∞ 其中性质5更为重要,它表示,若以μ为起点,在x轴向左右两边各延伸tα个单位长度σ,形成一个区间(μ-tασ 当tα=1时,1-α=68.3%,α=31.7%; 当tα=2时,1-α=95.4%,α=4.6%; 当tα=3时,1-α=99.7%,α=0.3%; 这些性质与背景、异常的概念关系十分密切。 二、背景与异常划分的基本原理 根据以上性质并参考图1-1,1-2,我们不难得出如下推理: 1、由性质1、2知,x在点μ处的概率密度最大,即x在μ处的取值机会最多,于是μ作为常见值被用做背景值是当然的,在x=μ点,F(x)=50%,因而f(x)达极大值或F(x)= 50%=0.5时自变量x的取值μ即为背景值。 2、由性质2、3不难看出,F(x)取50%与F(x)取15.9%分别对应的x值之差的绝对值正好是正态总体的标准离差或均方差σ。 3、由性质4易见,x落在区间(-∞,μ+2σ)内的概率为97.7%,而落在该区间右侧的概率仅为2.3%,是正态前提下不容易发生的小概率事件,则被视为异常事件,故μ+2σ可被看作划分背景与异常的一个界限。 4、由性质5可以得到划分背景与异常的更严格的叙述。当tα取值足够大或α取值足够小时,随机变量x在区间(μ-tασ 再看α值的意义。由性质5知,当α越小时tα就越大置信区间就越大,所划出的异常值与背景值的差异就越显著,即这种差异值属于真正异常的可信度就越大;而反过来也可以说明置信区间的值属于背景值的可信度就越小。所以α的大小决定了背景与异常的可靠性,或者广义的说,α的大小决定了识别任一样品是否属 于某正态总体的可信程度。在数理统计中,α称为置信度。一般α由人为指定,可分别取0.1,0.05,0.001等。这一概念在以后经常遇到。值得指出的是,当我们用统计方法把某个样品划归背景或异常时,严格的应称这种划分是在置信度α下所做的推断。 在随后的讨论中我们将看到tα的意义。它实际上是标准化变量的异常下限。 §2 背景与异常划分的基本方法 由上述讨论知,若x~N(μ,σ),且μ,σ已知,则背景与异常划分的方法是显然的。问题是,我们一般难以得到总体的分布参数μ和σ,也不知道x是否是满足正态分布条件。本节主要讨论这两个问题,并引入很有实用价值的标准化变量的概念。 一、总体分布参数的估计 在一般实际问题中,我们不是从整体出发而是从样本出发,通常用样本均值来估计总体的均值μ,用样本方差S来估计总体方差σ,于是立刻得到异常界限的估计值为 Xα=+tαS (1.3) 当tα为正值时,上式定义了正异常下限;当tα为负值时上式定义了负异常上限,其中tα由可信度α而定。但由上节知,tα一般取2左右即可,这时α约为0.046。应用中不必再做严格推算。为简便起见,今后一般不讨论负异常上限。所剩的问题是如何用样本来估计总体均值与方差,以后简称均值、方差,分别用x、S222来表示。现介绍几种最常用的估计方法。 1、直接计算方法 在有计算机的条件下,这是最简便的方法。设某正态样本容量为n,数据为xi,i=1,2,…,n,则样本均值和均方差分别为 1n=∑xi (1.4) ni=1 1n(xi−)2 (1.5) S=∑ni=1 当n很大时,(1.5)式与常用无偏估计无多大差异。 2、直方图法 直方图是日常社会活动常见的图形,这里简明介绍其制作方法及有关参数的估计。设正态样本数据为xi,i=1,2,…,n,则作图步骤为: ①将n个数据的取值范围[max(xi)-min(xi)]分为K个子区间(一般为组),方括号表示区间。K一般取奇数5、7、9…等,大小视n的大小而定。各区间的长度即组距为 d=1[max(xi)-min(xi)] K 其中第j个子区间(组)为 [max(xi)+(j-1)d,min(xi)+jd),j=1,2,…,k 其中圆括号表示开区间,方括号表示闭区间,但第K区间左右都为闭区间。各区间的中点值称为组中值。