地学统计_第二章
地统计学知识点
地统计学知识点地统计学是一门融合了地质学、统计学和数学等多学科知识的交叉学科,主要用于研究具有空间相关性和变异性的数据。
它在地质、环境、农业、生态等众多领域都有着广泛的应用。
一、地统计学的基本概念1、区域化变量区域化变量是指在空间上具有数值的变量,其数值随空间位置的变化而变化。
例如,某地区的土壤肥力、地下水位、气温等都可以看作是区域化变量。
2、随机性和结构性地统计学认为区域化变量具有随机性和结构性。
随机性表现为在同一位置多次测量得到的值不完全相同;结构性则反映了变量在空间上的分布具有一定的规律和趋势。
3、空间相关性空间相关性是地统计学的核心概念之一。
它指的是距离相近的点所对应的区域化变量值之间的相关性较强,而距离较远的点之间的相关性较弱。
二、地统计学的研究方法1、变差函数变差函数是地统计学中描述区域化变量空间变异性的重要工具。
它通过计算不同距离下区域化变量的差异来反映变量的空间结构。
变差函数的表达式为:\γ(h) =\frac{1}{2N(h)}\sum_{i=1}^{N(h)}Z(x_i) Z(x_i+ h)^2\其中,\(γ(h)\)为变差函数值,\(h\)为距离,\(Z(x_i)\)和\(Z(x_i + h)\)分别为位置\(x_i\)和\(x_i + h\)处的变量值,\(N(h)\)为距离为\(h\)的样本对数量。
2、克里金插值克里金插值是地统计学中最常用的空间插值方法。
它基于区域化变量的空间相关性,对未采样点的值进行估计。
克里金插值的基本思想是,在估计未知点的值时,不仅考虑已知点与未知点的距离,还考虑已知点之间的空间相关性。
通过赋予不同已知点不同的权重,使得估计值的方差最小。
三、地统计学在地质领域的应用1、矿产资源评估在矿产勘查中,可以利用地统计学分析矿化指标的空间分布特征,预测潜在的矿产地。
2、地质构造分析通过分析地质构造数据的空间变异性,了解地质构造的形成和演化过程。
四、地统计学在环境领域的应用1、土壤污染评估对土壤中污染物的含量进行空间分析,确定污染的范围和程度。
地图学笔记 第二部分
地图学(2)1)地图符号1.地图符号的实质:是一种科学抽象的过程,它是对地图对象的第一次综合。
2.地图符号的基本功能:既表现客观世界,又把地图符号作为直接认识对象而从中获取信息、认知世界,它表现出“读”和“写”的双重功能。
3.地图符号分类:⏹按符号表现的制图对象几何特征分类:点状符号、线状符号和面状符号。
⏹按符号与地图比例尺的关系分类:依比例尺符号(面),非比例符号(点)和半比例符号(线)。
⏹按符号表示的地理尺寸分类:定性符号、等级符号和定量符号(比率)。
⏹按符号的形状特征分类:几何符号,艺术符号,线状符号,面状符号,色域符号,文字符号等。
4.符号基本视觉变量:能够引起视觉差别的图形或色彩变化因素称为视觉变量。
包括形状、尺寸、方向、明度、密度、结构、颜色和位置。
5.视觉变量能够形成的效果:整体感和差异感,等级感,数量感,质量感,动态感和立体感。
6.视觉变量的扩展:发生时长,变化速率,变化次序和节奏。
7.制图对象的基本特征标志:⏹定位特征:物体位置和空间范围⏹性质特征:辨别不同类型对象的标志⏹空间结构特征:对象外部形状特征,包括轮廓形状和内部空间差异⏹数量特征:对象数量大小和数量关系的标志,包括间隔尺度和比率尺度⏹关系特征:对象所处的地位和与其他对象的关系⏹时间特征:确定对象性质或数量时的点或时段标志,反映对象的发展过程。
8.制图对象的关系特征:表现为对地图符号系统分类、分级及层次结构及空间组合。
即地图符号的系统性。
地图对象的关系特征,逻辑性强、层次分明,地图制图时通过符号系统来表现各种关系。
如表示各种类型树木的符号。
9.描述制图对象的性质特征主要使用哪些变量?它们在设计不同类型的符号时有什么区别?变量主要是形状、颜色、结构、方向。
而明度和密度是次要手段。
点状符号通过颜色和结构表现;线状符号通过形状、颜色和结构来表示;面状符号通过形状、结构和方向来表示。
10.影响符号设计的因素:⏹地图内容⏹资料特点⏹地图使用要求⏹所需要的感受水平⏹视觉变量⏹视力及视觉感受规律⏹技术与成本⏹传统习惯与标准11.设计地图符号的基本要求:图案化、象征化、清晰性、系统性、适应性和生产可行性。
地质统计学
第一章绪论一、历史背景与产生地质统计学是二十世纪六七十年代发展起来的一门新兴的数学地质学科的分支。
它开始主要是为解决矿床从普查勘探、矿山设计到矿山开采整个过程中各种储量计算和误差估计问题而发展起来的。
它是由法国著名学者G. 马特隆教授于1962年创立的。
其核心即所谓的“克立格”。
它是一种无偏的最小误差的储量计算方法。
该方法按照样品与待估块段的相对空间位置和相关程度来计算块段品位及储量,并使估计误差为最小。
这是南非采矿工程师D. G. Krige 根据南非金矿的具体情况与1952年提出的,故命名为克立格法。
后来法国学者G. 马特隆(Matheron)对克立格提出的方法进行研究,认为克立格提出的方法是在考虑了空间分布特征的基础上,合理地改进了统计学,是一种传统方法与统计学方法结合起来的新方法。
同时为了解决具二重型(结构型与随机性)的地质变量的条件下使用统计方法的问题。
马特隆教授提出了区域化变量的概念(Regionalized Variable),从而创立了地质统计学。
根据地质统计学理论,地质特征可以用区域化变量的空间分布特征来表征。
而研究区域化变量的空间分布特征分布的主要数学工具是变差函数(Variogram)。
到七十年代中后期,马特隆的学生JOURENL等在研究其它地质变量的基础上,认为某些地质变量并不是一成不变的,而是有一定波动的,这样使用克立格法就不能很好再现地质变量的分布特征。
因此他们采样模拟的方法,将克立格估计的离散方差的波动性模拟出来,从而产生了随机模拟法。
因此,从二十世纪八十年代以来,地质统计学分为两派:一派以法国的马特隆教授等人为主,仍致力于克立格估计的研究;一派以美国JOURENL等人为主,主要致力于随机模拟方法的研究。
地质统计学的产生是在经典统计学的基础上发展起来的。
在此前,为了反映地质变量的空间变化性,一些地质学家曾经使用一些经典的概率统计方法来研究地质变量。
但由于地质变量并不是纯粹的随机变量,因此,直接用简单的统计方法解决复杂的地质问题,有一定的局限性。
《地统计分析》课件
地统计分析案例展 示
案例一:土壤重金属污染空间分布特征分析
数据来源:土壤重金属污染 监测数据
分析方法:地统计分析方法, 如克里金插值、空间自相关 等
背景:土壤重金属污染已成 为全球性问题,对人类健康 和环境安全构成威胁
结果:揭示了土壤重金属污 染的空间分布特征,为污染
治理提供依据
案例二:城市居民收入空间自相关分析
异常值处理原则:保持数据的 完整性和准确性
数据插值与填充
插值方法: 线性插值、 多项式插 值、样条 插值等
插值目的: 填补数据 缺失,提 高数据质 量
插值步骤: 选择插值 方法、确 定插值参 数、执行 插值操作
填充方法: 均值填充、 中位数填 充、众数 填充等
填充目的: 填补数据 缺失,提 高数据完 整性
数据:收集农业种 植结构数据,包括 种植面积、作物类 型、土壤类型等
结果:分析农业种 植结构的空间变异 特征,为农业种植 结构调整提供依据
案例四:地下水位空间插值预测分析
方法:采用地统计分析方法 进行空间插值预测
数据:收集地下水位观测数 据,包括时间、地点、水位
等
背景:地下水位变化对生态 环境和人类活动有重要影响
普通克里格插值分析
原理:基于已知数据点,通过最小二乘法拟合出未知数据点的值 特点:适用于区域化变量,如温度、降雨量等 步骤:选择合适的模型,如线性、多项式、指数等;计算权重;计算预测值 应用:气象、水文、地质等领域
指示克里格插值分析
克里格插值法的优缺点
克里格插值法的基本原理
克里格插值法的应用领域
分类:空间变异模型可以分为空间自相关模型、空间异质性模型、空间回归模型等
应用:空间变异模型广泛应用于地理学、生态学、公共卫生等领域,用于分析空间数据的变 异性,揭示空间数据的空间分布规律。
地质统计学及其应用介绍PPT
第二节 地质统计学的研究现状及优点
一、研究现状
(1)线性平稳地质统计学
(2)线性非平稳地质统计学 (3)条件模拟 (4)平稳非线性地质统计学 (5)储量参数确定
1.初步形成了一直完整的理论体系
基本概念:区域化变量 基本工具:变差函数 基本假设:二阶平稳假设和本征假设 基本公式:估计方差,离散方差 基本方法:克里格法
问题2:品位空间变化问题:矿化的空间结构。如:走向上变化小 ,倾向变化大,权值不一样。
问题3:矿化强度的空间变化问题:离散度。这与问题2相关联,离 散度是衡量经济开采可行度的重要因素。
问题4:缺乏估计精度的方1:不考虑样品的空间分布
40
40
30
30
20
20
地 质 统 计 学
数学地质2讲2地质数据及其统计分析
第二课地质数据及其统计分析讲5个方面的问题一、地质数据的概念、类型及属性二、地质数据的选择和整理三、地质数据的预处理四、地质数据的统计分布特征五、与油气地质有关的分布函数一、地质数据的概念、类型及属性1 概念地质信息的数、字母和符号的集合。
2 类型按地质数据的特点分为观测、综合和经验数据三大类。
◆观测数据——对研究对象直接进行观测和度量所获得的数据。
又分为定性和定量数据。
①定性数据——用代码或字符等来表示某一地质特征及其相互间关系的一种“数据”。
又分为名义型和有序型两种。
➢名义型数据通过鉴别区分不同的对象或个体并赋予不同代码后形成的数据。
如:岩石的颜色、结构、构造等。
➢有序型数据有次序的数码或代码并用次序来表示数码或代码间的一种单调升降关系的数据。
如:生油岩的干酪根分成I,II,III级。
又如:油气储量的级别等。
②定量数据——具有数量概念的数据。
分为间隔型和比例型数据。
➢间隔型数据特点:不仅能比较其大小,而且能定量地表示数据间的差异;无自然零值,但有负值。
➢比例型数据特点:具有绝对零值而没有负值的间隔型数据。
大多数定量数据都属比例型数据。
◆综合数据——由观测数据经有限次算术或代数运算后,并具有明确地质意义的数据。
如:甲烷系数、时间—温度指数值、平均值、均方差、相关系数等。
◆经验数据——根据大量实际观测值归纳出来或根据公式计算而得出的经验值。
如:单储系数、排烃系数等。
3 属性(1) 统计规律性随机变量的性质,一次观测具有偶然性,多次重复观测,则具有规律性。
(2) 函数规律性当自变量给定,函数γ就完全确定了,如:原子核发生衰变时,即子元素数量公式为:tn eλγ-=式中:0n ——衰变开始时原子核的总数t ——衰变时间 γ——时间t 后母元素的数量 λ——系数二、地质数据的选择和整理1 地质数据选择时应注意的问题◆根据研究目的和要求选择数据◆选择的数据反映指标的地质意义明确 ◆数据的水平要一致,可靠性要强◆能对数据的统计和函数规律性作出描述、 ◆数量应能满足数学模型的要求 ◆数据的分布均匀、合理2 数据的处理(1) 原始数据矩阵,即111212122212ppijn n npn p x x x x x x X x x x x ⨯⋅⋅⋅⋅⋅⋅⎡⎤⎢⎥⋅⋅⋅⋅⋅⋅⎢⎥==⎡⎤⎣⎦⎢⎥⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⎢⎥⋅⋅⋅⋅⋅⋅⎢⎥⎣⎦(2) 方法数据矩阵对原始数据矩阵按一定的方法进行变换,使其满足数学模型的要求,这种经变换后形成的数据矩阵称为方法数据矩阵。
地质统计学讲义.doc
地质统计学讲义第1章地质统计学的发展历史和现状1.1地质统计学的发展历史地质统计学是根据英文单词Geostatistics的字面意思翻译过来的,从词源学上讲,按照韦氏(N .Webster)大词典对于“geo”(地球、土地)和“Statistics”(统计学)两词的释义,地质统计学(Geostatistics)的定义便是:“关于取自地球的大量数据的收集、分析、解释和表达的一个数学分支”。
就矿山地质统计学的内容范围来说,这一定义是十分恰当的。
地质统计学包含经典统计学与空间统计学,其重点是地球状况,也就是说着重于地质特征的分析。
按其基本原理可定义为:地质统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性,又有结构性的自然现象的科学。
早在上世纪10年代里,传统的统计学方法就已用于分析地质数据。
在地质矿产方面最初也是利用传统的统计学作为分析数据的工具,直到上世纪40年代后期,当南非统计学家H.S西奇尔(Sichel)判明南非各金矿的样品品位呈对数正态分布以后,才真正确立了地质统计学的开端。
1951年,南非的矿山工程D.G.克立格(Daniel Krige)在H.S西奇尔研究的基础上提出一个论点:“可以预计,一个矿山总体中的金品位的相对变化要大于该矿山某一部分中的金品位的相对变化”。
换句话说,以较近距离采集的样品很可能比以较远距离采集的样品具有更近似的品位。
这一论点是描述在多维空间内定义的数值特征的空间统计学据以建立的基础。
到上世纪60年代,才认识到需要把样品值之间的相似性作为样品间距离的函数来加以模拟,并且得出了半变异函数。
法国概率统计学家马特隆(Matheron)创立了一个理论框架,为克立格作出的经验论点提供了精确而简明的数学阐释。
马特隆创造了一个新名词“克立格法”(Kriging),藉以表彰克立格在矿床的地质统计学评价工作中所起到的先驱作用。
即1962年,马特隆在克立格和西奇尔研究的基础上,将他们的成果理论化、系统化,并首先提出了区域化变量(Regionalized variable)的概念,为了更好地研究具有随机性及结构性的自然现象,提出了地质统计学(Geostatistics)一词,发表了《应用地质统计学》,该著作的出版标志着地质统计学作为一门新兴边缘学科而诞生。
地质统计学教材
这里必须澄清的是,极值样品是实实在在存在的有效样品,并不是指那些由于化验或数据录入错误造成的、具有“错误品位值”的样品。如果有根据认为某些样品的品位是错误的,将这些样品从样本空间中删除不仅是合理的而且是必要的。
第一章品位与储量计算
第一节概述
投资一个矿床开采项目,首先必须估算其品位和储量。一个矿床的矿量、品位及其空间分布是对矿床进行技术经济评价、可行性研究、矿山规划设计以及开采计划优化的基础,是矿山投资决策的重要依据。因此,品位估算、矿体圈定和储量计算是一项影响深远的工作,其质量直接影响到投资决策的正确性和矿山规划及开采计划的优劣。从一个市场经济条件下的矿业投资者的角度看,这一工作做不好可能导致两种对投资者不利的决策:(1)矿体圈定与品位、矿量估算结果比实际情况乐观,估计的矿床开采价值在较大程度上高于实际可能实现的最高价值,致使投资者投资于利润远低于期望值,甚至带来严重亏损的项目。(2)与第一种情况相反,矿床的矿量与品位的估算值在较大程度上低于实际值,使投资者错误地认为在现有技术经济条件下,矿床的开采不能带来可以接受的最低利润,从而放弃了一个好的投资机会。
(1)限值处理:即将极值样品的品位降至某一上限值。比如在上述例子中,将所有高于100克/吨的样品的品位降至100克/吨。
(2)删除处理:即将极值样品从样本空间中删去,不参与分析计算。
使用上述处理方法时应非常谨慎。虽然极值样品在数量上占样品总数的比例很小,但由于其品位很高,对矿石的总体品位和金属量的贡献值都很大。因此,不加分析地进行降值或删除处理会严重歪曲矿床的实际品位和金属含量,人为地降低矿床的开采价值。这一点可用下面的例子说明。
地统计学简介
地统计学的应用领域
地球科学
地统计学在地球科学领域有着广 泛的应用,如地质学、地貌学、 气象学、水文学等。它可以帮助 科学家们更好地理解地球表面的 形态和结构,以及地球系统的运 行规律。
数据质量和精度问题
要点一
数据收集和整理
数据的质量和精度对于地统计学的分析至关重要。然而, 由于数据的来源和收集方法的限制,数据可能存在偏差和 噪声,影响分析结果。
要点二
数据处理和分析
为了获得更准确的结果,需要对数据进行预处理和分析。 这包括数据清洗、插值、回归分析等,需要耗费大量时间 和精力。
高维和大数据问题
Python
Python是一种通用编程语言,通过第三方 库如“PySAL”和“geopandas”,可以用
于地统计分析和数据可视化。
地统计学在环境科学、地理学、地质学等领域的应用实例
环境科学
地统计学在环境科学中广泛应用于空气、水和土壤污染的空间分布研究,通过空间数据分析了解污染物的扩散和传播 规律。
目的
材料和方法
结果和讨论
了解土壤重金属的空间分布特 征,分析其来源及对环境的影 响。
采集不同区域的土壤样本,测 定重金属含量,结合地统计方 法和GIS技术,绘制重金属空 间分布图,分析其来源。
发现土壤重金属空间分布存在 显著差异,主要来源为工业排 放、农业施肥和交通尾气等。 重金属对生态环境的影响不容 忽视,应采取相应措施降低其 对生态和人体的危害。
已知点建立半变异函数模型,预测未知点的值。
克里格方法的步骤
02
计量地理学第二章——地理数据的类型
属性数据
用于描述地理实体、地理要素、地理现象、 地理事件、地理过程的有关属性特征。
第一节 地理数据的类型
一、空间数据的表达:
1、点——由一个独立的坐标点(x,y)定位,是空间上不可再分 的几何实体
1)实体点:用来代表一个实体。
2)注记点:用于定位注记。
3)内点:用于负载多边 形的属性,存在于多边 形内。
土地利用类型
地块序列号
1
2
3
4
5
6
土地利用类型
13 15 21 14 14
31
第二节 地理数据的基本特征
数量化、形式化与逻辑化 不确定性 多种时空尺度 多维性
第二节 地理数据的基本特征
一、数量化、形式化与逻辑化
定量化的地理数据是建立地理数学模型的基础,作用: ①确定模型的参数、给定模型运行的初值条件; ②检验模型的有效性。
11
12
平均 值
中位 数
众数
面积 (ha) 12 83 50 35 55 50 72 40 85 29 65 75 54.25 52.5 50
应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。
第四节 地理数据的统计处理
二、几种常用的统计指标与参数
1、描述地理数据一般水平的指标
例2:下表给出了中国西部地区某城市2000年家庭月收入的抽样调查结 果,试计算其平均值、中位数和众数。
四、多维性
描述该地理对象所处的地理位置和空间范围, 空间方面 一般需要2~3个变量 ;
描述该地理对象的具体内容,至少需要1个以 属性方面 上,多则需要十几个、甚至几十个变量 ; 时间方面 描述该地理对象产生、发展和存在的时间范围,
需要1个变量 。
地统计学文档
地统计学导言地统计学是统计学的一个分支,它研究地理空间数据的统计方法和技术。
地统计学的发展可以追溯到20世纪60年代,在地理学和统计学领域产生了广泛的应用。
本文将介绍地统计学的基本概念、方法和应用,并讨论其在地理信息系统(GIS)、地质勘探、环境保护等领域的重要性。
地统计学的基本概念地统计学主要涉及以下几个基本概念:空间自相关性空间自相关性是指地理空间数据中的观测值之间是否存在相关性。
比如,如果一片森林中的某个地区发生了大面积的树木死亡现象,那么与该地区相邻的区域可能也会受到影响。
地统计学可以用空间自相关性来描述地理空间数据的相关程度,从而帮助我们理解地理模式和过程。
反距离权重函数反距离权重函数是地统计学中常用的一种权重函数。
它通过计算点之间的距离,并将距离的倒数作为权重因子,以表达点之间的相关性。
这种权重函数广泛应用于地理空间数据的插值和预测分析中。
克里金插值克里金插值是地统计学中一种重要的空间数据插值方法。
它基于空间自相关性的原理,通过拟合空间数据的半方差函数来进行插值。
克里金插值可以用来填补空间数据的缺失值,生成连续的表面模型,并进行空间预测分析。
地统计学的方法和技术地统计学包括许多方法和技术,用于分析和解释地理空间数据。
以下是一些常用的地统计学方法和技术:空间插值空间插值是地统计学中最常用的方法之一,它用来估计地理空间数据在未观测位置的值。
常见的空间插值方法包括克里金插值、反距离加权插值、三角网插值等。
空间聚类空间聚类是将相似的地理空间数据点组织成类或群体的过程。
它可以帮助我们发现地理空间数据中存在的模式和结构。
常见的空间聚类方法有层次聚类、K均值聚类和DBSCAN。
空间回归空间回归是一种用来解释地理空间数据的回归分析方法。
它考虑了空间关联性对数据的影响,并使用空间自回归模型来描述数据之间的空间依赖关系。
地理权重矩阵地理权重矩阵用于描述地理空间数据之间的相互作用关系。
它可以包含两种类型的信息:点之间的距离和点之间的相似性。
《地质统计学》ppt课件
〔2〕在运用方面有了本质性的突破。采用地质统计学方法 提交地质勘探成果为消费部门所接受,开场成为地质勘探、 油田和矿山开发的运用方法,与消费实际结合得越来越严 密。。
〔3〕开发出了一系列软件系统。如西安石油学院的的KMS
2、统计概率
频率:设随机事件A,在次实验中发生m次,其比值m/n称为 随机事件A的频率
显然 当反复实验的次数充分大时,随机事件A的频率〔A〕 经常稳定在一个确定的数字附近,这就是概率。
概率:在一定的一样条件下,反复作n次实验中发生了m次, 当n充分大时,随机事件A的频率m/n稳定在某一数字P附近, 称数值P为该随机事件的概率。 记为 P(A)=P
2、构成阶段〔20世纪50年代末—60年代〕
50年代末,法国概率统计学家马特隆〔G Matheron〕在克里格 及西舍尔研讨的根底上,对十几个不同类型的矿床继续深化研 讨,于1962年首先提出了区域化变量〔regionalized variable〕的概念,为了更好地研讨具有随机性和构造性的自 然景象,他提出了地质统计学〔Geostatt;从而为地质统计学奠定了实际根底。
克里格算法的实值是利用临近的数值 Z(μa),a=1.2.3…n,估计一个未取样值Z(μ)。 主要研讨各种克里格的数学根底,不同克里格方法 的表达式及其运用条件,克里格在矿产估算中的运 用。
4、随机模拟
随机模拟是从一个随机函数(RF)模型中提取多个等 概率的一切随机变量〔RV〕的结合实现。 在随机模拟中,研讨的内容包括随机模拟的定义及 其与插值的区别,随机模拟的根本原理,随机模拟 的分类,典型的随机模拟方法及其计算机实现。
地质统计学基本原理
Z(x 差h)的方差之半定义为区域化变量 的Z(变x)差函数,记为
(x, h)
(x, h) 1 Var[Z (x) Z (x h)]
2
变差函数定义
• 定义:在任一方向 a ,相距 | h |的两个区域 化变量 Z(x) 和 Z(x h) 的增量的方差的一半。
• 公式: (h) 1 E[Z (x) Z (x h)]2
( h)
基台值
..
块金值 0
. . . Samples
Spatially Correlated 样本空间相关
.(基台值=先. 验方差)
Samples not spatially correlated
样本空间不相关
h
变程
理论变差函数模型
Samples Spatially Correlated
• 球状模型 • 线性模型 Samp•les指no数t 模型 spatially•cor高rel斯ate模d 型
各向异性椭球
• 主轴变程 • 次轴变程 • 垂直轴变程 • 方位角 • 倾角 • 旋转角度
内容介绍 • 克里格插值算法
克里格插值算法
• 克里格插值算法建立在变差函数及结构分析理论 之上
• 适用条件是变差函数及相关分析的结果表明样品 间存在空间相关性
• 其实质是利用区域化变量的原始数据和变差函数 的结构特点,对未采样点的区域化变量的取值进 行线性、无偏、最优估计。
实验变差函数计算(3D)
实验变差函数参数选择
步长大小的选择:
步长间距太小
步长间距较合适
实验变差函数参数选择
步长个数的选择: 原则:
步长大小*步长个数=研究区域长度的一半
步长总间距
理论变差函数
地统计学知识点
地统计学知识点第一章概论1.地统计学:以区域化变量理论为基础、以变异函数为主要工具;研究在空间分布上既有随机性和结构性;或空间相关和依赖性的自然现象的科学2.地统计学发展:1951年南非克里金和西舍尔提出克里金法20世纪60年代1962年法国马特隆提出地统计学概念出版应用地统计学论;该书中第一次阐明了地统计学原理;地统计学诞生1977年美国Parker博士将地统计学概念引入中国3.地统计学与经典统计学的区别4.地统计学研究内容: P3-4空间估值定义、局部不确定性预测、随机模拟、多点地统计学该方法产生于石油领域5.地统计学适用范围6.地统计学应用领域地质、土壤、生态、环境、气象第二章地统计学基础1.总体抽取样本的四种方案理解如何抽取样本:随机抽样、机械抽样、分层抽样、分组抽样2.随机变量的数字特征各定义 P15-21a)集中性度量平均数:算数平均值、中数、众数、数学期望b)离散性度量离散数:极差、离差、方差、协方差、矩、变异函数c)形态度量形态数:偏度、峰度期望:E(X)=∑x x x x设C是常数;则有EC=C设X是一个随机变量;C是常数;则有ECX=CEX设X、Y为两个随机变量;则有EX+Y=EX+EY设X;Y是相互独立的随机变量;则有EXY=EXEY方差:D(X)=E([X−E(X)]2)=∑(x x−x)2?x x设C是常数;则有DC=0设X是一个随机变量;C是常数;则有DCX=C2DX DC+X=DX设X、Y为两个随机变量;则有DX+Y=DX+DY+ 2E{X-EXY-EY}若X;Y是相互独立的随机变量;则有DX+Y=DX+DY协方差:xxx(x,?x)=x(xx)−x(x)x(x)3.相关关系:指事物之间的关系数值存在着一定的依存关系;即某一现象在其发展变化中;当数量上为一确定值时;与之有联系的其他现象可以有若干个数值与之对应;但这些值按某种规律在一定范围内进行波动..4.特点:一个变量的取值不能由另一个变量唯一确定;也不能用函数形式给予描述;但并不是无规律可行的..5.分类①所涉及变量的多少:单相关:两个变量之间的相关..复相关:三个或三个以上变量之间的相关..②按相关关系的表现形态:直线相关和曲线相关③简单相关关系下按变量变动的方向:正相关:两个变量同方向变化..负相关:两个变量反方向变化..无相关或零相关:两个量的变化互不影响..6.判断两变量是否存在相关性方法:散点图法、假设检验法7.简单相关系数概念及计算掌握x xx =∑x x =1√∑((x x −x̅̅̅̅))xx =1×√∑((x x −x̅̅̅̅))x x =1记 x xx =∑(x x −x̅̅̅̅)(x x −x ̅̅̅̅)x x =1 x xx =∑((x x −x̅̅̅̅))2x x =1 x xx =∑((x x −x̅̅̅̅))2x x =1 则 x xx =xx√x x8.偏相关:当研究某一个要素对另一个要素的影响或相关程度时;暂不考虑其它要素的影响;而单独研究那两个要素之间的相互关系的密切程度时;则称为偏相关..9.偏相关系数:用来度量偏相关程度的统计量..性质:系数范围在-1和1之间;系数的绝对值越大;其偏相关程度越大;系数的绝对值小于等于由同一系列资料求得的负相关系数..10. 一元线性回归模型步骤掌握各步骤 P32-34① 立一元线性回归方程:x ̂=x ̂+x ̂x x ̂是y 的估计值 x ̂为回归常数 x ̂为回归系数 ② 回归系数的估计..③对一元回归方程的评价:拟合优度的评价;回归方程显着性检验..11. 回归分析种类:按自变量多少:一元回归、多元回归分析按回归方程表现形式:线性回归、非线性回归分析12. 回归分析与相关分析的区别和联系:13.非线性回归模型:掌握P39 表2-2①数曲线y=d x xx可以将其转化为直线形式: y′=a+bx′,a=lnd②对数曲线y=a+blnx可以将其转化为直线形式:y′=a+bx′③幂函数曲线y=dx x可以将其转化为直线形式:y′=a+bx′ ; 其中; a=lnd④双曲线1x=a+b x可转化为直线形式:y′=a+bx′;可转化为直线形式:y′=a+bx′⑤⑤对于S型曲线y=1x+xx−x14.地理数据: 地理数据是用一定的测度标准去衡量地理要素而取得的地理信息地理要素:构成地理环境整体的各个独立的、性质不同的组成部分15.地理数据分类:间隔尺度数据定量地理数据比例尺度数据地理数据有序数据定性地理数据二元数据名义尺度数据16.频率分析检验方法:频率分布直方图、正态plot分布17.离群值分析分为全局离群值对于数据中的所有点具有很高或很低值的观测样点、局部离群值数据中对于其周围的点的值具有很高或很低观测值的样点18.识别离群值方法看书吧 P45-47直方图识别全局离群值半变异函数云图识别离群值Voronoi图识别离群值V多边形计算方法19.全局趋势分析:指从总体上分析数据集在空间某一特定方向上的变化趋势20.空间自相关分析特点:随着样点距离的增大;变异函数值会逐渐增大;点云会从低逐渐升高21.各向异性:在不同的方向上;数据的变异情况呈现出差异的性质第三章区域化变量理论1.随机场:当随机函数依赖于多个自变量时;称为随机场2.区域化变量:以空间点x的三个直角坐标x u;x v;x w为自变量的随机场;称为区域化变量区域化变量与普通随机变量的不同a)普通随机变量的取值按某种概率分布而变化b)区域化变量则根据其在一个域内的位置取不同的值..即区域化变量是普通随机变量在域内确定位置上的特定取值;它是随机变量与位置有关的随机函数..c)区域化变量有二维的、三维的..例:矿石品位、矿体厚度、大气污染浓度、气温、降水量、海拔高度、土壤重金属含量等等..3.区域化变量的性质:随机性和结构性特性:空间局限性;不同程度的空间连续性;不同类型的各向异性4.协方差函数的概念:随机过程Zt在时刻x1和x2处两个随机变量Z(x1);Z(x2)的二阶混合中心矩性质:先验方差不小于零;Ch=C-h;是一个偶函数;协方差函数的绝对值小于等于先验方差;γ∞=C0;构成的变异函数矩阵必须是条件非负定矩阵..计算x∗(x)=1x(x)∑[x(x x)−x(x x)̅̅̅̅̅̅̅̅̅̅̅̅̅]2PPT 335.变异函数的概念:变异函数是在任意方向α;相距|h|的两个区域化变量值Z(x)与Z(x+h)的增量的方差..性质:h=0时;变异函数为零;γ(h)=γ(−h);是一个偶函数;γ(h)≥0即研究现象的变异函数值只能大于或等于零;|h|→∞时;γ(h)→C(0);即当空间上样点间距离无限大时;变异函数值接近先验方差;[−γ(h)]必须是一个条件非负定函数..功能:变异函数通过“变程”反映变量的影响范围;“基台值”反映区域化变量在研究范围内变异的强度;不同方向上的变异函数图可反映区域化变量的各向异性;块金常数C0的大小可反映区域化变量的随机性大小;变异函数在原点处的性状可反映区域化变量不同程度的空间连续性计算x∗(h)=1∑[x(x x)−x(x x+x)]2PPT 39~442x(x)6.掌握P61-65的例题7.二阶平稳的条件 P66a)在整个研究区内;E[x(x)]=m常数存在;?xb)在整个研究区内;区域化变量Zx的协方差函数存在且平稳即只依赖于位移h;而与x无关Cov[Z(x),Z(x+h)]=E[Z(x)?Z(x+h)]−E[Z(x)]?E[Z(x+h)]=x[Z(x)?Z(x+h)]−x2 =x(x)8.二阶平稳下对变异函数公式推导的推论 P66-679.判断估计量好换的标准 P69a)无偏性E[Z(x x)]=E[x∗(x x)]=xb)最优性方差最小σx2=xxx[x(x x)−x∗(x x)]?0第四章变异函数结构分析1.变异函数的理论模型PPT 5~16a)有基台值模型:纯块金效应模型球状模型指数模型高斯模型线性有基台值模型b)无基台值模型线性无基台值模型幂函数模型对数模型掌握各公式;为第五章克里金计算做准备2.孔穴效应:当变异函数γ(h)在h大于一定的距离后;并非单调递增;而在具有一定周期波动时就显示出一种“孔穴效应”..3.掌握书上79页表4-14.结构分析: 构造一个变异函数模型对于全部有效结构信息作定量化的概括;以表征区域化变量的主要特征..结构分析的主要方法是套合结构5.单一方向上套合: 每一个变异函数代表同一方向上一种特定尺度的变异;并可以用不同的变异函数理论模型来拟合;即单一方向的套合结构6.各向异性的种类:几何异向性、带状异向性 P86①几何异向性当区域化变量在不同方向上表现出变异程度相同而连续性不同时称为几何异向性②带状异向性当区域化变量在不同方向上变异性差异不能用简单几何变换得到时;就称为带状异向性7.结构分析的步骤 P91-94①域化变量选择②数据的获取与审议③数据的统计分析④变异函数的计算⑤变异函数的结构分析——各向异性⑥理论变异函数模型的最优拟合及检验⑦变异函数理论模型的专业分析第五章克里金法1.克里金法:又称为空间局部估计或空间局部插值法;克立格法是建立在变异函数理论及结构分析基础上;在有限区域内对区域化变量的取值进行线性无偏最优估计的一种方法..种类:简单克立格法;普通克立格法;泛克立格法;对数正态克立格法;指示克立格法;概率克立格;析取克立格法;协同克立格法2.最合理的估计方法必须满足的条件 P983.克里金估值的过程:数据检查;模型拟合;模型诊断;模型比较4.简单克里金法掌握书上102页的例题5.普通克里金法掌握书上115页的例题6.泛克里金法漂移:非平稳区域化变量Zx的数学期望;在任一点x上的漂移就是该点上区域化变量Zx 的数学期望涨落:是一个数学期望为0的区域化变量;可认为涨落是围绕漂移mx摆动的随机误差..理解126页的例题7.非线性克里格法1)对数正态克里格法2)指示克里格法指示克里格法步骤 P1303)析取克里格法8.协同克里格法1)协同区域化变量理论中;满足二阶平稳假设、内蕴假设的协同区域化变化条件 P145-1462)交叉协方差函数性质:当k=k’时x(x)=x x(x)γxx′(x)=γx(x)xx′交叉变异函数性质:交叉变异函数关于k和k ′对称;即γxx ′(x )=γx ′x (x ) 交叉变异函数关于h 和-h 对称;即γxx ′(x )=γxx ′(−x )3) 交叉协方差函数和交叉变异函数计算公式 P148 PPT95、96 掌握书上149页例题 4)协同克里格法使用条件 P154a) 由协同克里格法的定义和公式推导可知;协同克里格法在以下条件下使用:i. 估计邻域中待估变量至少有一个样品数据.. ii.待估变量与其它变量的数据不在同一支撑上..b) 协同克里格法在以下条件下不使用:i. 估计邻域中;待估变量若没有样品数据;无偏条件∑x x x0=1x x0x x0不成立..ii.可以证明;在同一支撑上只利用待估变量的数据进行估值时;和同时使用待估变量与其它变量进行估值;其精度是相同的..特别是当待估变量与其它变量的数据支撑雷同时;协同克里格方差即为普通克里格方差..此时用普通克里格估值即可;不必实施复杂的协同克里格法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
狄克松检验临界 值表
2012-6-29
华中农业大学 资源与环境学院
20
异常值的识别和处理——t检验法
t X
k
X S
n 1 n
2012-6-29
华中农业大学 资源与环境学院
21
异常值的识别和处理
对于大样本(样本容量大于100)的异常值 判断,通常用二倍或三倍标准差法;对于 小样本的异常值判断,一般使用狄克松、 格拉布斯和t检验法。但这三种方法仅适用 于用来剔除正态小样本的异常数值,若样 本不符合正态分布,则要进行转换。
C A z 2S
对于数据分布相对复杂的情况,可采用3S法
C A z 3S
2012-6-29 华中农业大学 资源与环境学院 12
异常值的识别和处理——平均值加标准差法
C A z 2S
(5.2932,7.941)
C A z 3S
(4.63125,8.60295)
2012-6-29
0.99 1.155 1.492 1.749 1.944 2.097 2.231 2.323 2.410 2.485 2.550 2.607 2.659 2.705 2.747
n 17 18 19 20 21 22 23 24 25 30 35 40 45 50
P
0.95 2.475 2.504 2.532 2.557 2.580 2.603 2.624 2.644 2.663 2.745 2.811 2.866 2.914 2.956
14
异常值的识别和处理——格拉布斯法
过程: 测量数据:例如测量10次(n=10),获得以下数据: 8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、 6.0。 排列数据:将上述测量数据按从小到大的顺序排 列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、 10.1、14.0。可以肯定,可疑值不是最小值就是最 大值。 计算平均值x-和标准差s:x-=7.89;标准差s= 2.704。计算时,必须将所有10个数据全部包含在 内。 计算偏离值:平均值与最小值之差为7.89-4.7= 3.19;最大值与平均值之差为14.0-7.89=6.11。
2
i
z)
i 1
S
:样本标准差
n 1
6
2012-6-29
华中农业大学 资源与环境学院
离散型度量
变异系数:样本变量的相对变异量,可以 比较不同样本相对变异程度大小
CV S / z 100 %
标准分和标准化变量: 标准分: z x x 用于刻画数据与均值相对于标准差的
i i
华中农业大学 资源与环境学院 16
2012-6-29
异常值的识别和处理——格拉布斯法
定检出水平α:如果要求严格,检出水平α 可以定得小一些,例如定α=0.01,那么置 信概率P=1-α=0.99;如果要求不严格,α 可以定得大一些,例如定α=0.10,即P= 0.90;通常定α=0.05,P=0.95。 查格拉布斯表获得临界值:根据选定的P值 (此处为0.95)和测量次数n(此处为10),查格 拉布斯表,横竖相交得临界值G95(10)= 2.176。 比较计算值Gi和临界值G95(10):Gi=2.260, G95(10)=2.176,Gi>G95(10)。
2012-6-29
华中农业大学 资源与环境学院
28
数据转换处理
将原始数据的频数分布,通过一定的尺度 转化,转换为另外的频数分布,而正态转 化是最为常用的一种。 地统计学分析中,分析数据最好接近正态 分布,转换方法主要有 对数转换:X -> lnX 平方根转换:z z 反正弦转换 z sin z ……
华中农业大学 资源与环境学院 5
2012-6-29
R z max z min
离散型度量
极差:R z
max
z min
四分位差:Q 3 Q 1
2
离均差:
zi z
2
方差:总体方差: 样本方差:
S
1 N
(z
i 1
N
i
)
2
:总体标准差
(z
2
n
2012-6-29
华中农业大学 资源与环境学院
26
50
40
C ou n t
30
20
10
6.0 0
7.0 0
8.0 0
PH Ö µ
2012-6-29
华中农业大学 资源与环境学院
27
正态分布的检验方法—其他
偏度峰度联合检验法,2者越接近0,越符合 正态分布 夏皮洛-威尔克检验 科尔莫戈洛夫-斯米尔诺夫检验法(K-S) ……
相关分析和回归分析
2012-6-29
总体,样本和随机样本
总体是指根据统计分析或研究目的而确定的同类 事物或现象的全体,有时也把具有共同性质的元 素所组成的集合称为总体。 从总体中抽取若干个元素而构成的集合叫样本 在抽选样本时,总体的每一个元素被抽中的概率 相同,这时样本就称为随机样本。
2012-6-29
华中农业大学 资源与环境学院
18
格拉布斯表——临界值GP(n)
n 3 4 5 6 7 8 9 10 11 12 13 14 15 16
2012-6-29
P
0.95 1.135 1.463 1.672 1.822 1.938 2.032 2.110 2.176 2.234 2.285 2.331 2.371 2.409 2.443
0.99 2.785 2.821 2.854 2.884 2.912 2.939 2.963 2.987 3.009 3.103 3.178 3.240 3.292 3.336
19
华中农业大学 资源与环境学院
异常值的识别和处理——狄克松法
如有一组数据: 排序后: 怀疑0.167为异常值,计算Q 查表的,对于10个观测数 因此,0.167在90%的置信概率内被剔除,但 因此,0.167在95%的置 信概率内被保留
1
2012-6-29
华中农业大学 资源与环境学院
29
2.3 相关分析和回归分析
回归分析:是确定两种或两种以上变数间相互依 赖的定量关系的一种统计分析方法。运用十分广 泛,回归分析按照涉及的自变量的多少,可分为 一元回归分析和多元回归分析;按照自变量和因 变量之间的关系类型,可分为线性回归分析和非 线性回归分析。如果在回归分析中,只包括一个 自变量和一个因变量,且二者的关系可用一条直 线近似表示,这种回归分析称为一元线性回归分 析。如果回归分析中包括两个或两个以上的自变 量,且因变量和自变量之间是线性关系,则称为 多元线性回归分析。
s
偏离程度
2012-6-29
华中农业大学 资源与环境学院
7
偏度和峰度
偏度系数:描述分布的偏斜程度
Sk 1 nS
3
(z
i 1
n
3 i
z)
Sk=0,对称分布; Sk>0,正偏(右偏),较小的数据比较集中; Sk<0,负偏(左偏),较大的数据比较集中
2012-6-29
华中农业大学 资源与环境学院
地学计算方法
第二章 样本数据的 统计分析和预处理
资源与环境学院 杨勇
2012-6-29
1
目录
描述性统计
频数分布 集中趋势的度量 离散型度量 偏度和峰度 异常值的识别和处理 正态分布的检验方法 数据转换处理 回归分析 相关分析
华中农业大学 资源与环境学院 2
数据检验和分布分析
实例见表2-3 和 图2-2
2012-6-29
华中农业大学 资源与环境学院
4
Q j/m1 z N
N
zi
i 1
集中趋势的度量
反映数据分布集中趋势的参数 算术平均数:z 1 z
N
N
i
i 1
中位数:如果样本数据资料中的全部观测 值从小到大一次排列,处于中间位置的观 测值称为中位数。 分位数:Q j / m 众数:频率直方图中对应最大频数的那一 组中的组中值。
7.0 0
8.0 0
PH Ö µ
2012-6-29
华中农业大学 资源与环境学院
25
正态分布的检验方法—PP和QQ
Q-Q图是一种散点图,对应于正态分布的Q-Q图,就 是由标准正态分布的分位数为横坐标,样本值为纵 坐标的散点图. 要利用QQ图鉴别样本数据是否近 似于正态分布,只需看QQ图上的点是否近似地在 一条直线附近, 与P-P图不同的是,Q-Q图是用变 量数据分布的分位数与所指定分布的分位数之间 的关系曲线来进行检验的。P-P图和Q-Q图的用途 完全相同,只是检验方法存在差异
华中农业大学 资源与环境学院 17
2012-6-29
异常值的识别和处理——格拉布斯法
判断是否为异常值:因为Gi>G95(10),可 以判断测量值14.0为异常值,将它从10个测 量数据中剔除. 余下数据考虑:剩余的9个数据再按以上步 骤计算,如果计算的Gi>G95(9),仍然是异 常值,剔除;如果Gi<G95(9),不是异常值, 则不剔除。本例余下的9个数据中没有异常 值。
9
2.2 数据检查和分布分析
在进行地统计学分析前,为了保证分析结 果的可靠性,经常需要对数据进行检查和 预处理,剔除异常值的影响,进行正态分 布检验和转换,使参与计算的数据尽量符 合正态分布。