【矿床统计预测 实习指导】实习3c-聚类分析法
矿床统计预测讲义
矿床统计预测讲义
简介
矿床统计预测是指通过对已知矿床数据进行统计分析和模型建立,从而对未知矿床进行预测的一种方法。它是矿床勘探中重要的工具之一,可以帮助矿业公司和勘探者制定科学合理的采矿方案和决策。
本讲义将介绍矿床统计预测的基本原理、主要方法和实际应用,帮助读者了解和掌握该领域的知识和技能。
内容
1. 矿床统计预测的基本原理
矿床统计预测是基于已知矿床数据的分析和模型建立,通过对已有数据进行统计分析,找出其中的规律和趋势,从而对未知矿床进行预测。其基本原理包括:
•数据收集:收集已知矿床的地质勘探数据,包括地质剖面、岩石样品、地球物理扫描等。
•数据分析:对已有数据进行统计分析,包括数据的中心趋势、离散程度、分布形态等。
•模型建立:根据数据分析结果建立预测模型,包括回归模型、聚类模型、神经网络模型等。
•预测验证:利用已有数据验证模型的准确性和预测能力。
2. 矿床统计预测的主要方法
矿床统计预测涉及多种统计学和数学方法,常用的方法包括:
2.1. 回归分析
回归分析是一种用于探索因变量与一个或多个自变量之间关系的统
计方法。在矿床统计预测中,回归分析可用于确定地质因素对矿床分
布的影响程度,并建立预测模型。
2.2. 空间插值
空间插值是一种通过已有数据推断未知位置上的值的方法。在矿床统计预测中,空间插值可用于填补数据缺失的位置,从而得到完整的矿床数据集。
2.3. 聚类分析
聚类分析是一种将相似对象归为一类的方法。在矿床统计预测中,聚类分析可用于将矿床按照地质特征划分为不同的类型,为矿床预测提供参考。
2.4. 神经网络
聚类分析
聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。聚类分析内容非常丰富,按照分类对象的不同可分为样品分类(Q-型聚类分析)和指标或变量分类(R-型聚类分析);按照分类方法可分为系统聚类法和快速聚类法。
1. 系统聚类分析
先将n 个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。系统聚类法直观易懂。
1.1系统聚类法的基本步骤:
第一,计算n 个样品两两间的距离 ,记作D= 。
第二,构造n 个类,每个类只包含一个样品。
第三,合并距离最近的两类为一新类。
第四,计算新类与各当前类的距离。
第五,重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
第六,画聚类谱系图。
第七,确定类的个数和类。
1.2 系统聚类方法:
1.2.1最短距离法
1.2.2最长距离法
1.2.3中间距离法
1.2.4重心法
1.2.5类平均法
1.2.6离差平方和法(Ward 法)
上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。最常用的就是最短距离法。
1.3 最短距离法
以下用ij d 表示样品i X 与j X 之间距离,用ij D 表示类i G 与j G 之间的距离。定义类i G 与j G 之间的距离为两类最近样品的距离,即
ij G G G G ij d D j J i i ∈∈=,min
聚类分析法
聚类分析法
聚类分析法(ClusterAnalysis)是一种基于模式识别及统计学理论的数据挖掘技术,它通过让数据集中的项以有联系的方式归入不同的簇(Cluster)来呈现其特征,以此发掘出隐藏在数据背后的所谓的“模式”和知识。聚类分析法主要应用于定性分析(Qualitative Analysis)、模式识别、决策分析(Decision Analysis)、图象处理(Image Processing)、系统自动推理(System Inference)等领域,其主要性质属于非监督式学习。
基本流程
聚类分析法的基本流程包括:数据准备(Data Preparation)、预处理(Pre-processing)、聚类(Clustering)、结果评估(Result Evaluation)等步骤。
在数据准备阶段,需要完成原始数据的清洗、转换、结构化以及标准化等操作。而预处理步骤同样很重要,在此步骤中,可以得到样本的特征数据,并用于聚类模型的建立。
接下来,便是聚类的核心步骤了,完成聚类需要确定聚类的具体方法,例如层次聚类(Hierarchical Clustering)、基于密度的聚类(Density-Based Clustering)、均值聚类(K-means Clustering)等。
最后便是评估结果,在这一步中,会根据聚类的执行情况以及聚类的结果,采用相应的评估指标,对聚类结果做出评价,确定聚类模型的合理性。
工作原理
聚类分析法的工作原理,主要是利用距离函数(Distance Function)来度量数据项之间的距离,从而将数据项归入不同的簇。
聚类分析
定量分类
❖ 但历史上这些分类方法多半是人们主要依靠经验作定性 分类,致使许多分类带有主观性和任意性,不能很好地
揭示客观事物内在的本质差别与联系;特别是对于多因素、
多指标的分类问题,定性分类的准确性不好把握。
❖ 聚类分析就是分析如何对样品(或变量)进行量化分类的问
题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对
K均值聚类分析
假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表1。
表1 样品测量结果
样品
变量
A
5
3
B
-1
1
C
1
-2
D
-3
-2
试将以上的样品聚成两类。
K均值聚类分析
第一步:按要求取K=2,为了实施均值法聚类,我们将这些
样品随意分成两类,比如(A、B)和(C、D),然后计算
这两个聚类的中心坐标,见表2所示。
K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样 品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:
什么是聚类分析
什么是聚类分析?聚类分析方法的类别
聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程。
基本概念
聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。
聚类技术通常又被称为无监督学习,与监督学习不同的是,在簇中那些表示数据类别的分类或者分组信息是没有的。
数据之间的相似性是通过定义一个距离或者相似性系数来判别的。图1 显示了一个按照数据对象之间的距离进行聚类的示例,距离相近的数据对象被划分为一个簇。
图1 聚类分析示意
聚类分析可以应用在数据预处理过程中,对于复杂结构的多维数据可以通过聚类分析的方法对数据进行聚集,使复杂结构数据标准化。
聚类分析还可以用来发现数据项之间的依赖关系,从而去除或合并有密切依赖关系的数据项。聚类分析也可以为某些数据挖掘方法(如关联规则、粗糙集方法),提供预处理功能。
在商业上,聚类分析是细分市场的有效工具,被用来发现不同的客户群,并且它通过对不同的客户群的特征的刻画,被用于研究消费者行为,寻找新的潜在市场。
在生物上,聚类分析被用来对动植物和基因进行分类,以获取对种群固有结构的认识。
在保险行业上,聚类分析可以通过平均消费来鉴定汽车保险单持有者的分组,同时可以根据住宅类型、价值、地理位置来鉴定城市的房产分组。
在互联网应用上,聚类分析被用来在网上进行文档归类。
在电子商务上,聚类分析通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,从而帮助电子商务企业了解自己的客户,向客户提供更合适的服务。
多元统计分析实验报告3-聚类分析剖析
2015——2016学年第一学期
实验报告
课程名称:多元统计分析
实验项目:聚类分析
实验类别:综合性□√设计性□验证性□专业班级:13统计班
姓名:张淑娟学号:*********** 实验地点:总理楼60801
实验时间:2015年11月25日星期三
指导教师:*绩:
一、实验数据、参考资料与实验目的
实验数据来源于文件《聚类分析.rar》内的chapter 12,主要参考书为《spss统计分析从入门到精通.pdf》。
实验目的:
1、掌握聚类分析的基本方法,主要有快速聚类、分层聚类、系统聚类和分层聚类等方法;
2、至少应用所给数据进行两种及两种以上的聚类分析,并对其进行比较。具体数据由自己选择。
二、SPSS操作方法或程序
类平均法聚类操作方法:
1、打开分析→分类→系统聚类,打开系统聚类分析对话框,将聚类指标选入变量栏中,将表示地区的变量选入注标个案栏。
2、点击绘制,选中谱系图,点击继续返回主对话框;
3、再点击方法按钮,在聚类方法下拉菜单中选择组间连接法选项,返回主对话框,点击确定。
最短距离法聚类操作方法:
1、2、同类平均法1、2;
3、再点击方法按钮,在聚类方法下拉菜单中选择最短距离法选项,返回主对话框,点击确定。
最长距离法聚类操作方法:
1、2、同类平均法1、2;
3、再点击方法按钮,在聚类方法下拉菜单中选择最长距离法选项,返回主对话框,点击确定。
三、程序运行结果(不能截图,需要导出)
指标的相关系数:
相关性
编号食品衣着燃料住房生活用品文化支出组别
编号Pearson 相关性 1 -.720**-.387*-.136 -.743**-.710**-.687**.439*显著性(双侧).000 .042 .490 .000 .000 .000 .032 N 28 28 28 28 28 28 28 24
聚类分析-3
x11• x12•
d13
x22•
x21•
32
2.组间平均连接(Between-group Linkage)
• • •
• • •
d1 + ⋯ + d 9 9
33
3.重心法(Centroid clustering):均值点的距离
•
( x1 , y1 )
•
( x2 , y2 )
34
§3 系统聚类方法
类与类之间用不同方法定义距离,就产生了不同的 系统聚类方法: •最短距离法 •最长距离法 •中间距离法 •重心法 •类平均法 •离差平方和。。。。
35
一. 系统聚类的基本思想和一般步骤 0. 开始时各样本自成一类 1.根据样品特征规定样品之间的距离 d ij ,有 Cn2 个. 将所距离有列表成距离矩阵(对称),记为D(0). 所有的样本点各自为一类. 2. 选择D(0)表中最小的非零数,不妨假设 d pq , D 于是将 G p 和 Gq 合并为一类,记为 Gr = {G p,Gq } .
(i = 1,2,3,⋯, n; j = 1,2,3,⋯, p )
12
* xij = xij − x j
中心化后 每列数据之和均为0,即每个变量的均值为0. 每列数据的平方和是该列变量样本方差的(n—1)倍. 任何不同两列数据之积是这两列变量样本协方差 的(n—1)倍. 所以很方便地计算方差与协方差的一种数据变换。
矿床统计预测
1绪论基本概念矿床统计预测是利用数学地质的理论和方法进行矿产预测的科学和技术;数学地质是地质学的重要分支,是研究地质体、地质现象、地质作用和地质工作方法的最优数学模型的科学,是以解决地质问题为目标和出发点,以数学为工具,以计算机为手段研究客观世界规律性的科学主要内容:1应用多变量统计分析及类似方法对地质现象进行定量描述、分类、识别、预测、识别分析;2地质作用过程的数值模拟;3地址统计学;4地学信息库及信息系统基本研究思路:地质问题—数学问题—地质解释或地质模型—数学模型—地质认识地质学中运用统计分析的特点:定性数据1名义型数据2有序型数据定量数据3间隔型数据4比例型数据地质数据的特点1多总体性或混合总体性2方向性或坐标性3条件性4其他特性2地质勘探数据的统计分布特征统计分布及其分析方法:随机变量的概率分布函数和概率密度反映该变量取不同值的概率。数据统计分布反映一批数据取不同值的频率。研究途径1计算统计特征值2做频率分布直方图意义1统计分布特征是地质现象的重要的数学特征之一,往具有鉴别和成因意义2查明数据统计分布特征往往是对数据进一步统计分析的基础3根据数据的统计分布特征,选择拟合合适的概率分布模型,可据以进行必要的统计推断和估计分布模型1正态分布由许多微小部分累加或微小因素叠加共同作用2对数正太分布一个变量受个别突出因素作用从而偏离正太3泊松分布描述稀有事件,可用于推断一定地区的找矿潜力4二项分布评价勘探工程布置方案5负二项分布及混合分布6多项分布7超几何分布8指数分布混和分布及其地质意义两个或多个不同的随机变量的加权和的概率分布成为一个混合分布。意义在于他可能反映多种成因及多期作用的叠加混合筛分有时为了深入研究地质体的成因和形成过程,需要从混和分布的数据整体中将各成分分离出来,并对成分总体的参数进行估计,这一过程叫做筛分筛分方法1解析法2数值法3图解法3地质变量研究预处理在用地质数据构置地质变量之前对地质数据进行处理目的1排除或压低地质数据中的随即干扰2突出有用信息3提高数据的可利用程度4增强构置地质变量的可靠性内容1数据校正2统计分布研究和混合总体筛分3可疑观测值剔除,奇异值的稳健处理4数据分布均匀化5不同时间,技术条件下所获得的不同水平的资料的分析处理常见问题1数据校正问题2离群数据鉴别问题3缺值问题4空间插值问题5数据变换地质变量的类型:着时空位置的不同,表示某一地质现象可取不同数值的变量分类按性质定性的定量的按其应用时的取值方法分观测变量乘积变量综合变量伪变量特征1具有明确的地质意义2统计特征明显3地质变量与研究对象之间直接存在着密切的或定量的关系地质变量的选择从众多的地质变量之中选择重要变量的过程目的1获得一批地质意义明确,统计特征明显且与研究对象和目的密切相关的地质变量2达到变量结构最优化,要具有最佳变量组合选择原则和方法1先多后少2尺度对等3深浅结合选择的统计方法1几何作图法2计算简单相关系数、秩相关系数、偏相关系数3信息量计算法4秩和检验法5用于二态变量选择的地质向量长度分析法,相关系数比值法,变异序列法6多元统计方法地质变量取值和综合变量的构置:取值获得地质特征的具体数值,室内取值,野外取值取值原则1保证抽样的随机性2保持抽样方式和条件的一致性综合变量的构置:组合特征值赋权枝状综合变量逻辑组合变量地质变量的变换:目的1使地质变量尽可能接近正态分布2统一地质变量的数据水平3使两变量间的非线性关系变为线性关系4用一组新的为数更少的相互独立变量代替一组有相关关系的原始地质变量统一量纲(标准化极差化均匀化)偏态正态分布(对数变换平方根反正弦
第05讲 聚类分析
中国矿业大学环境与测绘学院
例题:
以下根据式(3.3.9)中的距离矩阵,用最短距离聚类法对某地区的九个 农业区进行聚类分析。
中国矿业大学环境与测绘学院
① 在9×9阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区 不第9区并为一类,记为即G10={G4,G9}。按照公式(3.3.10)式分 别计算G1,G2,G3,G5,G6,G7,G8不G10之间的距离得:
中国矿业大学环境与测绘学院
假设有m 个聚类的对象,每一个聚类对象都有个要素构成。它们所对应的要素数据可 用5.1给出。
表5.1 聚类对象与要素数据
要 聚 类 对 象
素
x1
x11 x 21 xi1 x m1
x2 , x j
x12 x 22 xi 2 , , x1 j xij , x2 j
中国矿业大学环境与测绘学院
G1 G13 G15
G1 G13 G15 0 4.72 0 1.32 1.86 0
⑧ 在第六步所得的3×3阶距离矩阵中,非对角线元素中最小者为d1, 15=1.32,故将G1不G15归并为一类,记为G16,即G16={G1,G15}= {(G1,(G2,G8),(G3,(G4,G9))}。再按照公式 (3.3.10)式计算G13不G16之间的距离,可得一个新的2×2阶距离 矩阵:
② 这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的8×8阶距 离矩阵:
聚类分析原理及步骤
聚类分析原理及步骤
聚类分析原理及步骤——将未知数据按相似程度分类到不同的类或簇的过程1》传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k- 均值、k- 中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS 等。
典型应用
1》动植物分类和对基因进行分类
2》在网上进行文档归类来修复信息
3》帮助电子商务的用户了解自己的客户,向客户提供更合适
的服务
主要步骤
1》数据预处理——选择数量,类型和特征的标度((依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数据行为或模型的数据)
2》为衡量数据点间的相似度定义一个距离函数——既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很
多距离度都应用在一些不同的领域一个简单的距离度量,如
Euclidean 距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性
3》聚类或分组——将数据对象分到不同的类中【划分方法
(划分方法一般从初始划分和最优化一个聚类标准开始,Crisp
聚类分析—搜狗百科
聚类分析—搜狗百科
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。
变量类型:定类变量、定量(离散和连续)变量
聚类方法
1,层次聚类(Hierarchical Clustering)
合并法、分解法、树状图
2. 非层次聚类
划分聚类、谱聚类
聚类方法特征:
聚类分析简单、直观。
聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;
不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;
聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。
研究者在使用聚类分析时应特别注意可能影响结果的各个因素。
异常值和特殊的变量对聚类有较大影响
当分类变量的测量尺度不一致时,需要事先做标准化处理。
当然,聚类分析不能做的事情是:
自动发现和告诉你应该分成多少个类——属于非监督类分析方法期望能很清楚的找到大致相等的类或细分市场是不现实的;
样本聚类,变量之间的关系需要研究者决定;
不会自动给出一个最佳聚类结果;
我这里提到的聚类分析主要是谱系聚类(hierarchical clustering)和快速聚类(K-means)、两阶段聚类(Two-Step);
聚类分析方法
聚类分析⽅法
⼀、层次聚类(系统聚类)
原理:合并法(分解法⽅向相反算法相同,SPSS只提供合并法)
1、将每⼀个样本作为⼀类,如果是k个样本就分k成类
2、按照某种⽅法度量样本之间的距离,并将距离最近的两个样本合并为⼀个类别,从⽽形成了k-1个类别
3、再计算出新产⽣的类别与其他各类别之间的距离,并将距离最近的两个类别合并为⼀类。这时,如果类别的个数仍然⼤于1,则继续重复这⼀步,直到所有的类别都合并成⼀类为⽌
4、总是先把离得最近的两个类进⾏合并
5、合并越晚的类,距离越远
6、事先并不会指定最后要分成多少类,⽽是把所有可能的分类都列出,再视具体情况选择⼀个合适的分类结果
缺点:如果样本数⼤,输⼊的值超级⼤,⼀般不采⽤这个⽅法。
⼆、K-means聚类(快速聚类)
1、确定要分的类别数⽬K (实际应⽤中可选择8类,如果某些类别中包含的样本明显很少,可减少类别数再次进⾏聚类,尝试合适的类别数)
2、确定K个类别的初始聚类中⼼(使⽤SPSS进⾏聚类时,⼀般由系统⾃动指定初始聚类中⼼K)
3、根据确定的K个初始聚类中⼼,依次计算每个样本到K个聚类中⼼的距离欧⽒距离,并根据距离最近的原则将所有的样本分到事先确定的K个类别中
4、根据所分成的K个类别,计算出各类别中每个变量的均值,并以均值点作为新的K个类别中⼼。根据新的中⼼位置,重新计算每个样本到新中⼼的距离,并重新进⾏分类
5、重复第4步,直到满⾜终⽌聚类条件为⽌
迭代次数达到研究者事先指定的最⼤迭代次数(SPSS隐含的迭代次数是10次,如果超过10此仍未收敛可调⼤这个数值)
矿床统计预测
1、矿床统计预测以多元统计分析方法为基本工具,以矿床/矿化体/成矿远景区及相关地质体和地质过程为研究对象,以电子计算机为手段,以查明各种控矿因素和找矿标志组合对成矿和找矿的作用(定量),以最终以圈定出矿化体可能产出的空间位置、规模和概率为目的
2、根据预测目的、范围、比例尺、内容、方法及成果表达形式,分为三种类型: 矿产资源总量估计和潜力评价 成矿远景区定量预测 矿床及矿体定量预测
3、随机事件(random test )
在一定条件下可能实现,也可能不能实现的现象称为随机事件。 随机变量
在观测或试验中,可能取这个或那个数值,但事前不能确定取什么样的值,而一旦观测/试验完成,其值也随之唯一确定。
4、总体:一组样品所有测定值的集合;样本:某个样品上所得到的测定值;个体:样本中的单个测定值。
频率:若进行N 次观测,某一事件A 出现的次数m 称为其发生的频数,m/N 比值称事件A 发生的频率(f *).
概率:当N →∞时,频率f 的极限值称为事件A 出现的概率,用P 表示 5、条件概率
若A 、B 为两个随机事件,且P (B)≠0,则事件B 已经出现的条件下事件A 出现的概率称为条件概率,
贝叶斯准则
即事件A 、B 同时出现的概率等于事件A 已经出现时事件B 出现的概率乘以事件A 发生的概率。
6、随机变量的数字特征: 方差 变异系数
协方差
平均值
相关系数
7、正态分布
)
()
()|(B P AB P B A P =)
()
()|()|(A P B P B A P A B P ⋅=2
1
2)(11μ--=∑=n
聚类分析的思路和方法
1
6
19
.173
0
0
9
2
8
9
.213
0
0
15
3
16
20
.512
0
0
13
4
.
3
聚类分析无处不在
❖ 谁经常光顾商店,谁买什么东西,买多少? ❖ 按会员卡记录的光临次数、光临时间、性别、年龄、
职业、购物种类、金额等变量分类 ❖ 这样商店可以…… ❖ 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,
习惯周末时一次性大采购) ❖ 刻画不同的客户群的特征
.
4
聚类分析无处不在
❖ 挖掘有价值的客户,并制定相应的促销策略:
❖ 一定额度和期限的免息透支服务! ❖ 赠送百盛的贵宾打折卡! ❖ 在他或她生日的时候送上一个小蛋糕!
.
6
聚类的应用领域
❖ 经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买 模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里?
对住宅区进行聚类,确定自动提款机ATM的安放位置
p
dij 1 xik xjk k1
❖ 2. 欧氏距离(Euclidean distance)
1
dij
2
p
(xi kxj k)2
2
k1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
实习3c 用聚类分析法进行矿床统计预测
目的 通过实习,学会使用聚类分析法进行矿床统计预测,加深对该方法原理的理解。
要求
(1)根据所提供资料,自己动手完成预测计算的各个环节,按时提交实习报告。 (2)复习课程“聚类分析”有关内容。
资料 研究区是湖北省某地区一个铁矿成矿带。为在该区进行矿床统计预测,已将研究区划
分为500m ×500m 基本单元408个,并提取了多个地质变量。本次实习为简便只使用其中两个变量:1x 为单元磁异常值,2x 为单元中心距断裂喷发带的距离。表4-1(单元数据表)列出了实习所用数据。
表4-1单元数据表(表中?表示“未知”) 单元号
1 2 3 4 5 6 7 8 9 10 11 1x 1.86 3.0 1.3 2.45 1.28 2.5 2.0 0.78 1.09 1.5 2.4 2x
0.5 2.0 2.1 1.0 2.5 0.8 0.9 2.4 2.2 0.8 1.5 含矿情况
?
?
无矿
有矿
无矿
?
?
?
?
有矿
?
方法步骤
第一步:分析研究区内铁矿特征及控矿地质条件和找矿标志,划分基本单元,提取地质变量、为各变量赋值。这些工作已经完成(不必重新做)。所用数据见表4-1。
第二步:数据预处理。主要是通过规格化或标准化变换,使数据统一量纲,从而使各变量的数据具有可比性,避免因有的变量数值大而得到突出、有的变量因数值小而受到压制、
2
从而各变量在分类中作用程度不同的情况。本次实习所用数据可以不做这种预处理。
第三步:选择相似性指标。本次实习中,选择距离系数ik d 。其定义为:
∑=-=
p
j kj ij
ik x x
d 1
2)( (Eq 4-1)
上式中
p 为变量数;ij x 表示第j 变量在第i 样品(单元)中的值;ik d 表示在多维变量空
间(本次实习是2维)内第i 和第k 两样品间的欧氏距离。两样品距离越近(小)越相似。
第四步:计算所有样品(单元)两两之间的距离,得到距离矩阵。尚未完成的距离矩阵如表4-2所示。请完成该表(还有39个距离需计算)。计算过程举1例说明如下:
22222
12121
()(1.86 3.0)(0.5 2.0) 1.14 1.5 1.884p
j j j d x x ==
-=-+-=+=∑ 余类推。注意可以将表4-1拷贝到Excel 工作表中,输入合适的公式,快速计算。
第五步:以距离矩阵为基础,用一次计算法画出聚类谱系图。方法:
(1)画坐标轴。以距离为横坐标轴。它的刻度从0开始,最大刻度相当于所有距离中最大者。以样品(单元)为纵坐标轴,刻度单位1(即1个单元一行)。
表4-2距离矩阵 单元 1 2 3 4 5 6 7 8 9 10 11 1 0 2 1.884 0 3 1.695 1.703 0 4 0 5 1.902 0 6 0.206 2.095 0 7 0 8
3
9 0 10 0 11
(2)归类。
1)从表4-2中依次挑选距离最小的样品(单元)对。设该最小距离为d 。
2)若该两单元都尚未归入任何一类,则将它们归为一类。对齐距离轴的d 处,画出谱系图的分枝,并在纵坐标轴左边标出单元号。
3)若该两单元有一个已经被归入某一类,则另一个加入该类。 4)若该两单元已经分别被归入某两类中,则将该两类联接成一大类。 5)若该两单元已经都被归入同一类中,则这两单元不用再处理。
反复进行1)-5),直到所有单元归类完毕,形成一个分类系统,完成分类谱系图。 注意从距离矩阵中寻找最小元素时,可以用Excel 的min()函数。 请完成下面(图4-1)的谱系图(已画完一部分)。
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
距离
单元号
含矿 单元
4 6
3 9
×