多元统计与异常分析_OK
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
多元统计分析
❖回归分析:本系统包括:一元线性回归、多元线性回归、正交回归、逐步回归、岭 回归
一元线性回归分析是在排除其它影响因素或假定其他影响因素确定的条件下, 分析某一个因素(自变量)是如何影响另一个事物(因变量)的过程。
多元线性回归是一元线性回归的扩展,其基本原理与一元线性回归模型类似, 研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化 关系。
回归分析对化探中研究指示元素的关系、推断解释具有实用意义;主要解决 以下几个问题:
a 确定几个特定变量之间是否存在相关分析,若存在则要求得它们之间合 适的数据表达式;
b 根据一个或几个变量值,预测或空值另一个变量的去职,并且要知道这 种预测可达到的精度;
c 从影响这某一个量的许多变量中,找出那些变量的影响是显著的,哪些 是不显著的。
18
❖回归分析 ▲选择“正交回归测试”数据作正交
回归操作练习 ▲选择“岭回归测试”数据作岭回归
操作练习
19
分类统计及校正
按区域(如景观区、构造 单元等)对数据进行特 征统计,并可多分区系 统误差校正。
▲操作“分类统计及校正” ▲选择数据表,如 “表层
土壤”
▲选择分类项与数据项 ▲确定保存统计结构名及
16
❖回归分析
▲操作“回归分析” ▲选择数据表,如 “表层湖泊” ▲选择计算方法,一元回归、多元线
性回归、正交回归、逐步回归或 岭回归 不同计算方法要求不同的模式和参 数选择或输入 ▲选择因变量 ▲选择自变量(一个或多个) ▲操作“分析计算” 计算结果将显示在文本窗,包括回 归方程、回归系数和相关参数 ▲操作“结果另存为”将计算结果另 存为文本文件
13
❖聚类分析
▲操作“聚类图”,显示聚类图 ▲划分分类相关性聚类限值,如
>0.5,并对元素分组 如 :Ag-As-Sb… ▲操作“保存图”保存聚类图为图
片 ▲Q型聚类分析,可采用工程中 “Q型聚类24_39”数据表测试练
习
14
多元统计分析
❖回归分析:是研究变量之间关系的一种统计方法,也就是要建立一个变量和另一 个变量或几个变量之间的数据表达式。在实际运用中,回归分析根据变量的数目划 分为二元变量回归和多元变量回归,回归的形式包括线性回归和非线性回归等。
•
F2因子正高值域
主要反映省内含基性火成岩—绿岩套或板块缝合带。
•
F5因子负低值域
• 主要反映省内含碳酸岩建造和局部碳酸盐化。
• (2)参照了17元素高信息量分布及其排列趋势对次级断裂做了 推定。
10
11
地球化学推断地质构造图
12
多元统计分析
❖聚类分析:是统计学中研究“物以类聚”问题的一种有效方法,根据观察值或变 量之间的亲疏程度,将最相似的对象结合在一起。分为R型聚类-对研究对象的观 察变量进行分类,称为R型衬值异常。
▲操作“离散数据网格化”
选择数据表“表层土壤” 元 素“Ag”
▲操作“网格数据圆滑处理”
选择处理方法,及几何参数 结果数据保存于“Ags” ▲操作“网格数据叠置处理”
▲利用叠置处理结果制作衬值
异常图
25
异常分析 网格化数据衬值异常
26
27
异常分析
针对数据表,数据项作常数、替 换与叠加计算
GeoExpl & GeoMDIS 培训
多元统计与异常分析
中国地质调查局发展研究中心 2012年11月
1
多元统计分析
• 多元统计分析是从经典统计学中发展起来 的一个分支,是一种综合分析方法,它能 够在多个对象和对个指标互相关联的情况 下分析它们的统计规律。 在地学数据处理 与应用中,主要是针对地球化学数据的特 点,分析元素的统计规律和元素间的关系, 从而研究其地质成因。主要内容包括分布 检验、、相关回归分析、因子分析与聚类 分析分析等。
7
多元统计分析
❖因子分析
▲因子1: F-Sb-As-Ni-Sc-Li-Mn-PbN-Se-Th
▲因子2: Ba-Ce-La-Ti-Ga ▲因子3: S-Br …… ▲推断解释
▲利用因子得分表结果,本例中 “fact_FI”-初始因子得分,
“fact_FR” -旋转因子得分, 制作二维因子得分图。 ▲作图方法参照离散数据网格化 制作等值区或等值线图
剔除离差系数
▲操作《统计计算》 ▲按照统计结果设置校正
系数,校正结果数据项 名
▲操作《校正计算》
注:此功能对数据表需有一项分类 项(可以整型数,也可以是字符 型),分类项可在图形操作中建立。
20
异常分析
采用常规处理方法确定数据集 的异常下限,及特征值。
▲操作“异常下限与特征值” ▲选择数据表,如 “表层土
壤”
▲选择要分析处理的数据项 ▲ 选择处理方法及相关参数 ▲操作《执行处理》
计算结果列于文本框
▲操作“保存结果”将计算结
果保存于文本文件
异常下限与特征值
21
异常分析
基于离散数据,以计算数据点 为中心,以及外域为背景计 算各类参数,如 “衬值异 常”、“变异系数”等。
▲操作“邻域数据分析”
▲选择数据表,如 “表层土壤” ▲选择坐标项 ▲选择要分析处理的变量
17
❖回归分析
▲操作“散点图” 在图示窗显示“散点图” ▲选择数据表,如 “表层湖泊” ▲选择计算方法,一元回归、多元
线性回归、正交回归、逐步回归 或岭回归 不同计算方法要求不同的模式和 参数选择或输入 ▲选择因变量 ▲选择自变量(一个或多个) ▲操作“分析计算” 计算结果将显示在文本窗,包括回 归方程、回归系数和相关参数 ▲操作“结果另存为”将计算结果 另存为文本文件 ▲操作“散点图” 在图示窗显示“散点图”
2
多元统计分析
• 在GeoExpl和 GeoMDIS 多元统计分析均在数据处理分析模块 中实现。
❖选择当前应用工程 ❖运行数据处理与分析模块
3
多元统计分析
❖分布检验:是检验数据是否符合正态分布,分析数据来源是 单一母体,还是多重母体。可获得数据集均值、中位数、标准 差、偏度、峰度等参数值。
▲操作“分布检验” ▲选择数据表,如 “表层湖泊” ▲选择检验的变量,如 “Ba”
▲操作“因子分析” ▲选择数据表,如 “表层土壤” ▲确定坐标项,如,“工作横坐
标”,“工作纵坐标”
▲选择因子分析变量 ▲给定因子得分结果保存表数据表,
如 “fact”
▲给定特征值计算结果保存文件 ,
如 “E:\temp\因子分析.ftr”
▲操作“因子分析”
5
多元统计分析
❖因子分析
▲确定因子数,根据特征根累计 百分比,一般在“85%”左右 对应的因子数,如本例特征根 累计百分比对应的因子数为 “7”,因此,确定因子数为“7”
▲操作“多变量叠加分析” ▲选择数据表 ▲选择要作处理的数据项 ▲给定替换参数,操作《替换》 ▲确定计算常数与方法,操作
《运算》
▲给定多变量叠加表达式与新
的结果数据项,操作《运算》
多变量叠加分析
28
异常分析
铬镍钴镁/ 砷锑锂硼
多变量叠加分析
29
30
▲确定单域或双域处理
▲选择处理方法及相关参数 ▲确定数据搜索方式与范围 ▲给定处理结果保存数据表名 ▲操作《数据处理》
邻域数据分析
22
异常分析
针对数据表,数据项作常数、替 换与叠加计算
▲操作“多变量叠加分析” ▲选择数据表,如 “表层土壤” ▲选择要作处理的数据项 ▲给定替换参数,操作《替换》 ▲确定计算常数与方法,操作
《运算》
▲给定多变量叠加表达式与新的
结果数据项,操作《运算》
多变量叠加分析
23
异常分析
数据正则化处理
针对数据表,数据项作规一化处理。
▲操作“数据正则化处理” ▲选择数据表,如 “表层土壤” ▲选择要作处理的数据项 ▲选择处理方法及参数 ▲给定处理结果数据项名 ▲操作《运算》
24
异常分析
网格化数据衬值异常
8
❖因子分析
因子1 因子3
因子2
9
• 应用实例:
• (1)依青海省水系沉积物(39元素)、17个主因子特征及其属 性推断。
• 主要依青海省F1、F2、F5因子对断裂构造(F)、绿岩套(A)、 碱性火成岩(B)和含碳酸岩建造的地层(C)进行推定,并给 予图面上的表达。
•
F1因子正高值域
主要反映省内含放射性稀有稀土的高钾碱性岩和钾长花岗岩及 局部矿化。
▲确定数据集是否取对数 ▲确定分组值:起始值、分组间隔、
分组数 ▲操作“分析计算” 结果显示直方图,和参数结果
通过调整分组参数或剔除异点设置, 可重新计算
▲操作“保存结果”,可将检验结
果保存到文本文件中。
4
多元统计分析
❖因子分析:在大多数情况下,许多变量之间存在一定的相关关系,用较少的综合 指标分析存在于各变量中的各类信息,这些综合指标即为因子。
正交化回归分析是在多元回归基础上发展起来的一种多元统计方法。建立回 归方程,逐次对自变量因子进行正交化变换,排除自变量之间的相互影响, 得到一组新的正交化因子,引入与因变量相关系数大的自变量作为选入因 子而剔除与因变量相关系数小的自变量。 岭回归分析是近年来在多元回归基础上发展起来的一种新的多元统计方法。 它与回归分析的不同之处是一种线性有偏估计。而我们目前采用的回归分 析都是线性无偏估计,当自变量中存在对因变量有干扰因素时便会导致回 归方程出现病态而不稳定,有时这种干扰因素很小,也会导致回归分析失 败。岭回归分析通过对参数K值的选择来改善正规方程组,增强矩阵的稳 定性,避免病态方程出现。
▲操作“聚类分析” ▲选择数据表,如 “表层土壤” ▲选择参与聚类分析的变量 ▲确定 “R型分析”或”Q型分析”
计算
▲选择数据是否需要作对数变换 ▲选择对数据是否需要正则变换、标
准化变换或不变换 ▲选择计算方法相关系数、欧拉距离
或相似系数
▲给定聚类分析结果文件,如
“E:\temp\聚类.clt” ▲操作“聚类分析”
▲操作“确定”即开始进行因 子分析计算
▲计算结束,因子得分和特征值 分别保存在给定的数据表和文 本文件中。
▲分析计算结果
▲通过特征值分析因子所代表元
素的组合关系和地质解释
6
多元统计分析
❖因子分析
▲特征值数据文件包含:相关矩 阵、特征向量、初始因子矩阵 和旋转因子矩阵
▲分析因子组合关系,通常选择
旋转因子矩阵,根据研究区 域的元素分布特征和,地质 因素综合,确定元素组合因 子得分低限值,一般因子得 分绝对值>0.5, 按值的高低 排列。
多元统计分析
❖回归分析:本系统包括:一元线性回归、多元线性回归、正交回归、逐步回归、岭 回归
一元线性回归分析是在排除其它影响因素或假定其他影响因素确定的条件下, 分析某一个因素(自变量)是如何影响另一个事物(因变量)的过程。
多元线性回归是一元线性回归的扩展,其基本原理与一元线性回归模型类似, 研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化 关系。
回归分析对化探中研究指示元素的关系、推断解释具有实用意义;主要解决 以下几个问题:
a 确定几个特定变量之间是否存在相关分析,若存在则要求得它们之间合 适的数据表达式;
b 根据一个或几个变量值,预测或空值另一个变量的去职,并且要知道这 种预测可达到的精度;
c 从影响这某一个量的许多变量中,找出那些变量的影响是显著的,哪些 是不显著的。
18
❖回归分析 ▲选择“正交回归测试”数据作正交
回归操作练习 ▲选择“岭回归测试”数据作岭回归
操作练习
19
分类统计及校正
按区域(如景观区、构造 单元等)对数据进行特 征统计,并可多分区系 统误差校正。
▲操作“分类统计及校正” ▲选择数据表,如 “表层
土壤”
▲选择分类项与数据项 ▲确定保存统计结构名及
16
❖回归分析
▲操作“回归分析” ▲选择数据表,如 “表层湖泊” ▲选择计算方法,一元回归、多元线
性回归、正交回归、逐步回归或 岭回归 不同计算方法要求不同的模式和参 数选择或输入 ▲选择因变量 ▲选择自变量(一个或多个) ▲操作“分析计算” 计算结果将显示在文本窗,包括回 归方程、回归系数和相关参数 ▲操作“结果另存为”将计算结果另 存为文本文件
13
❖聚类分析
▲操作“聚类图”,显示聚类图 ▲划分分类相关性聚类限值,如
>0.5,并对元素分组 如 :Ag-As-Sb… ▲操作“保存图”保存聚类图为图
片 ▲Q型聚类分析,可采用工程中 “Q型聚类24_39”数据表测试练
习
14
多元统计分析
❖回归分析:是研究变量之间关系的一种统计方法,也就是要建立一个变量和另一 个变量或几个变量之间的数据表达式。在实际运用中,回归分析根据变量的数目划 分为二元变量回归和多元变量回归,回归的形式包括线性回归和非线性回归等。
•
F2因子正高值域
主要反映省内含基性火成岩—绿岩套或板块缝合带。
•
F5因子负低值域
• 主要反映省内含碳酸岩建造和局部碳酸盐化。
• (2)参照了17元素高信息量分布及其排列趋势对次级断裂做了 推定。
10
11
地球化学推断地质构造图
12
多元统计分析
❖聚类分析:是统计学中研究“物以类聚”问题的一种有效方法,根据观察值或变 量之间的亲疏程度,将最相似的对象结合在一起。分为R型聚类-对研究对象的观 察变量进行分类,称为R型衬值异常。
▲操作“离散数据网格化”
选择数据表“表层土壤” 元 素“Ag”
▲操作“网格数据圆滑处理”
选择处理方法,及几何参数 结果数据保存于“Ags” ▲操作“网格数据叠置处理”
▲利用叠置处理结果制作衬值
异常图
25
异常分析 网格化数据衬值异常
26
27
异常分析
针对数据表,数据项作常数、替 换与叠加计算
GeoExpl & GeoMDIS 培训
多元统计与异常分析
中国地质调查局发展研究中心 2012年11月
1
多元统计分析
• 多元统计分析是从经典统计学中发展起来 的一个分支,是一种综合分析方法,它能 够在多个对象和对个指标互相关联的情况 下分析它们的统计规律。 在地学数据处理 与应用中,主要是针对地球化学数据的特 点,分析元素的统计规律和元素间的关系, 从而研究其地质成因。主要内容包括分布 检验、、相关回归分析、因子分析与聚类 分析分析等。
7
多元统计分析
❖因子分析
▲因子1: F-Sb-As-Ni-Sc-Li-Mn-PbN-Se-Th
▲因子2: Ba-Ce-La-Ti-Ga ▲因子3: S-Br …… ▲推断解释
▲利用因子得分表结果,本例中 “fact_FI”-初始因子得分,
“fact_FR” -旋转因子得分, 制作二维因子得分图。 ▲作图方法参照离散数据网格化 制作等值区或等值线图
剔除离差系数
▲操作《统计计算》 ▲按照统计结果设置校正
系数,校正结果数据项 名
▲操作《校正计算》
注:此功能对数据表需有一项分类 项(可以整型数,也可以是字符 型),分类项可在图形操作中建立。
20
异常分析
采用常规处理方法确定数据集 的异常下限,及特征值。
▲操作“异常下限与特征值” ▲选择数据表,如 “表层土
壤”
▲选择要分析处理的数据项 ▲ 选择处理方法及相关参数 ▲操作《执行处理》
计算结果列于文本框
▲操作“保存结果”将计算结
果保存于文本文件
异常下限与特征值
21
异常分析
基于离散数据,以计算数据点 为中心,以及外域为背景计 算各类参数,如 “衬值异 常”、“变异系数”等。
▲操作“邻域数据分析”
▲选择数据表,如 “表层土壤” ▲选择坐标项 ▲选择要分析处理的变量
17
❖回归分析
▲操作“散点图” 在图示窗显示“散点图” ▲选择数据表,如 “表层湖泊” ▲选择计算方法,一元回归、多元
线性回归、正交回归、逐步回归 或岭回归 不同计算方法要求不同的模式和 参数选择或输入 ▲选择因变量 ▲选择自变量(一个或多个) ▲操作“分析计算” 计算结果将显示在文本窗,包括回 归方程、回归系数和相关参数 ▲操作“结果另存为”将计算结果 另存为文本文件 ▲操作“散点图” 在图示窗显示“散点图”
2
多元统计分析
• 在GeoExpl和 GeoMDIS 多元统计分析均在数据处理分析模块 中实现。
❖选择当前应用工程 ❖运行数据处理与分析模块
3
多元统计分析
❖分布检验:是检验数据是否符合正态分布,分析数据来源是 单一母体,还是多重母体。可获得数据集均值、中位数、标准 差、偏度、峰度等参数值。
▲操作“分布检验” ▲选择数据表,如 “表层湖泊” ▲选择检验的变量,如 “Ba”
▲操作“因子分析” ▲选择数据表,如 “表层土壤” ▲确定坐标项,如,“工作横坐
标”,“工作纵坐标”
▲选择因子分析变量 ▲给定因子得分结果保存表数据表,
如 “fact”
▲给定特征值计算结果保存文件 ,
如 “E:\temp\因子分析.ftr”
▲操作“因子分析”
5
多元统计分析
❖因子分析
▲确定因子数,根据特征根累计 百分比,一般在“85%”左右 对应的因子数,如本例特征根 累计百分比对应的因子数为 “7”,因此,确定因子数为“7”
▲操作“多变量叠加分析” ▲选择数据表 ▲选择要作处理的数据项 ▲给定替换参数,操作《替换》 ▲确定计算常数与方法,操作
《运算》
▲给定多变量叠加表达式与新
的结果数据项,操作《运算》
多变量叠加分析
28
异常分析
铬镍钴镁/ 砷锑锂硼
多变量叠加分析
29
30
▲确定单域或双域处理
▲选择处理方法及相关参数 ▲确定数据搜索方式与范围 ▲给定处理结果保存数据表名 ▲操作《数据处理》
邻域数据分析
22
异常分析
针对数据表,数据项作常数、替 换与叠加计算
▲操作“多变量叠加分析” ▲选择数据表,如 “表层土壤” ▲选择要作处理的数据项 ▲给定替换参数,操作《替换》 ▲确定计算常数与方法,操作
《运算》
▲给定多变量叠加表达式与新的
结果数据项,操作《运算》
多变量叠加分析
23
异常分析
数据正则化处理
针对数据表,数据项作规一化处理。
▲操作“数据正则化处理” ▲选择数据表,如 “表层土壤” ▲选择要作处理的数据项 ▲选择处理方法及参数 ▲给定处理结果数据项名 ▲操作《运算》
24
异常分析
网格化数据衬值异常
8
❖因子分析
因子1 因子3
因子2
9
• 应用实例:
• (1)依青海省水系沉积物(39元素)、17个主因子特征及其属 性推断。
• 主要依青海省F1、F2、F5因子对断裂构造(F)、绿岩套(A)、 碱性火成岩(B)和含碳酸岩建造的地层(C)进行推定,并给 予图面上的表达。
•
F1因子正高值域
主要反映省内含放射性稀有稀土的高钾碱性岩和钾长花岗岩及 局部矿化。
▲确定数据集是否取对数 ▲确定分组值:起始值、分组间隔、
分组数 ▲操作“分析计算” 结果显示直方图,和参数结果
通过调整分组参数或剔除异点设置, 可重新计算
▲操作“保存结果”,可将检验结
果保存到文本文件中。
4
多元统计分析
❖因子分析:在大多数情况下,许多变量之间存在一定的相关关系,用较少的综合 指标分析存在于各变量中的各类信息,这些综合指标即为因子。
正交化回归分析是在多元回归基础上发展起来的一种多元统计方法。建立回 归方程,逐次对自变量因子进行正交化变换,排除自变量之间的相互影响, 得到一组新的正交化因子,引入与因变量相关系数大的自变量作为选入因 子而剔除与因变量相关系数小的自变量。 岭回归分析是近年来在多元回归基础上发展起来的一种新的多元统计方法。 它与回归分析的不同之处是一种线性有偏估计。而我们目前采用的回归分 析都是线性无偏估计,当自变量中存在对因变量有干扰因素时便会导致回 归方程出现病态而不稳定,有时这种干扰因素很小,也会导致回归分析失 败。岭回归分析通过对参数K值的选择来改善正规方程组,增强矩阵的稳 定性,避免病态方程出现。
▲操作“聚类分析” ▲选择数据表,如 “表层土壤” ▲选择参与聚类分析的变量 ▲确定 “R型分析”或”Q型分析”
计算
▲选择数据是否需要作对数变换 ▲选择对数据是否需要正则变换、标
准化变换或不变换 ▲选择计算方法相关系数、欧拉距离
或相似系数
▲给定聚类分析结果文件,如
“E:\temp\聚类.clt” ▲操作“聚类分析”
▲操作“确定”即开始进行因 子分析计算
▲计算结束,因子得分和特征值 分别保存在给定的数据表和文 本文件中。
▲分析计算结果
▲通过特征值分析因子所代表元
素的组合关系和地质解释
6
多元统计分析
❖因子分析
▲特征值数据文件包含:相关矩 阵、特征向量、初始因子矩阵 和旋转因子矩阵
▲分析因子组合关系,通常选择
旋转因子矩阵,根据研究区 域的元素分布特征和,地质 因素综合,确定元素组合因 子得分低限值,一般因子得 分绝对值>0.5, 按值的高低 排列。