2-地质数据处理基础PPT优秀课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5. 遥感数据是常用的地质数据之一,订购数据要选择航 天器的类型、波段的特点,产品的级别等等。
2021/5/25
3
2 数据预处理
数据预处理的必要性
•没有干净的数据不可能获得好的处理结果;
•任何数据都是有污染的、有冗余的;
•数据一般有多种格式的,要进行统一格式或格式规范化;
•空间数据要进行必要的几何(变形)校正;
2. 计算检查
– 检查调查表中的各项数据在计算结果和计算方法 上有无错误;
– 主要用于对定距和定比数据的审核;
2021/5/25
23
第二手数据数据的检查
1.适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料; 确定数据是否符合自己分析研究的需要;
2.时效性审核 适用于有时效性的样品分析数据,如水样品; 应尽可能使用可靠的数据;
2021/5/25
14
定序尺度
(概念要点)
1. 对事物分类的同时给出各类别的顺序 2. 比定类尺度精确 3. 未测量出类别之间的准确差值 4. 数据表现为“类别”,但有序 5. 具有>或<的数学特性
2021/5/25
15
定距尺度
(概念要点)
• 1. 对事物的准确测度 • 2. 比定序尺度精确 • 3. 数据表现为“数值” • 4. 没有绝对零点 • 5. 具有 + 或 - 的数学特性
11
3 数据的计量尺度
2021/5/25
12
四种计量尺度
• 数据的计量尺度
定类尺度 定序尺度 定距尺度 定比尺度
2021/5/25
13
定类尺度
(概念要点)
1. 计量层次最低 2. 对事物进行平行的分类 3. 各类别可以指定数字代码表示 4. 使用时必须符合类别穷尽和互斥的要求 5. 数据表现为“类别” 6. 具有=或的数学特性
对矿石品位数据要进行样品的厚度、长度加权、 特高品位的处理等等。
2021/5/25
6
预处理的主要内容
完整性:空间的分布、线距点距的规律性; 合规性:满足规范要求; 冗余与缺失的处理; 系统误差的补偿; 随机误差的平滑;
2021/5/25
7
数据预处理方法
1.对于地质数据,可以作出各种图件进行直观判断: 如做样品空间(采样)分布图,检查样品的缺失和重复;等值线平面图,等等;如 果出现样品缺失时,采取线性插值或近邻窗口插值的方法,用手工补全数据,如 果样品重复,手工处理(剔除);
1. 定类数据的排序
▪ 字母型数据,排序有升序降序之分,但习惯上
用升序
▪ 汉字型数据,可按汉字的首位拼音字母排列,
也可按笔画排序,其中也有笔画多少的升序降 序之分
2. 定距和定比数据的排序
– 递增排增序排后序可:表设示一为组:数X据(1)为<XX(21)<,…X<2,X(N…) ,XN,递 – 递减排序可表示为:X(1)>X(2)>…>X(N)
2021/5/25
16
定比尺度
• 1. 对事物的准确测度 • 2. 与定距尺度处于同一层次 • 3. 数据表现为“数值” • 4. 有绝对零点 • 5. 具有 或 的数学特性
2021/5/25
17
四种计量尺度的比较
四种计量尺度的比较
计量尺度 定类尺度 定序尺度 定距尺度 定比尺度
数学特性
分类(=,≠ )
样品空间分布平面图
2021/5/25
8
预处理方法
2.平面等值线图:对一些冗余的数据进行必要的剔除。
2021/5/25
9
预处理方法
3. 统计法:如频数分布图。统计法的理论基础是客观世界中绝大部分的实体属性 数据为正态分布。
2021/5/25
10
预处理方法
4. 三维可视化:去除不合理的数据。
2021/5/25
目的:使数据适合于后续的处理工作,提高数据的 准确度、整体性、可用性,有助于提高数据处理的质量。
2021/5/25
5
数据预处理的基本方法
不同类型的数据有不同的预处理方法,不同学科 的数据有不同的预处理内容。
如遥感数据,要进行辐射校正、几何校正、系统 误差的补偿、随机误差的平滑等等。
对化探数据,要进行完整性检查、数据冗余检查、 不同批次或不同仪器之间的数据进行系统误差的处理等 等。
•数据的度量单位要匹配处理;
•任何数据都是有误差的,要进行误差处理;
•数据总体空间与数据样本空间的一致性(>或=);
•数据读写(IO)与处理软件之间的转换;
2021/5/25
4
数据预处理
数据预处理(data preprocessing)或数据清洗(data scrubbing)或数据清理(data cleaning)或数据净化(data cleansing)是数据处理的第一步。
地质数据处理基础2
洪金益 中南大学地学院
2021/5/25
1
第二章 统计数据的采集与预处理
1、地质数据的采集 2、数据的预处理 3、数据的计量尺度
2021/5/25
2
1 数据的采集
以某化探数据的采集为例,步骤: 1.采样设计(按国家、行业规范); 2.采样(保证质和量、记录规范、必要的备注); 3.加工(防止污染和编号错乱); 4.送样化验分析(根据研究目的和研究对象的内在关联性来确 定分析项目、选择分析方法、仪器类型)。
3.确认是否必要做进一步的加工整理;
2021/5/25
24
数据的筛选
1. 对审核过程中发现的错误应尽可能予以纠正
2. 当发现数据中的错误不能予以纠正,或者有 些数据不符合调查的要求而又无法弥补时, 需要对数据进行筛选
3. 数据筛选的内容包括:
▪ 将某些不符合要求的数据或有明显错误的数
据予以剔除
▪ 将符合某种特定条件的数据筛选出来,而不
定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度定类尺度概念要点定序尺度概念要点定距尺度概念要点四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类计量尺度数学特性表示该尺度所具有的特性定类数据定类数据定序数据定序数据品质数据品质数据数量数据数量数据数量数据数量数据定距数据定距数据定距数据定距数据定比数据定比数据定比数据定比数据参数方法参数方法参数方法参数方法非参数方法非参数方法定序变量离散变量离散变量离散变量离散变量连续变量连续变量连续变量连续变量定类变量数字变量统计指标及其类型时期指标时期指标时期指标时期指标时点指标时点指标时点指标时点指标相对指标总量指标平均指标比例比例比例比例比率比率比率比率关联性
√
√
√
√
排序( < ,> )
√
√
√
间距( + ,- )
√
√
比值( × ,÷)
√
“√”表示该尺度所具有的特性
2021/5/25
18
数据类型与统计方法
• 数据类型与统计方法
定类数据 定序数据 定距数据 定比数据
品质数据
非参数方法
2021/5/25
数量数据
参数方法
19
变量及其类型
•变 量
定类变量
2021/5/25
管理和研究的需要; • 4. 及时性:在最短的时间里取得并公布数据; • 5. 一致性:数据属性的可比性; • 6. 最低成本:以最经济的方式取得数据。
2021/5/25
22
原始数据的检查
1. 逻辑检查
– 从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾的现象;
– 主要用于对定类数据和定序数据的审核;
2021/5/25
28
THE END
2021/5/25
29
2021/5/25
27
定类数据的预处理
1. 要弄清所面对的数据类型,因为不同类型的数据,所采 取的处理方式和方法是不同的;
2. 对定类数据和定序数据主要是做分类整理; 3. 对定距数据和定比数据则主要是做分组整理; 4. 适合于低层次数据的整理和显示方法也适合于高层次的
数据;但适合于高层次数据的整理和显示方法并不适合 于低层次的数据;
符合特定条件的数据予以剔出
2021/5/25
25
数据的排序
1. 按一定顺序将数据排列,以发现一些明显 的特征或趋势,找到解决问题的线索
2. 排序有助于对数据检查纠错,以及为重新 归类或分组等提供依据
3. 在某些场合,排序本身就是分析的目的之 一
4. 排序可借助于计算机完成
2021/5/25
26
数据的排序
定序变量
数字变量
离散变量 连续变量
20
统计指标及其类型• 统计指标Fra bibliotek总量指标
相对指标
平均指标
时期指标 时点指标 比例 比率
2021/5/25
21
数据的质量要求
• 1. 精度:最低的抽样误差或随机误差; • 2. 准确性:最小的非抽样误差或偏差; • 3. 关联性:符合数据间的内在关联性,同时满足用户决策、
2021/5/25
3
2 数据预处理
数据预处理的必要性
•没有干净的数据不可能获得好的处理结果;
•任何数据都是有污染的、有冗余的;
•数据一般有多种格式的,要进行统一格式或格式规范化;
•空间数据要进行必要的几何(变形)校正;
2. 计算检查
– 检查调查表中的各项数据在计算结果和计算方法 上有无错误;
– 主要用于对定距和定比数据的审核;
2021/5/25
23
第二手数据数据的检查
1.适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料; 确定数据是否符合自己分析研究的需要;
2.时效性审核 适用于有时效性的样品分析数据,如水样品; 应尽可能使用可靠的数据;
2021/5/25
14
定序尺度
(概念要点)
1. 对事物分类的同时给出各类别的顺序 2. 比定类尺度精确 3. 未测量出类别之间的准确差值 4. 数据表现为“类别”,但有序 5. 具有>或<的数学特性
2021/5/25
15
定距尺度
(概念要点)
• 1. 对事物的准确测度 • 2. 比定序尺度精确 • 3. 数据表现为“数值” • 4. 没有绝对零点 • 5. 具有 + 或 - 的数学特性
11
3 数据的计量尺度
2021/5/25
12
四种计量尺度
• 数据的计量尺度
定类尺度 定序尺度 定距尺度 定比尺度
2021/5/25
13
定类尺度
(概念要点)
1. 计量层次最低 2. 对事物进行平行的分类 3. 各类别可以指定数字代码表示 4. 使用时必须符合类别穷尽和互斥的要求 5. 数据表现为“类别” 6. 具有=或的数学特性
对矿石品位数据要进行样品的厚度、长度加权、 特高品位的处理等等。
2021/5/25
6
预处理的主要内容
完整性:空间的分布、线距点距的规律性; 合规性:满足规范要求; 冗余与缺失的处理; 系统误差的补偿; 随机误差的平滑;
2021/5/25
7
数据预处理方法
1.对于地质数据,可以作出各种图件进行直观判断: 如做样品空间(采样)分布图,检查样品的缺失和重复;等值线平面图,等等;如 果出现样品缺失时,采取线性插值或近邻窗口插值的方法,用手工补全数据,如 果样品重复,手工处理(剔除);
1. 定类数据的排序
▪ 字母型数据,排序有升序降序之分,但习惯上
用升序
▪ 汉字型数据,可按汉字的首位拼音字母排列,
也可按笔画排序,其中也有笔画多少的升序降 序之分
2. 定距和定比数据的排序
– 递增排增序排后序可:表设示一为组:数X据(1)为<XX(21)<,…X<2,X(N…) ,XN,递 – 递减排序可表示为:X(1)>X(2)>…>X(N)
2021/5/25
16
定比尺度
• 1. 对事物的准确测度 • 2. 与定距尺度处于同一层次 • 3. 数据表现为“数值” • 4. 有绝对零点 • 5. 具有 或 的数学特性
2021/5/25
17
四种计量尺度的比较
四种计量尺度的比较
计量尺度 定类尺度 定序尺度 定距尺度 定比尺度
数学特性
分类(=,≠ )
样品空间分布平面图
2021/5/25
8
预处理方法
2.平面等值线图:对一些冗余的数据进行必要的剔除。
2021/5/25
9
预处理方法
3. 统计法:如频数分布图。统计法的理论基础是客观世界中绝大部分的实体属性 数据为正态分布。
2021/5/25
10
预处理方法
4. 三维可视化:去除不合理的数据。
2021/5/25
目的:使数据适合于后续的处理工作,提高数据的 准确度、整体性、可用性,有助于提高数据处理的质量。
2021/5/25
5
数据预处理的基本方法
不同类型的数据有不同的预处理方法,不同学科 的数据有不同的预处理内容。
如遥感数据,要进行辐射校正、几何校正、系统 误差的补偿、随机误差的平滑等等。
对化探数据,要进行完整性检查、数据冗余检查、 不同批次或不同仪器之间的数据进行系统误差的处理等 等。
•数据的度量单位要匹配处理;
•任何数据都是有误差的,要进行误差处理;
•数据总体空间与数据样本空间的一致性(>或=);
•数据读写(IO)与处理软件之间的转换;
2021/5/25
4
数据预处理
数据预处理(data preprocessing)或数据清洗(data scrubbing)或数据清理(data cleaning)或数据净化(data cleansing)是数据处理的第一步。
地质数据处理基础2
洪金益 中南大学地学院
2021/5/25
1
第二章 统计数据的采集与预处理
1、地质数据的采集 2、数据的预处理 3、数据的计量尺度
2021/5/25
2
1 数据的采集
以某化探数据的采集为例,步骤: 1.采样设计(按国家、行业规范); 2.采样(保证质和量、记录规范、必要的备注); 3.加工(防止污染和编号错乱); 4.送样化验分析(根据研究目的和研究对象的内在关联性来确 定分析项目、选择分析方法、仪器类型)。
3.确认是否必要做进一步的加工整理;
2021/5/25
24
数据的筛选
1. 对审核过程中发现的错误应尽可能予以纠正
2. 当发现数据中的错误不能予以纠正,或者有 些数据不符合调查的要求而又无法弥补时, 需要对数据进行筛选
3. 数据筛选的内容包括:
▪ 将某些不符合要求的数据或有明显错误的数
据予以剔除
▪ 将符合某种特定条件的数据筛选出来,而不
定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度定类尺度概念要点定序尺度概念要点定距尺度概念要点四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类计量尺度数学特性表示该尺度所具有的特性定类数据定类数据定序数据定序数据品质数据品质数据数量数据数量数据数量数据数量数据定距数据定距数据定距数据定距数据定比数据定比数据定比数据定比数据参数方法参数方法参数方法参数方法非参数方法非参数方法定序变量离散变量离散变量离散变量离散变量连续变量连续变量连续变量连续变量定类变量数字变量统计指标及其类型时期指标时期指标时期指标时期指标时点指标时点指标时点指标时点指标相对指标总量指标平均指标比例比例比例比例比率比率比率比率关联性
√
√
√
√
排序( < ,> )
√
√
√
间距( + ,- )
√
√
比值( × ,÷)
√
“√”表示该尺度所具有的特性
2021/5/25
18
数据类型与统计方法
• 数据类型与统计方法
定类数据 定序数据 定距数据 定比数据
品质数据
非参数方法
2021/5/25
数量数据
参数方法
19
变量及其类型
•变 量
定类变量
2021/5/25
管理和研究的需要; • 4. 及时性:在最短的时间里取得并公布数据; • 5. 一致性:数据属性的可比性; • 6. 最低成本:以最经济的方式取得数据。
2021/5/25
22
原始数据的检查
1. 逻辑检查
– 从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾的现象;
– 主要用于对定类数据和定序数据的审核;
2021/5/25
28
THE END
2021/5/25
29
2021/5/25
27
定类数据的预处理
1. 要弄清所面对的数据类型,因为不同类型的数据,所采 取的处理方式和方法是不同的;
2. 对定类数据和定序数据主要是做分类整理; 3. 对定距数据和定比数据则主要是做分组整理; 4. 适合于低层次数据的整理和显示方法也适合于高层次的
数据;但适合于高层次数据的整理和显示方法并不适合 于低层次的数据;
符合特定条件的数据予以剔出
2021/5/25
25
数据的排序
1. 按一定顺序将数据排列,以发现一些明显 的特征或趋势,找到解决问题的线索
2. 排序有助于对数据检查纠错,以及为重新 归类或分组等提供依据
3. 在某些场合,排序本身就是分析的目的之 一
4. 排序可借助于计算机完成
2021/5/25
26
数据的排序
定序变量
数字变量
离散变量 连续变量
20
统计指标及其类型• 统计指标Fra bibliotek总量指标
相对指标
平均指标
时期指标 时点指标 比例 比率
2021/5/25
21
数据的质量要求
• 1. 精度:最低的抽样误差或随机误差; • 2. 准确性:最小的非抽样误差或偏差; • 3. 关联性:符合数据间的内在关联性,同时满足用户决策、