地学统计-数据的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其众数是多少:
150?
二级-标签本身!
容易出错的一个陷阱!
众数计算推广:分组数据
确定频数最多的组为众数所在组。 按以下公式计算众数。
∆1 Mo = L + d × ∆1 + ∆ 2
Mo代表众数;
或
∆2 Mo =U − d × ∆1 + ∆ 2
L为众数所在组的下限值; U为众数所在组的上限值; ∆1为众数组频数与上一组频数之差; ∆2为众数组频数与下一组频数之差; d为众数所在组的组距。
3.1.2 中位数(Median)
数据按大小顺序排列后,居于中间位置的数:该数两 侧各有50%的数据,或定义为一系列数据的中点。 计算方法:
样本数n为奇数时,排在第(n+1)/2位的数据值; 样本数n为偶数时,排在中间位置的两个数据的平均值。
例1: 如7个人的英语成绩,按大小顺序排列为: 93,86,78,74,69,65,54
(续) ⑤ 来自于档案、图书等文献资料中的有关数 据。 ⑥ 来自于互联网(internet)的有关共享数据。 ⑦ 来自地图图件。主要包括各种比例尺的地 形图、影像地图、专题地图等。 ⑧ 来自遥感数据。主要包括各种航空遥感数 据和卫星遥感数据。 ⑨ 亲自调查、试验数据。 ⑩ ……
数据采集中需要注意的问题 ① 数据的完备性和可靠性。 ② 数据采集过程中,最大限度地减小数据的 误差。 ③ 数据采集完毕后,进行检验,辨别真伪, 通过数据筛选,去粗取精、去伪存真。
注:
1表示两城市之间通航; 0表示两城市之间不通航。
④ 名义水平测量数据
1 13 2 15 3 21 4 14 5 14 6 31
地块序列号 土地利用类型
2. 数据来源和采集
① 来自于有关观测、测量部门的专业数据。 ② 来自于统计年鉴、统计公报中的自然资源 及社会经济发展数据等。 ③ 来自于政府公报、政府文件中的有关数据。 ④ 来自于有关单位或个人的不定期的典型调 查数据、抽样调查数据。
2 678.28 2 015.47 1 754.56 1 365.46
② 次序水平测量数据
城市A 规模等 级 1 城市B 城市C 城市D 城市E 城市F 2 3 4 4 3
人口位 次
1
2
4
6
5
3
③ 名义水平测量数据
城市A 城市A 城市B 城市C 城市D 城市E — 1 1 0 1 城市B 1 — 1 1 0 城市C 1 1 — 1 0 城市D 0 1 1 — 1 城市E 1 0 0 1 —
实例:集中趋势量数的计算 (分组数据的平均值、中位数和众数)
中国西部地区某城市2000年家庭月收入的 抽样调查结果表
家庭月收入/元 2 000~3 000 3 000~4 000 4 000~5 000 5 000~6 000 6 000~7 000 7 000~8 000 8 000~9 000 合 计 户数 300 1 300 200 150 100 50 30 2130 向上累计频数 300 1 600 1 800 1 950 2 050 2 100 2 130 — 向下累计频数 2 130 1 830 530 330 180 80 30 —
fm
或
Me =U − d ×
1 2
∑f
i =1
n
i
− S m +1
fm
计算实例见后面
中位数引申:百分位数
定义数据集中等于或小于一个特定数 据值的个体的百分数。 25百分位点,Q1表示。 50百分位点,Q2表示(中位数)。 75百分位点,Q3表示。 Q3-Q1?
3.1.3 众数(Mode)
众数是一组数据中出现次数最多的变量值 。 计算: 直接观察或排序后观察。
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 年龄 19 20 18 18 21 21 17 21 17 21 20 19 19 21 18 21 19 编号 7 9 3 4 15 1 5 8 10 12 13 17 2 11 6 14 16 年龄 17 17 18 18 18 19 19 19 19 19 19 19 20 20 21 21 21
平均值计算推广:加权平均值
前面所述平均值又叫算术平均值:每个数值重 要性一致,相当于权重为1。 如果每个数值的重要性不一致,这时需要采用 加权平均值:计算每个数值乘以权重的总和, 再将总和除以权重的和。
x=
∑f
i =1 m i =1
m
i
xi
i
∑f
式中: xi为第i个数据; fi为xi对应的权重; m为数据个数。
第一章(1) 地理数据的描述
1. 数据类型 2. 数据来源和采集 3. 数据的基本认识-描述性统计 3个方面的统计量 4. 数据的基本认识-数据分组
1. 测量和数据类型
变量和数据 一节火车车厢有多少坐位是一个固定的数 目,称为常数(constant)或者常量。 开车后,该节车厢旅客数就没准了→随机 性。该车厢的乘客数为变量(variable)。 数据:关于变量的观测值。
-20 -43 -35 -8 -11 -31 -59 -16 2
44 44 70 36 19 25 17 38 76
124 142 137 130 134 129 130 135 134
209 211 189 189 200 181 207 19Biblioteka Baidu 209
252 259 239 221 249 221 230 251 235
③ 间隔水平测量:比次序水平测量更高的水平,具有前 面两个水平的性质,具有统一、标准的单位,产生具 有不变相等的区间尺度,能够用于计算;有任意但不 是绝对的零点;数学上可用(=、≠、>、<、+、-) 表示。结果也称定量数据。 如温度的摄氏尺度,0°C定义为水的冰点, 100°C定义为水的沸点,而单位(°C)被定义为二 者距离的百分之一。 ④ 比例水平测量:最高水平的测量,包含前面三个水平 的性质,且增加了绝对零点(即在测量中零值是所测 量物体特征不能出现或不能观测到的一点),该尺度 中,数值是相对绝对零点的距离;数学上可用(=、 ≠、>、<、+、-等)表示。结果也称定量数据。 如热力学温度尺度(Kelvin,单位开尔文), Kelvin 零度是绝对零度,定义为理想气体压强为0时 的温度;重量(克)、长度(厘米)、速度(公里/小 时)等。
众 数 为 多 少 ?
众数的特征与意义 最笼统、最不精确的一个集中趋势量数。 适用于类别数据或定性数据。 反映不够灵敏。不是所有数据参与计算。
计算特征 :
众数乘以总数目,一般不等于数据总和。 不能进行进一步的代数运算。
一个有趣的众数计算例子
统计某城市2007的空气质量状况:
先确定中位数所在组的位置。因为 n/2=2130/2=1065,显然中位数落在第二组。 再按公式计算。
计算平均值
按公式计算。
x=
∑fx
i =1 m
m
i i
∑f
i =1
i
1 = (300 × 2500 + 1300 × 3500 + 200 × 4500 + 2130 150 × 5500 + 100 × 6500 + 50 × 7500 + 30 × 8500) = 3899.06 (元)
计算中位数
这是样本容量为奇数的情形,中位数为74。
例2: 如8个人的英语成绩,按大小顺序排列为: 93,86,78,74,72,69,65,54
这是样本容量为偶数的情形,中位数为(74+72)/2=73。
中位数的意义与应用
对极值不敏感。 反映不够灵敏。两极端数目变化,对中位数不产 生影响;不是所有数据参与计算 应用较少。存在极端数值时可用。 计算特点:
259 263 263 234 266 258 255 262 257
258 243 236 243 254 238 242 239 246
183 201 202 194 200 202 177 202 189
137 126 147 122 113 116 125 113 134
46 37 42 57 45 12 54 46 25
加权平均值特例:分组数据平均值
原始数据分组后,可形成一个次数分布表,此 时原始数据不见了。 只能见到分组区间,以及组中值和对应频数。 经常只发布分组数据,原始数据保密。 分组数据平均值计算:
x=
∑
m
f i xi
i
i =1 m
∑f
i =1
式中:fi为各区间的频数; xi为各区间的组中值; m为数据分组个数
中位数乘以总数目,一般不等于数据总和。 不能进行进一步的代数运算。
包含极值的中位数和平均值的计算
对某块农地的土壤水分的5次重复测量结果 18,8,7,6,6 计算:
中位数:7 平均值:(18+8+7+6+6)/5=45/5=9
平均值比5次测量的第二大值还要大,减弱了 集中趋势度量的有效性。
我们可以将所有的地理数据划分为两 大基本类型: 空间数据(Spatial):空间位置、空间关 系(GIS)。 属性数据(attribute data):对象的属性 特征。
本课程内容多针对属性数据。
四种数据(属性)类型
① 名义水平测量:最基本的度量水平,将事务划分到唯 一的类中,划分时要求互斥且完备;数学上可用等于 和不等于(=、≠)表示,不能排序。结果也称为定 性数据。 如土壤类型(红壤、黄壤等)、作物类型(玉米、 水稻等)。 ② 次序水平测量:高于名义水平测量,不尽保留了名义 尺度性质,且具有等级特征;数学上可用=、≠、>、 <表示,可排序;没有标准统一的测量单位,次序测 量尺度的区间是主观的,只能表示相对大小。结果也 称半定量数据。 如城市大小等级,空气质量等级等。
中位数计算推广:分组数据的中位数 计算方法
原始数据分组后,形成一个次数分布表。
此时原始数据不见或没有 ,只能见到分组区间,以及组 中值和频数。
计算n/2(n为数据总的个数),并找到n/2所在组的 区间。该组即为中位数所在的组。 计算含有中位数所在组的以下(即小于)各组的频 数和,或者以上(大于)各组的频数和。 最后计算,得到中位数。
分组数据中位数的计算公式
1 2
Me = L + d ×
∑f
i =1
n
i
− S m −1
Me代表中位数; L为中位数所在组的下限值; U为中位数所在组的上限值; fm为中位数所在组的频数; Sm-1 为 中 位 数 所 在 组 以 下 (小于该组)的累计频数; Sm+1 为 中 位 数 所 在 组 以 上 (大于该组)的累计频数; d为中位数所在组的组距。
计算步骤:
计算某数据列或组(变量)的总和; 总和除以数值的个数。
平均值的特点
① ② ③ ④ 准确反映总体均值的集中趋势量数。 反映灵敏,所有数据参与计算。 应用广泛。 对极值敏感。对包含极值数据组的平均值,结果 可能会消弱其作为集中趋势量数的代表性。 ⑤ 一组数据计算平均值的特点:
每个数与其变量均值的差的和等于零; 每个数加上一常数 C,则所得平均值为原平均值加常 数C。 每个数加上乘以常数 C,则所得平均值为原平均值乘 以常数C。 每个数与其变量均值的差的平方和最小 。
3.数据分析的前奏:描述性统计量
北京站(54511)1950~1998年的月温(0.1°)
年份 一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月
1951 1952 1953 1954 1955 1956 1957 1958 1959
-68 -27 -59 -34 -47 -38 -53 -50 -43
几种属性数据举例
①比例水平测量数据
年平均气温 /℃ 年降水量 /mm 土地面积 /hm2 人口 /人 国内生产总值 /万元
区域1 区域2 区域3 区域3
8.0 7.6 6.5 8.5
500.2 498.6 550.9 586.4
245.6 1064. 894.3 668.7
1 210 1 023 848 654
10 -53 -20 -57 -9 -57 -21 6 -17
你所知的描述统计量?
3.1 数据中心趋向的度量(集中趋势量数)
3.1.1 平均值(Mean/Average) 也称算术平均数或均数,某变量全部数据的算 术平均(未分组数据)。 计算公式:
1 x = n
∑x
i =1
n
i
平均值:
200 300 100 200 200