统计在考古学中的应用-第一讲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


车商甲 1985-1991 借通用汽车 60亿美元 1990年12月 4.25亿美元 17000辆厢车进行改 装出口 有问题么?

厢车改装行业一个月17000辆 行业协会报道 1.35%外销

数据虚假

数据是如何产生的 测量的事物?
检查途径

信息不完整:

下雪天车祸28起 高考分数
Exploratory Data Analysis


茎叶图 箱图 中位数 四分位差
名义变量
考古资料的数字化




个体、样品 样本 总体 个体属性——变量 变量取值——观测数据


一组刮削器的长度,一群柱洞的直径以及一些遗址的面积,即为 三个样本。这里的长度、直径和面积等皆为变量 ,而每个刮削器、 柱洞和遗址称为个体。 一把刮削器的长度,一个柱洞的直径和一个遗址的面积,因彼此 完全无关而不能组成样本。而一把刮削器的长度、宽度、厚度和 重量,它们是同一个体的不同变量值,而不是同类事物的不同个 体,因而也不能组成样本。20把刮削器的长度、宽度、厚度和重 量,应能组成四个样本,而不是一个 。
x X
n


异常值的出现,总是显著影响样本的平均 值,而丝毫不会影响其中位数。用统计学 的术语说,中位数具有良好的抵抗性,而 平均值不具任何抵抗性。 异常值剔除:正确?其他类型?直接?
截尾平均值


为1号坑样本调整5%的平均值,等于剩余数 值的和除以nT(10)后所得的商,即11.17g。 欲求2号坑样本调整5%的平均值,同样需先 从样本两端各剔除一个数值(0.05╳13=0.65, 进位为1),再将剩余数值的总和除以nT(11) 得到,其具体的调整平均值为11.48g。 截尾平均值与原初的平均值不同,它可抵 消异常值的影响。
高三男生身高
170
160
150
140
N= 163 175
地区1
地区2
地区
数列中心的标准化
离散程度的标准化
Z得分

平均值 标准方差
Z (X X ) / s
数列的形状或分布

对称性 中位数 平均值
变换

用数列中的所有数据减去中位数或平均值, 产生一个标准化水平的新数列,这种操作 是将它的中心调为零的同时,保留了数列 的形状和离散度。接着我们在一个零水平 的数列中将所有数列除以四分位差或标准 差来得到标准化离散度的数列,这是将数 列的离散度调为标准值1


计算机无法识别你的统计方面的错误
错误的方法、错误的数据形式都必然输出错 误的结果(虽然看上去可能很漂亮),得到 大量垃圾 另外,统计软件输出的结果太多、很难都理 解

考古学研究中应用统计的特点




定量化——思维模式的变化 全过程中贯穿定量思想 计算机辅助 定量与传统考古方法的结合 国际交流需要 定量陷阱
看到一种统计关系时,切勿轻率地 对其因果关系作结论

M:统计资料表明.大多数汽车事故出在中等速度的行驶中,极少的 事故是出在大于150公里/小时的行驶速度上的。这是否就意味着高速 行驶比较安全? M:绝不是这样。统计关系往往不能表明因果关系。由于多数人是以 中等速度开车,所以多数事故是出在中等速度的行驶中。 M:统计数字还表明,在亚利桑那州死于肺结核的人比其他州的人多。 这是否就意味着亚利桑那州的气候容易生肺病? M:正好相反。亚利桑那的气候对害肺病的人有好处,所以肺病患者 纷纷前来,自然这就使这个州死于肺结核的平均数升高了。 M:有一个调查研究说脚大的孩子拼音比脚小的孩子好。这是否是说 一个人脚的大小是他拼音能力的度量? M:不是的。这个研究对象是一群年龄不等的孩子。它的结果实际上 是因为年龄较大的孩子脚大些,他们当然比年幼的男子拼得好些。
双(多)峰

必须拆分
样本的离散趋势

全矩:极差
样本中最大数值和最小数值之差。 完全没有抵抗性。


四分位差:是样本中间一半的全距。在样 本数值中,它不考虑其最大和最小的四分 之一部分。可将其视为一种调整过的全距。
方差和标准差


样本中较高的数值相对于平均值,具有正 偏差(因它们大于平均值),而较低的数值则 具有负偏差(因它们小于平均值) 。 偏差之和必然等于零,故其平均值也为零。
学习内容



描述性统计 随机抽样 概率论 C14测年 统计推断 抽样中的特殊问题 多元统计 上机操作
教材和统计软件




陈铁梅.定量考古学.北京大学出版 社.北京,2005 Excel SPSS Origin WinBASP 其他……
评分标准


考试 40% 课堂交流 20% 课后作业 20% 课题设计 10%


统计分析流程

一般来说,统计先从现实世界收集数据 (信息),如观测路口的交通 然后,根据数据作出判断,称为模型 模型是从数据产生的 模型也需要根据新的信息来改进 不存在完美的模型 模型的最终结局都是被更能够说明现实世 界的新模型所取代



数据的产生:数据如何得到? 资料分析:解读数据 统计描述:数据 制图 概率:将事实和无关紧要的信息分离 统计推断:用少量数据,推断大量总体
s
2
x x
n 1
2
截尾方差
sT
2 n 1 sW
nT 1

将火石原料制成的刮削器视为一个样本数 列,而将燧石原料制成的刮削器视为另一 个样本数列,绘出刮削器长度的双重茎叶 图(这次忽略了刮削器出土遗址的不同)。如 何比较这两个样本数列?能否看出什么规 律,有助于解释上述所有刮削器长度组成 的茎叶图?

数字之间有矛盾 用可靠信息来源进行 对比 数据太好了


简单的算术问题

车祸: 42%的车祸发生在周五、周六和周日 数量变动的百分比:5000->7000->6000
数据统计表
茎叶图

将一组测量值直接罗列出来,人们通常难以获取 其深层次的信息,因此,欲分析一组样本,首先 需将它们重新组织。
分层定量统计

器物特征的定量
考古中的随机发现

男性:69.2% 女性:45.5% χ2分布检验 随葬品与性别有关 18%犯错
有随葬 无随葬 品 品 男 18 8

5
6
大信息量的考古资料

化学成分 植硅石测量数据 体质人类学测量数据
数据制图

直观表示 二维图 三维图
统计、计算机与统计软件

现代生活越来越离不开计算机了,最初的计算机 仅仅是为科学计算而设计和建造的。统计是大型 计算机的最早用户,现在仍然是数值计算的主要 用户 计算机的使用,从计算机语言到 “傻瓜式”地 点击鼠标,输出结果也从数字输出到各种可以想 象得到的形式。输入数据,点鼠标做一些选项, 就可得到漂亮结果,但其中充满了危险的陷阱
Байду номын сангаас
描述性统计

总体——参数 样本——统计量
样品中心的统计量(集中趋势)


平均值:x分别为样本的各个数 值;n为样本数值的个数 1号坑石片重量的平均值是 12.33g (12块石片重量的总和, 除以石片的总数12),而2号坑石 片重量的平均值是11.42g (13块 石片重量的总和,除以石片的 总数13)。 中位数:若样本的个数是奇数, 则中位数即为样本的中间数值, 而若样本的个数是偶数,则为 中间两个数值的平均值。
统计学在考古中的应用
第一讲
统计学

以归纳为主要思维方式的统计不是以演绎 为主的数学
统计可应用于各个不同学科,在有些学科 已经有其特有的方法和特点;如生物统计 (biostatistics)、经济计量学(econometrics)以及 目前很热门的生物信息(bioinformation)和数 据挖掘(Data Mining)的方法主体都是统计。
210
200
158 96 5
190
248 250 259 323
180
盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线 (边)为上下四分位数(点);按照SPSS的默认选项,如果所有 样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为 最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四 分位间距),在其外面的度量单独点出
数据类型

名称变量
形态:平底、尖底、圜底 纹饰:绳纹、蓖麻纹 性别

有序变量


年龄 分期 地层次序
数值变量



数量 百分比 重量 成分
考古器物的定量描述
陶豆
• • • • • • 通高 口径/通高 柄高/通高 盘深/通高 最大直径/最小直径 纹饰:有无
数字合理性检查


像这样聚集的样本是相当普遍 的,而一个或几个数值远离大 多数值聚集区域的样本也颇为 常见,这些偏离甚大的数值通 常称之为异常值,后面将对它 们作较详细的讨论。这里需强 调的是,对这些异常值,要特 别怀疑并加以验证。该样本中, 直径44.6cm的柱洞显然是不正常 的,应怀疑某人记录此测量数 据时出了差错。迅速核对田野 记录或照片,应能判断该记录 的正确与否,如属记录错误, 则立即将其纠正。如果测量确 实无误,则表明这个样本有这 样一个突出的特征,即有个柱 洞似乎完全不同于其余柱洞。

现实中的随机性和规律性

一些现象既有规律性又有随机性(randomness) 肺癌患者中(主动或被动)吸烟的比例较大,这 体现了规律性 而绝非每个吸烟的人都会患肺癌,这体现了随机 性 再如,一般来说,白种人身材比黄种人要高些, 这就是规律性 但对于具体的一个白人和一个黄种人,就很难说 谁高谁矮了,这体现随机性
太密的茎叶图

划分区间要相等 个体数目平方根作为分组数目
双重茎叶图
直方图
旋转90º ,删除图中叶的具体数字,而以方 框高度简单表示叶的个数
多峰

两个数值聚集中心在图上如同两个小峰。 这种多峰的数值聚集方式明显暗示着两者 截然不同的情况,在这里,即为两种不同 类型的遗址,或许可将它们称之为大遗址 和小遗址。茎叶图和直方图上的数值聚集 方式,表明这两种遗址被明确分开。这就 是说,Kiskiminetas河谷中遗址大小的划分, 并非主观臆断,而是其样本数列内在特征 的反映。
小心潜在变量,变异无所不在
样本比较

直方图和茎叶图 位置统计量:集中趋势 尺度统计量 :分散趋势
箱图

中位数 四分位差 异常值 超异常值


异常值应该和方框边界大于一个半方框的 长度。我们可以从纯粹图解的方法来考虑。 我们可以测量如图所示箱图的框的长度。 如果方框是一英尺长,那么我们可以认为 任何一个和方框边界(或上或下)距离大 于1.5英尺的数据就是异常值。 x代表数据聚集的范围(不包括所有的异常 值)。异常值在图中都是空心点来表示, 超异常值都是用实心点表示。
考古学

利有实物遗存资料去复原古代社会的科学
海量数据:测量、描绘。。。 统计描述


抽样过程、随机
“样本”(局部)推断”总体“:发掘的随机性 统计推断

数量关系

认识古代社会

一个器物、墓葬、房址、遗址? 磁山类型 58% 裴李岗类型 57% 动物骨骼百分比


百分比关系

野羚羊绵羊、山羊
相关文档
最新文档