统计在考古学中的应用-第七讲 相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一旦建立了回归模型, 一旦建立了回归模型 , 除了对变量的 关系有了进一步的定量理解之外, 关系有了进一步的定量理解之外 , 还 可以利用该模型(函数) 可以利用该模型 ( 函数 ) 通过自变量 对因变量做预测(prediction) 对因变量做预测(prediction)。 这里所说的预测, 这里所说的预测 , 是用已知的自变量 的值通过模型对未知的因变量值进行 估计;它并不一定涉及时间先后。 估计;它并不一定涉及时间先后。
X的样本方差 Y的样本方差 样本协方差
l xx = ∑ ( xi − x) /(n − 1)
近似反映X 近似反映X、Y联系强弱和方向
克服量纲影响
r = l xy / l xxl yy
相关系数检验
H0:两变量间无直线相关关系 H0:两变量间无直线相关关系 H1:两变量间有直线相关关系 H1:两变量间有直线相关关系 t 2 F t = n − 2 * r / 1− r n很大
定量变量的线性回归分析
对例7 对例7.1中的两个变量的数据进行线性 回归, 回归,就是要找到一条直线来适当地 代表图1中的那些点的趋势。 代表图1中的那些点的趋势。 首先需要确定选择这条直线的标准。 首先需要确定选择这条直线的标准 。 这 里 介 绍 最 小 二 乘 回 归 ( least squares regression)。古汉语“二乘” regression) 古汉语“二乘” 是平方的意思。 是平方的意思。 这就是寻找一条直线, 这就是寻找一条直线,使得所有点到 该直线的竖直距离的平方和最小。 该直线的竖直距离的平方和最小。用 数据寻找一条直线的过程也叫做拟合 fit)一条直线。 (fit)一条直线。
“回归”一词最早由Francis Galton引入。 回归”一词最早由Francis Galton引入。 Galton发现,虽然父母的身高对子女的身高 Galton发现,虽然父母的身高对子女的身高 起到决定性作用,但给定父母的身高后, 他们儿女辈的平均身高却趋向于或者“ 他们儿女辈的平均身高却趋向于或者“回 归”到社会平均水平。Galton的普遍回归定 到社会平均水平。Galton的普遍回归定 律(law 律(law of universal regression)。 regression)。 Galton的朋友Karl Pearson通过收集一些家庭 Galton的朋友Karl Pearson通过收集一些家庭 的1000多名成员的父子身高数据,证明儿子 1000多名成员的父子身高数据,证明儿子 确实“回归到中等(regression mediocrity)” 确实“回归到中等(regression to mediocrity)”
假如用Y表示感兴趣的变量, 假如用Y表示感兴趣的变量,用X表示 其他可能与Y有关的变量( 其他可能与Y有关的变量(X也可能是 若干变量组成的向量) 若干变量组成的向量 ) 。 则所需要的 是建立一个函数关系Y 是建立一个函数关系Y=f(X)。 这里Y称为因变量或响应变量 (dependent variable, response variable), 称为自变量, 而 X 称为自变量 , 也称为解释变量或 variable, 协 变 量 (independent explanatory variable, covariate)。建立这 种关系的过程就叫做回归(regression) 。 种关系的过程就叫做回归 (regression)。
为研究家庭收入情况对学生成绩变 化的影响,下面点出两个盒形图, 化的影响,下面点出两个盒形图, 左边一个是不同收入群体的高一成 绩的盒形图, 绩的盒形图,右边一个是不同收入 群体的高一和初三成绩之差的盒形 图。
110 30 100 20
高高高高高高高高高高高
90
10
80
70
0
60
-10
•可以看出收入高低对高一成绩稍有影响,但 可以看出收入高低对高一成绩稍有影响, 可以看出收入高低对高一成绩稍有影响 不如收入对成绩的变化( 不如收入对成绩的变化(高一和初三成绩之 的影响那么明显。 差)的影响那么明显。
统计学在考古中的应用
第七讲
相关分析
任何事物之间都有联系 强弱、直接间接 怎样才能发现两个变量有没有关系呢? 最简单的直观办法就是画出它们的散点图。 下面是四组数据的散点图;每一组数据表 示了两个变量x 示了两个变量x和y的样本。
(a)
2 2
(b)
正线性相关
y -1 -3 -2 -1 x 0 1 2 -2 0 1
变量间的关系
确定性关系或函数关系: 确定性关系或函数关系 : 研究的是确定现 象非随机变量间的关系。 象非随机变量间的关系。 统计依赖或相关关系:研究的是非确定现 统计依赖或相关关系: 象随机变量间的关系。 象随机变量间的关系。
对变量间统计依赖关系的考察主要是通过相 对变量间统计依赖关系的考察主要是通过相 统计依赖关系的考察主要是通过 关分析(correlation analysis)或 关分析(correlation analysis)或回归分析 (regression analysis)来完成的: analysis)来完成的 来完成的:
y = β 0 + β1 x + ε
β0和β1的估计 β0和β1的估计
预测值 测量值 残差 Min(RSS) Min(RSS) 重心
方差分析方法
原假设:X 原假设:X与Y无关 TSS=RSS+ TSS=RSS+RSSR RSSR 回归平方和 RSS 回归分析无法解释 0<RSS<TSS r2=1-RSS/TSS=RSSR/TSS RSS/TSS= r——pearson 相关系数 ——pearson
不相关
y -2 -1 0 1
-2
-1 x
0
1
2
负线性相关
2 1 y
(c)
相关但非线性相关
y 4 6 8
(d)
0
-1
-2
-2
-1
0 x
1
2
0 -3
2
-2
-1
源自文库
0 x
1
2
3
散点图
XY 散点图根据值序列的 X 值和 Y 值将每 个值序列显示为图表空间中的数据点。 分布特征 两个变量之间的关系
相关分析和回归分析
发现变量之间的统计关系, 发现变量之间的统计关系 , 并且 用此规律来帮助我们进行决策才 是统计实践的最终目的。 是统计实践的最终目的。 一般来说, 一般来说 , 统计可以根据目前所 拥有的信息(数据) 拥有的信息 ( 数据 ) 来建立人们 所关心的变量和其他有关变量的 关系。这种关系一般称为模型 model) (model)。
一定的置信度 r大小
应用前提
线性相关 异常值的干扰 联合的双变量正态分布
回归分析
对于现实世界,不仅要知其然, 对于现实世界,不仅要知其然,而且 要知其所以然。 要知其所以然。顾客对商品和服务的 反映对于企业是至关重要的, 反映对于企业是至关重要的, 但是仅仅有满意顾客的比例是不够的; 但是仅仅有满意顾客的比例是不够的; 商家希望了解什么是影响顾客观点的 因素,及这些因素如何起作用。 因素,及这些因素如何起作用。 类似地, 类似地,医疗卫生部门不能仅仅知道 某流行病的发病率, 某流行病的发病率,而且想知道什么 变量影响发病率,以及如何影响。 变量影响发病率,以及如何影响。
前提
线性趋势 独立性 正态性 方差齐性
残差分析
发现异常
相关分析和回归分析的比较
相关:密切程度 回归:因果关系 不线性相关并不意味着不相关; 有相关关系并不意味着一定有因果关系; 相关分析研究一个变量对另一个(些)变量的统计依赖关 系,但它们并不意味着一定有因果关系; 相关分析对称地对待任何(两个)变量,两个变量都被看 作是随机的。回归分析对变量的处理方法存在不对称性, 即区分应变量(被解释变量)和自变量(解释变量):前 者是随机变量,后者不是。
Coefficientsa Unstandardized Coefficients Model 1 (Constant) j3 B 26.444 .651 Std. Error 5.396 .072 .795 Standardized Coefficients Beta t 4.901 9.089 Sig. .000 .000
正相关 线性相关 统计依赖关系 不相关 负相关 正相关 非线性相关 不相关 负相关 相关系数:
− 1 ≤ ρ XY ≤ 1
有因果关系 无因果关系
回归分析 相关分析
有 50 个从初中升到高中的学生 。 50个从初中升到高中的学生 个从初中升到高中的学生。 为了比较初三的成绩是否和高中 的成绩相关, 的成绩相关 , 得到了他们在初三 和高一的各科平均成绩(数据在 highschool. highschool.txt) 。 这两个成绩的散点 图展示在图中。 图展示在图中。
40 30
39 25
高高高高
50
-20
-30
N=
11
27
12
N=
11
27
12
1
2
3
1
2
3
家庭收入
家庭收入
到底学生在高一的家庭收 入对成绩有影响吗?是什 么样的影响? 么样的影响? 是否可以取初三成绩(这 是定量变量)或(和)家 庭收入(定性变量)为自 变量,而取高一成绩为因 变量,来建立一个描述这 些变量之间关系的回归模 型呢? 型呢?
初三成绩
高高高高
50
目前的问题是怎么判断这两 个变量是否相关、 个变量是否相关、如何相关 及如何度量相关? 及如何度量相关? 能否以初三成绩为自变量, 能否以初三成绩为自变量, 高一成绩为因变量来建立一 个回归模型以描述这样的关 或用于预测。 系,或用于预测。
该数据中, 该数据中 , 除了初三和高一 的成绩之外, 的成绩之外 , 还有一个定性 变量( 变量 ( 没有出现在上面的散 点图中) 点图中 ) 。 它是学生在高一 时的家庭收入状况; 时的家庭收入状况 ; 它有三 个水平: 个水平 : 低 、 中 、 高 , 分别 在数据中用1 表示。 在数据中用1、2、3表示。
定量变量的相关 人们可能会问, 人们可能会问 , 对相关的度量都 是在其值接近1 时相关, 是在其值接近1或-1时相关,而接 近于0 时不相关。 近于 0 时不相关 。 到底如何才能 够称为“接近” 够称为“接近”呢? 这很难一概而论。 这很难一概而论 。 但在计算机输 出中都有和这些相关度量相应的 检验和p 检验和 p- 值 ; 因此可以根据这些 结果来判断是否相关
定量变量的线性回归分析
例7.1(继续)根据计算,找到初三成 继续)根据计算, 绩和高一成绩的回归直线。 绩和高一成绩的回归直线 。 计算机输 出给出来截距( Constant) 26.444和 出给出来截距 ( Constant ) 26.444 和 斜率(变量j 的系数) 651。 斜率(变量j3的系数) 0.651。
50名同学初三和高一成绩的散点图
100 有个上升趋势;即初三时成绩相对较高 有个上升趋势; 的学生,在高一时的成绩也较高。 的学生,在高一时的成绩也较高。 90
80
70
60
但对于具体个人来说, 但对于具体个人来说,大约有一半的学生的 高一平均成绩比初三时下降, 40 高一平均成绩比初三时下降,而另一半没有 40 50 60 70 80 90 100 110 变化或有进步
定量变量的相关
但如何在数量上描述相关呢? 但如何在数量上描述相关呢? Pearson 相 关 系 数 ( Pearson’s correlation coefficient)又叫相关系数或 coefficient) 线性相关系数。它一般用字母r表示。 线性相关系数。它一般用字母r表示。它 是由两个变量的样本取值得到, 是由两个变量的样本取值得到 , 这是一 个描述线性相关强度的量,取值于个描述线性相关强度的量,取值于-1和1 之间。 当两个变量有很强的线性相关时, 之间 。 当两个变量有很强的线性相关时 , 相关系数接近于1 正相关) 相关系数接近于1(正相关)或-1(负相 关 ) , 而当两个变量不那么线性相关时 , 而当两个变量不那么线性相关时, 相关系数就接近0 相关系数就接近0。
a. Dependent Variable: s1
y = 26.44 + 0.65 x
90 S1 100
截距=26.444; 斜率 斜率=0.651 截距
40 40 50 60 70 J3 80 90 100
50
60
70
80
回归分析通过样本数据讨论解释变量与被 解释变量之间因果关系的数学联系式,即 有总体回归模型: 利用样本观察值找出参数的估计值,得到 样本回归模型: ˆ ˆ ˆ yi = β 0 + β1 xi 检验估计值的性质,并利用样本回归模型 分析被解释变量的总体平均规律。
相关文档
最新文档