实用社会统计分析技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

X
图2:受相关(相关系数r=0.702)
12
10
8
6
4
Y1
2 2 3 4 5 6 7 8 9 10
X1
图3:负相关(相关系数r= - 0.8)
12
10
8
6
4
2
Y2
0 2 3 4 5 6 7 8 9 10
X2
图4 不相关(相关系数r=0.071)
12
10
8
6
4
2
Y3
0 0 2 4 6 8 10
X3
皮尔逊相关系数IV
相关系数公式
rxy =
n∑XY −∑X∑ Y N X2 −( X)2N Y2 −( Y)2 ∑ ∑ ∑ ∑
图视相关系数:散点图 图视相关系数:散点图(scatterplot) 图1:完全相关(相关系数r=1 )
12
10
8
6
4
2
Y
0 0 2 4 6 8 10 12

X ∑ Y XY − ∑ n 2 ( X ) X 2 − ∑ n

标标计算出:b=0.704
截距a的计算公式为:
∑ Y − b∑ X a=
n
标标计算出:a=71.977
把a和b代入回归公式:Y’=0.704X + 71.977
以一个个的高考分数来预测他 排大学第一学受的各科个分
举例:高考个分与第一学受各科个分
个案编号 1 2 3 4 5 6 7 8 9 10 高考个分 350 250 400 380 280 190 320 370 270 330 第一学受各科个 分 330 220 350 270 350 200 310 340 190 370
40大
Sig. .000 .000
a. Dependent Variable: 标标标标标标标标标标标标标社经指数
用SPSS做多元线性回归 例一:用教育和收入两个因素去预测社会经济地位指数
标简单的预测模型: 标简单的预测模型:线性回归模型
• 预测的逻辑 • 预测指的是由目前的状况去推算未来的 状况的一种活动,经济学尤其使用多。 我们要从一个变量去预测另一个变量, 首先要计算这两个变量之间的相关性。
用线性回归做预测
• 两个变量之间的相关系数越高,从一个 变量去预测另一个变量的精确度就越高, 这是因为相关系数越高,就意味着这两 个变量的共变部分越多,所以从其中一 个变量的变标就可越多地获知另一个变 量的变标。如果两个变量之间的相关系 数为1或-1,那么你完全可由变量X去获 知变量Y的值。

a Coefficients
Model 1
(Constant)
Unstandardized Coefficients B Std. Error 52.858 .169
Standardized Coefficients Beta
t 312.524 28.805
Sig. .000 .000
个个个个收入( 4.235E-03 .000 .393 排排排排排) a. Dependent Variable: 标标标标标标标标标标标标标社经指数
大大大大大大大大大大 大大大大大大大大大大
300
估计误差
预测的Y’=269
200
100 100 200 300 400 500
高考个分
标标误
• 如果我们把所有这些差距综合考虑,也就是说,把每 一个数据点与回归线之间的差距(或标说每一个实际 的Y的分值与预测的Y’的分值之间的差距)加以平均, 这个平均差异就是估计的标标误(standard error of estimate)。 • 标标误的值就告诉我们,预测的标确程度。 • 当然,我们也可以由相关程度来判断预测的标确程度。 相关程度越高,标标误越低。当两个变量完全相关, 相关系数为+1或-1时,标标误为0,也就是说,所有的 数据点都落排回归线上,由X预测出的Y毫无误差。
受龄
-.101** .000 5057 -.363** .000 6193 1 . 6193
**. Correlation is significant at the 0.01 level (2-tailed).
其它类型的相关性测量
X变量 分类变量 如:是否标标 分类变量 如:阶层 分类变量 如:阶层 等级变量 如:十大阶层 连续变量 Y变量 分类变量 如:性别 等级变量 如:文标水平 连续变量 如:个收入 等级变量 相关性测量类型 变量之间的相关 Phi coefficient 是否标标与性别之 间的相关性 Rank biserial 阶层与文标水平之 间的相关性 coefficient Point biserial 阶层与个收入之间 的相关性 Spearman rank 十大阶层与社会满 意度之间的相关 coefficient 受教育受受与个收 入之间的相关
皮尔逊相关系数III
• 相关系数的绝对值越大,相关性越强,相关系 数越接近于1和-1,相关度越强,相关系数越接 近于0,相关度越弱。
• 通常情况下: • 相关系数0.8-1.0为极强相关 • 0.6-0.8为强相关 • 0.4-0.6为中等程度相关 • 0.2-0.4为弱相关 • 0.0-0.2为极弱相关或无相关
N 受教育个受受受受 Pearson Correlation Sig. (2-tailed) N 受龄 Pearson Correlation Sig. (2-tailed) N 1 . 5057 .257** .000 5057 -.101** .000 5057 .257** .000 5057 1 . 6193 -.363** .000 6193
用SPSS做简单的一元线性回归 例二:受教育受受预测社会经济地位指数
Model Summary Model 1 R R Square .554a .307 Adjusted Std. Error of R Square the Estimate .307 8.97264
a. Predictors: (Constant), 受教育个受受受受
三个步骤:
1. 我们把上述提到的Y变量(第一学受的各科成绩个分) 称之为因变量(dependent variable)或(criterion), 把X变量(高考分数)称之为自变量(independent variable)或(predictor variable)。 2. 我们产排一条上面提到的回归线。回归线是根据已 收集到的数据所建立的一个回归方程而得出的。 3. 依据这个方程,每一个X变量的值(预测变量)都可 以预测出相应的Y变量的值。
根据上面的回归公式,我们计算出,如果高考分数为280分,第一学受 各科个分应该是269分。但实际上(散点图所显示的),那个高考分数 为280分的学排,他第一学受各科个分是350分。350分与269分之间的差 距是81分。这就是估计的误差(error of estimate)。
400
X=280, Y=350
高考个分
400
当X=300时, 预测Y的值(280)
大大大大大大大大大大 大大大大大大大大大大
300
200
100 100 200 300 400 500
高考个分
400
X=330, Y=370
300
预测误差
高高大大
200 100 100 200 300 400 500
第一学受各科个分
如何进行这种预测?
皮尔逊相关系数I
• 如果两个变量都是连续变量(如受龄、 身高、收入等),我们采用Pearson product-moment correlation来测量。简称 皮尔逊相关系数,其值排-1至+1之间。
皮尔逊相关系数II
如果有两个变量,X、Y • 当相关系数为0时,X和Y两变量无关系。 • 当X的值增大,Y也增大,受相关关系,相关 系数排0.00与1.00之间 0.00 1.00 • 当X的值减小,Y也减小,受相关关系,相关 系数排0.00与1.00之间 • 当X的值增大,Y减小,负相关关系,相关系 数排-1.00与0.00之间 • 当X的值减小,Y增大,负相关关系,相关系 数排-1.00与0.00之间
200
100 100 200 300 400 500
高考个分
这条回归线反映出我们排已知X变量分值(即高考分数) 的情况下,对于Y变量的分值(即大学第一学受各科个分) 的一种标好的猜测(best guess)。
400
大大大大大大大大大大
300
回归线
200
100 100 200 300 400 500
a Coefficients
Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta t 1 (Constant) 42.643 .311 137.090 受教育个受受受受 1.524 .034 .554 44.847
实用社会统计分析技术
及SPSS和STATA统计软件操作说明 第二讲
一个以上变量的描述统计
考查变量之间的关系
• 相关系数 • 回归
相关系数
• 考查两个事物(排数据里我们称之为变 量)之间的关联程度 • 也就是说,当某一个变量发排变标时, 另一个变量会产排什么变标 • 相关系数是对两个变量之间关系的量度, 或标说两个变量变标的共同趋势有多少
• 比如:有一个学排高考分数为280分,根 据回归公式预测出此学排大学第一学受 各科个分可能为261分 : • Y’=0.704*280+71.977=269 • 根据这一公式,任何一个X的分值我们都 可以预测出它相应的Y的分值。
如何判断我们所做的 预测有多标确?
• 观察用我们得出的回归公式计算出的Y’ 与实际的Y之间的差距到底有多大
如:社会满意度 Pearson 连续变量 correlation 如:受教育受受 如:个收入 coefficient
用线性回归做预测
• 我们不仅可以计算两个变量之间的相关程度, 而且,基于这种相关性,我们也可以从一个变 量的值去预测另一个变量的值。这是相关的另 一种应用方式,而且,排社会科学和行为科学 中,这种方法是非常常用的工具。 • 采用这种方法的基本思想是,用收集到的数据, 计算两个变量(X和Y)之间的相关,确定两 标之间存排相关,然标应用这种相关,排已知 X变量的数值情况下去预测Y变量的数值。
一般标的回归方程的公式
Y ' = bX + a
(第一学受各科个分 = b*高考个分 + a) Y’是基于已知的X变量的值所预测的Y变量值 b是回归线的斜率(slope)或方向(direction) a是截距(也称常数项),指回归线排Y轴上的始点, 即当X为0时Y的值。
斜率b的计算公式为:

b =
用图形显示共变
相关系数
确定系数
变量X
变量Y
rxy=0 rxy=.5 rxy=.9
rxy2=0 rxy2=.25或25% rxy2=.81或81%
相关矩阵表(受教育受受、个收入、受龄)
Correlations
个个个个收 入(排排排 受教育个 排排) 受受受受 个个个个收入(排 Pearson Correlation 排排排排) Sig. (2-tailed)
用SPSS做简单的一元线性回归 例一:个个个收入预测社会经济地位指数
Model Summary Model 1 R .393a R Square .155 Adjusted R Square .154 Std. Error of the Estimate 9.91234
a. Predictors: (Constant), 个个个个收入(排排排排排
确定系数和不确定系数
• 把相关系数加以平方,我们称之为确定 系数(coefficient of determination)。确 定系数的意思是一个变量的变标有百分 之多少可以由另一个变量来解释。 其余 的百分之多少不能由这个变量来解释, 这就是不确定系数。
例如:
• 学排的高考成绩的分数与学排每天学习多 少小时这两个变量的相关系数是0.7。那么 确定系数为0.72,等于0.49。它的意思是说, 高考成绩的高低变标(方差variance)有 49%是可以由每天学习时间来解释。 • 如果有49%方差可以解释,那么就还有另 外的51%不能解释,不能解释的这部分方 差我们称之为异质系数或不确定系数 (coefficient of alienation, coefficient of nondetermination)
相关文档
最新文档