数据分析概论ppt课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.相关系数(皮尔逊相关系数Pearson's r,针对定量变量关系数据) 协方差在确定相关关系为正负还是零这一方面很有用,但它没有告诉我们任何关于关 系强度的信息。(没有理论上限。变量的测量单位发生变化,数值就会变大很多) 另外一个统计量---相关系数(correlation coefficient)
在简述数据搜集之后,讨论一元统计(测量集中趋势和离散), 之后讲解相关测量(皮尔逊相关系数、tau和lambda系数)和 显著性检验,最后讨论了简单回归和多元回归。
.
3
一.导论
A 形式化的研究路径
1.设计具体的假设和 测量工具 2.谨慎的选择所选择 的检验
面对相同的问题 使用相同的研究工具
A、B分析策略
1.协方差
从图像上,X和Y一起变化(共变,covary),通过一个单独的统计量
协方差来证实,计算公式:
SXY 协方 X Y 差 (X iX )Y (iY) N 1
案例中,计算得出:“父母教育”和“学术能力”的协方差为37.82,证实了样本中这两
个变量呈正相关。
.
2016.11.1215
四、相关测量
标准差:即方差的平方根
注:分母为N-1而非N,提醒要考虑自由度。这对于获得无偏估计是必要的。 因为在均值确定后,如果知道了其中n-1个数.的值,第n个数的值也就确定了。这2里018,6.1均1.2值5
三.一元统计
3.3 集中趋势、离散和异常值
异常值:表示那些似乎与其他值不相一致的值
异常值的四种处理方法:
B 非形式化的研究路径
1.对想法和数据进行自 由探索型 2.在寻找“正确”模型过 程中使用不同的测算
判断???
判断必须来自对统计结果的恰当解释,尤其当结果来自非实验的社会研究时。
.
4
二.数据搜集
“如果进去的是垃圾,出来的也会是垃圾” 数据处理步骤:
(1)抽样——如果样本是一个科学的概率样本,那么它就能代表总体 (2)测量——在检验任何假设之前,调查的变量必须被测量 (3)编码——某些变量编码值含义显而易见,而有的编码值则是位置 标记符 (4)输入 (5)核对
很多社会科学研究的核心问题是:一个变量与另外一个变量的相关情况如何。
例如: 政治社会领域----“社会阶层与政治参与有什么关系? 如有存在关系,关系是否很强呢?”
变量X与变量Y的相关如何?这种相关关系是否很强?
下边我们来讨论二元相关的不同测度
.
201106.11.25
四、相关测量
4.1 相关
两个变量相关时,一个变量的变 化往往随着另一个变量的变化。 右图4.1散点图所示:变量“父母 教育”和“学术能力”之间貌似就 存在着正相关关系。
r XY
( X i X )( Y i Y )
SX
SY
N 1
r XY 是样本相关系数;
S Y 和 S X 是样本标准差;
N 是样本量。
SX Xi X2 N1
SX为从样本中估计的 差标 , X准 i为变量 X的观测值
相关系数的理论区间为[-1,1],表示完全线性相关。如果r=0,表示X和Y线性不相关。 在实例中,“父母教育”和“学术能力”之间的样本相关系数为0.79,表示存在较强 关系。 相关系数是最理想的针对定量变量的二元关. 系系数。如果变量间关系是非线性2的0121,6.1那1.25
数据分析概论
第二组: 李 伟
杨晓婷
周志威 吴佩丽
连志康 郭绍威
.
2016.11.215
目录
1
导论
2
数据搜集
3
一元统计
4
相关测量
5
显著性检验
6
简单回归
7
多元回归
.
2
一.导论
《数据分析概论》旨在为定量研究数据分析的每一步提供统计 学基础。目的是让初出茅庐的研究者具备一定的能力来为手头 的问题选择恰当的统计检验工具。
集中趋势的主要测度:
均值(算术平均值):值的平均数,可以作为集中趋势的归纳 中位数:中间的值 众数:出现最多的值
对于定性变量而言,集中趋势由于精确度低,能提供的信息很少,通常以
下方式来测量:
定序:根据某些特性的“多少”对个案进行排序,而不确切说明到底“多多少”或
“少多少”,如“愿意”、“不确定”和“不愿意”。
四、相关测量
4.2 定序数据:肯德尔tau相关测量
对于定序数据,其散点图几乎看不出 来数据间的关系,我们使用列联表来 评估数据间的关系。列为列变量(或 自变量X),行是横变量(或因变量Y)
对调查中的受访者进行定序:
1.Xi Xj和Yi Yj,同序对 2.Xi Xj和Yi Yj,异序对 3.Xi Xj和Yi Yj,平局对
.
5
三、一元统计
任何变量的两个特征都值得特别关注——
1.集中趋势(central tendency):关注变量的“典型”分值,把不同的观测统一 起来,提供一个概要的含义
2.离散(dispersion):关注分值的散布情况,表明观测相互之间的差别有多大
.
2016.11.265
三.一元统计
3.1 集中趋势
(1)删除:在后续分析中简单地删除异常值。但不推荐单独使用,异常值也代表 信息,或许代表有关总体的重要信息 (2)数学变换:没有忽略异常数据的信息,包括平方根变换、对数变换 (3)原封不动:简单地标记异常值,但不删除也不对其进行改变 (4)分别报告保留和删除异常值的结果
.
2016.11.295
四、相关测量
名义:测量某种特征的出现或不出现,此类特征不能排序或刻度化,如地区、性别
或宗教。
back
.
2016.11.275
三.一元统计
3.2 离散 初级离散测度:
极差:对定量变量而言,表示最高分和最低分之间的距离 对定性变量而言,表示所记录下来的取值类别
集中度:关注某一分数出现的相对频数
定量变量的其他测度:
tau
(CD)
(CDTX)(CDTY)
C是同序D 对 是, 异序T对X是 , X上的平局T对 Y是Y上 ,的平局对。
所有同序对C减去所有异序对D,然后除以所有可能配对数目。
.
2016.111.235
四、相关测量
4.3名义数据:Gowenku.baidu.comdman-Kruskal lambda( )系数 系数是一个预测性的相关测度,其
计算和解释都非常直观。预测误差的减少
比例就被称作lambda 系数,公式:
知道X的预测误差减少
未知X的预测误差
[0,1]
假设:
仅知道Y,即宗教信仰的频数(21,20,9)
。选择最大频数所在的类别来预测,即21人的天主教,那么预测有29人不是天主教。
相关文档
最新文档