数据统计与分析技术讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
X i fi
X
i 1 n
fi
i 1
标准差(方差)
标准差(σ)与方差(σ 2 )是反映 数据离散趋势最常用的统计量。
在分组条件下,方差的公式为:
n
( X i X )2 fi
2
i 1
n
fi
i 1
标准差是方差方差的算术平方根。
频数分析过程
该过程可计算数据资料的各种 描述统计指标、给出变量简单频数 分布表、绘制几种变量分布图。
基本数学模型
1.描述集中趋势的统计量:
算术平均数 调和平均数 几何平均数 众数 中位数
2.描述离散趋势的统计量
极差 平均差 标准差(方差) 标准误
3.描述分布特征的统计量
偏度 峰度
算术平均数
算术平均数等于所有样本数据的总和 除以数据个数。算术平均值是描述样本数 据中心趋势最常用的统计量。
在分组条件下,其公式为:
Bye Bye
数据的排序
1. 在主菜单中单击Data菜单选项,打开该菜单条; 2.单击Sort Cases选项,打开对话框; 3. 在左边窗口选定变量名,再用箭头按钮, 将变量转到Sort by 窗口中; 4.在Sort Order方框中,选择排序方式。
数据的排序—对话框
数据的转置
1. 在主菜单中单击Data菜单选项,打开该菜单条; 2.单击Transpose选项,打开对话框; 3.在左边窗口选定变量名,再用箭头按钮, 将变量转到Transpose窗口中; 4. 单击“OK”按钮,确认后,生成新的 数据文件。
聚类分析wenku.baidu.com判别分析
8.1 聚类分析和判别分析过程概述 8.2 快速样本聚类过程 8.3 分层聚类分析 8.4 判别分析
主成分分析和因子分析
9. 1 主成分分析 9. 2 因子分析
时间序列分析
10.1 10.2 10.3 10.4
指数平滑法 季节分解法 自回归法 自回归综合移动平均模型
对不在方程中的 自变量能否引入?
能
引入自变量
否
对已在方程中的
自变量能否剔除?
能 剔除自变量
否 筛选结束
可化为线性回归的非线性回归
方法:变量替换
1. 双曲线型
y a b x
令
u 1,
x
y a bu
得到
1 a b
y
x
令
u 1 ,v 1
x
y
v a bu
得到
可化为线性回归的非线性回归
→ Crosstabs
出现对话框
列联表分析过程—对话框
平均数分析
该过程主要用于分组计算各统 计指标,也可以进行单因素随机设 计方差分析和线性检验。
Analyze →Compare Means → Means
出现对话框
平均数分析—对话框
Options对话框
单一样本t检验
该过程用于检验样本平均数与总体 平均数之间是否存在差异。
Y b0 b1x1 b2 x2 ... br xr
其中,是数学期望为0的随机误差,且满足正态分布。 对于n组样本观察值(n>r): xi1, xi2, …, xir (i=1, 2, …, n) yi (i=1, 2, …, n) 多元线性回归模型为:
yi b0 b1xi1 b2 xi2 ... br xir i
Analyze →Descriptive Statistics → Frequencies 出现对话框
频数分析过程—对话框
统计量选择对话框
数据描述过程
该过程计算数据资料的各种描 述统计指标,但不给出分布图。
Analyze →Descriptive Statistics → Descriptives 出现对话框
相关分析
相关过程调用:Analyze→Correlate→ Bivariate:
Pearson相关模型
Pearson相关系数计算公式:
r
(Xi X )(Yi Y )
(Xi X )2 (Yi Y )2
r是最常用的相关系数
偏相关系数
多个变量之间的相关关系是错综 复杂的,任何两个变量之间都有简 单相关关系,而这种相关关系中夹 杂了其他变量所带来的影响。固定 其他因素,而计算某两个因素之间 的相关系数称为偏相关系数。
Ei 0 i 1,2,..., n
其中,i互不相关。
多元线性回归方法
1. Enter (全回归法) 2. Stepwise (逐步回归法) 3. Remove(剔除法) 4. Backward(向后回归法) 5. Forward(向前回归法)
逐步回归的 基本步骤
引入自变量的显著性水平1 剔除自变量的显著性水平2
2. 指数曲线型
y aebx
若a>0,则令v=lny,得到:
v ln a bx
若a<0,则令v=ln(-y),得到:
3. 幂函数型
v ln( a) bx
y axb x 0
若a>0,则令v=lny,u=lnx,得到(a<0情况类推):
v ln a bu
可化为线性回归的非线性回归
相关分析
相关分析是研究两变量之间的关系。 相关模型包括皮尔逊(Pearson)、斯皮 尔曼(Spearman)和肯特尔(Kendall) 三种子模型。相关模型要求X、Y变量都 是随机变量,并都呈正态分布。满足上 述正态分布的定量数据可用Pearson相关 模型。对于定序、计数数据、对于不满 足正态分布的数据,则非参数检验模型, 即Spearman和Kendall相关模型。
配对样本t检验
该过程用于检验两个配对样本的平 均数之间是否存在差异。
Analyze →Compare Means → Paired-Sample T test
出现对话框
配对样本t检验—对话框
配对样本
配对样本(Paired Sample)或相关样本 (Correlated Sample),指两个样本的观测值 之间彼此有关联,如同一批被试者接受两种实 验条件,即同一批观测对象接受两种不同的测 量。对于此类样本,研究者所感兴趣的是二次 测量之间是否存在差异。如实验前和实验后的 测量,即具体个别样本的顺序不可以变化的。
1.加权(Weight)是一种通过人为方法 来调节样本或数据大小的方法,在资料 输入、样本分析和科学评价中经常起到 举足轻重的作用。
2.加权有两种情况: 对变量的值加权
对个案加权 —对话框
数据的加权—对话框
数据的转换
1. 利用Compute功能选项转换数据 2. 利用Count功能选项转换数据 3. 利用Recode功能选项转换数据 4. 利用Automatic Recode功能选项 转换数据 5. 利用随机数种子转换数据
数 据 统 计分 与析
技 术
数据统计与分析技术
1. 分析前数据预处理 2. 样本描述性统计 3. 平均数比较与T检验 4. 相关分析 5. 回归分析 6. 非参数检验 7. 方差分析 8. 聚类分析和判别分析 9. 主成分分析和因子分析 10. 时间序列分析
分析前数据预处理
1.1 数据的排序 1.2 数据的转置 1.3 数据的拆分 1.4 数据文件的合并 1.5 数据的选择 1.6 数据的加权 1.7 数据的转换
Analyze →Compare Means → One –Sample T Test
出现对话框
单一样本t检验—对话框
独立样本t检验
该过程用于检验两个独立样本的平 均数之间是否存在差异。
Analyze →Compare Means → Independent-Sample T test
出现对话框
偏相关系数
相关过程调用:Analyze→Correlate→ Partial:
距离分析
对于更复杂数据资料之间的关系, 可利用距离分析来进行研究。距离分 析通过计算各样本点之间的距离,来 观测样本之间的相似或不相似程度, 从而可进一步进行聚类分析、因子分 析和多维分析。
线性回归
一元线性回归
多元线性回归
数据描述过程—对话框
Options对话框
数据探察过程
探索性数据分析是指对数据的初步考察, 由描述统计指标和直观的图形组成。包括检 查数据错误、描述整体或分组数据的数量特 征和分布特征,假设检验,奇异值辨认等。
Analyze
→Descriptive Statistics
→ Explore
出现对话框
Y a bx
其中,是数学期望为0的随机变量, 假设满足正态分布,于是:
EY a bx
(xi, yi)
多元线性回归
x1, x2, …, xr:r个可控制或可精确观测得到的数据的变 量; Y:与x1, x2, …, xr具有相关关系的随机变量。
假定Y与x1, x2, …, xr具有线性相关关系:
多元回归的方法
可化为线性回归的非线性回归
线性回归
线性回归过程调用:Analyze→Regression→ Linear Regression
一元线性回归
x:可控制或可精确观测得到的数据的变量; Y:与x具有相关关系的随机变量。 xi (i=1, 2, …, n) yi (i=1, 2, …, n) 数据对(样本值):(xi, yi) i=1, 2, …, n 散点图(Scatter Graph) 假定Y与x具有线性相关关系:
SPSS提供了拟合各种常用曲线模型的 功能。
数据文件合并
1. 样本合并(横向拼接) Data—Merge Files—Add Cases
2.变量合并(纵向拼接) Data—Merge Files— Add Variable
数据的选择
1. 根据逻辑关系表达式选择数据 2.随机选取数据 3.在给定范围内选择数据 4.用过滤器变量选择数据
数据的加权
数据的转置—对话框
数据的拆分
1. 在主菜单中单击Data菜单选项,打开该菜单条; 2.单击Split File选项,打开对话框; 3.选择进行拆分的方式;
4.在左边窗口选定变量名,用中间箭头按钮, 将变量转到Groups Based on窗口中;
5.注意拆分前的排序,选择两种方式。
数据的拆分—对话框
令:
y
a
1 bex
u ex v 1 y
得到:
v a bu
曲线回归
客观实现中各因素之间呈现线性关系的 现象并不很多,更多的是呈现曲线关系, 这时应采用非线性回归分析。非线性回归 模型包括两种形式:一是可线性化的,如 二次曲线模型、对数模型等;一是不可线 性化的,如逻辑曲线模型。
独立样本t检验—对话框
独立样本
独立样本(Independent Sample)是指两个 样本彼此独立,没有任何关联。例如实验组与 控制组、男生组与女生组、高收入组与低收入 组、大学数学系与物理系等。但这里的独立样 本是广义的独立,仅是指非关联变量。两独立 的样本各接受相同的测量,研究者的兴趣在比 较两批样本群在测量结果总体上是否存在差异。 独立样本中,所有观测都是独立的,即具体个 别样本的顺序可以变化的,与变量无关。
数据探察过程—对话框
列联表分析过程
列联表是按两个标志对一组观察值进行交 叉分组所得到的频数分布表,表中列出同时联 系于横行和纵行某特定标志名称的观察值数目, 在表的右边栏列出各行频数的合计,在表的底 行列出各列频数的合计,在两者交叉处,即表 的右下角,列出频数总计。
Analyze
→Descriptive Statistics
回归分析
5.1 线性回归 5.2 曲线回归
非参数检验
6.1 非参数检验概述 6.2 单样本检验 6.3 独立样本差异的显著性检验 6.4 相关样本差异的显著性检验
方差分析
7.1 方差分析概述 7.2 方差分析的基本步骤 7.3 单因素方差分析 7.4 多因素方差分析 7.5 协方差分析
样本描述性统计
2.1 基本数学模型 2.2 频数分析过程 2.3 数据描述过程 2.4 数据探察过程 2.5 列联表分析过程
平均数比较与T检验
3.1 分组平均数的比较 3.2 单一样本t检验 3.3 独立样本t检验 3.4 配对样本t检验
相关分析
4.1 相关系数 4.2 偏相关系数 4.3 距离分析
4. 对数曲线型
令u=logx,得到:
y a b log x y a bu
令v=logy,得到:
log y a bx v a bx
log y a b log x
令u=logx, v=logy,得到:
v a bu
可化为线性回归的非线性回归
5. S曲线型