统计学考试实务操作题1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据的管理与分析实务操作题
1.做频率分析
分析多重响应定义变量
分析多重响应频率选择变量名称标签
个案摘要
个案
有效的缺失总计
N 百分比N 百分比N 百分比
$B1a 4 100.0% 0 .0% 4 100.0%
a. 值为 1 时制表的二分组。

$B1 频率
响应
个案百分比
N 百分比
你更喜欢哪种拍摄方式a平铺拍摄 3 33.3% 75.0%
衣模拍摄 2 22.2% 50.0%
场景拍摄 2 22.2% 50.0%
纯色背景拍摄 2 22.2% 50.0%
总计9 100.0% 225.0%
a. 值为 1 时制表的二分组。

分析:本次统计调查可以知道,样本量为4个,有效样本量为4,缺失值为0个。

在选址拍摄方式中,有75.0%的同学选择了平铺拍摄,而50%的同学选择了衣模拍摄,而。

2.做交叉列链表分析
分析多重响应交叉表选择变量定义变量男女(1,2)
$B1*A1 交叉制表
请问你的性别是
男女
总计
你更喜欢哪种拍摄方式a平铺拍摄计数 1 2 3
$B1 内的 % 33.3% 66.7%
A1 内的 % 20.0% 50.0%
总计的 % 11.1% 22.2% 33.3%
衣模拍摄计数 1 1 2
$B1 内的 % 50.0% 50.0%
A1 内的 % 20.0% 25.0%
总计的 % 11.1% 11.1% 22.2%
场景拍摄计数 2 0 2
$B1 内的 % 100.0% .0%
A1 内的 % 40.0% .0%
总计的 % 22.2% .0% 22.2%
纯色背景拍摄计数 1 1 2
$B1 内的 % 50.0% 50.0%
A1 内的 % 20.0% 25.0%
总计的 % 11.1% 11.1% 22.2%
总计计数 5 4 9
总计的 % 55.6% 44.4% 100.0%
百分比和总计以响应为基础。

a. 值为 1 时制表的二分组。

分析:可以知道,在拍摄方式中,女生在平铺拍摄中选择的比例比男生高,女生的比例为22.2%,但是在场景拍摄中,男生所选的比例比女生高出了许多,女生选择为0,而,男生是22.2%,其他都是相同。

数据的收集与整理:一般都在数据这项菜单栏;
1.数据的转置:表示行列互换
数据转置
2.数据的排秩(变量排序之后的观察顺序号)
转换个案排秩选择变量
4.排序个案就是对个案就是顺序排序升序或者降序
5.筛选样本
数据选择个案因为有时候不是每个变量你都需要选择来编辑,所以需要筛选样本6.数据分类汇总:指的是一个或者多个分类变量为依据,将另一个或者多个变量数据按照分类结果进行描述统计,将统计结果生成新的文件,每一类成为一个观测值。

数据分类汇总
7.数据拆分、合并数据
8.将分类变量进行分组合并
(1)选择变量数据排序个案
(2)转换重新编码为不同的新变量将月收入选入数字变量和输出变量中
(3)设置旧值和新值
旧值范围600到1000 新值低(设置输出变量为字符)
1000到1500 新值中
1500到3000 新值高
(4)输出变量名称标签
9.连续变量的可视化分段
(1)导入数据转换可视化离散人均收入继续
(2)点击人居收入
(3)生成分割点
10.计算新变量
转换计算新变量输入新变量的名称公式
数据的描述
变量描述统计
图表统计量
定性变量:名义变量顺序变量频数表、条形图、饼图、
交叉(列链)表
频数卡方分类数据
定量变量:定比变量定距变量直方图(分组数据、大量
数据)、帕累托图、茎叶
图、散点图、箱线图、雷
达图(未分组数据)
方差、标准差、众数、偏
度、峰度、极差、分位数、
均值、中位数
描述统计直接对象是事物的属性
定性数据:描述的是事物的品质与标致:名义变量和顺序变量定量数据:描述的是事物的数量标致:定比变量和定距变量
自由度的概念由统计学家R.A Fisher 提出
是指数据个数与附加给独立的观测值的约束或限制的个数之差,自由度是指一组数据中可以自由取值的个数
数据的描述统计量
描述统计的定量变量的操作 条形图 图形 旧对话框 条形图 频数表
分析 描述统计 频率
直方图
图形 旧对话框 直方图
茎叶图
分析 描述统计 探索 绘制茎叶图
箱线图
图形 旧对话框 箱线图
散点图
图形 旧对话框 散点
交叉表:用于分类数据
分析 描述统计 交叉表
用统计量来描述数据
标准分数 :分析 描述统计 描述 标准差 方差 均值 四分位数 :分析 描述统计 探索 统计量 百分位数
推断统计方法
1.聚类分析:
操作 分析 分类 系统聚类 抽样分布:抽样误差
一般做性别和身高的关系:
数据特征 水平 差异 分布形状 中位数和分位数 众数 极差和四分位差 偏态系数 方差或标准差 峰态系数
平均数 离散系数
冰柱图:群集数是2是分为2组,2是一组,其他的是一组
4是分为多少组。

3.相关分析:分析相关双变量/偏相关
一、线性相关
探索性分析:散点图与相关系数,分析是否具有线性线性相关
(主要针对定比和定距的变量做分析)
(1)双变量检验
相关性
文化程度非农业收入
文化程度Pearson 相关性 1 -.023
显著性(双侧).478
N 1027 961
非农业收入Pearson 相关性-.023 1
显著性(双侧).478
N 961 973
解读:原假设为不相关,H0:文化程度与非农业收入不相关
H1:文化程度与非农业收入相关
Pearson相关性表示P值,为-0.023,而显著性表示a0.478.
有P <a所以拒绝原假设H0,接受H1,所以可以知道文化程度与非农业收入相关程度大。

当P >a时,无条件拒绝原假设,可以知道文化程度与非农业收入不相关
(2)偏相关
相关性
控制变量家庭总收入合计非农业收入
农业收入家庭总收入合计相关性 1.000 .987
显著性(双侧). .000
df 0 799
非农业收入相关性.987 1.000
显著性(双侧).000 .
df 799 0
原假设H0:家庭总收入与非农收入没有偏相关关系
H1:家庭总收入与非农收入有偏相关关系
分析:要搞清家庭总收入是否受非农业收入的影响,而且影响有多大,那么可以知道P相关性系数为0.987,而显著性a为0.000.df的自由度值为799.可以得出P值大于a值,所以家庭总收入有很大的关系。

二、spearman 等级相关关系、秩相关系数、顺序相关。

间接计算排名
考虑两个变量当中至少有一个变量是定序的变量的相关关系、分类变量
总结:在0.01的显著性水平上,而人均收入与城镇人口是可统计的,而城镇人口在0.05的水平上显著
三、kendall相关系数描述分类或者等级变量、连续变量
4.回归分析分析回归分析线性回归
因变量x与自变量y之间的线性关系,用一条方程表示y=b0+b1x+z(估计b0与b1,z 为随机误差)分析两个变量之间的线性关系。

两个变量的明显影响程度
回归结果分析:
一看P值和T值,有模型常量为b0,显著性检验的概率为P值,也就是sig.
模型非标准化系数标准系数t sig
常量
人均收入b0 标准误差
-50.946
0.422
-67.745
0.33
-7.52
12.729
-4.58
-0.000
可以看出b0为-50.946,而b1为0.422。

假设b0 :
H0: b0=0 H1: b0≠0
b1:
H0: b1=0 H1: b1≠0
有P与a做比较,当P大于时a,无条件拒绝原假设,就是b0等于0
当P小于时a,拒绝原假设,就是b0不等于0.
假设a为0.05的显著性水平下,有a/2=0.025.查t分布表有t a/2=2.06.
(1)b0检验:有P=0.458>0.05
t=-0.752,即t<ta. Bo=0
(2)b1检验:就是x每变动一个单位,有b1变动0.422个单位。

二看调整后的R平方值
模型R R的平方调整后的R平方值标准估计误差1 .884a .7120 .699
调整后的R平方值大于0.7的水平下才有价值。

当R的平方 1时,证明回归方程的拟合度好。

但是趋于0时,证明回归方程的拟合度查。

三看系数
接受b0=0的则为标准化系数,如拒绝b0=0的则为非标准化系数,就是y^=b1x
模型汇总
模型R R 方调整 R 方标准估计的误差
1 .921a.848 .843 73.635
a. 预测变量: (常量), 人均收入。

有调整后的R方大于0.7,拟合度好
Anova b
模型平方和df 均方 F Sig.
1 回归878568.621 1 878568.621 162.035 .000a
残差157240.218 29 5422.076
总计1035808.839 30
a. 预测变量: (常量), 人均收入。

b. 因变量: 人均食品支出
系数a
模型非标准化系数标准系数
t Sig.
B 标准误差试用版
1 (常量) -50.946 67.745 -.75
2 .458
人均收入.422 .033 .921 12.729 .000
a. 因变量: 人均食品支出
由y=β0+β1x+ε
设:
回归x自变量为人均收入,y因变量为人均食品支出。

以下数据做回归分析可得到
输入/移去的变量b
模型输入的变量移去的变量方法
1 人均收入a. 输入
a. 已输入所有请求的变量。

b. 因变量: 人均食品支出
模型汇总
模型R R 方调整R 方标准估计的误差
1 .921a.848 .843 73.635
a. 预测变量: (常量), 人均收入。

Anova b
模型平方和df 均方 F Sig.
1 回归878568.621 1 878568.621 162.035 .000a
残差157240.218 29 5422.076
总计1035808.839 30
a. 预测变量: (常量), 人均收入。

b. 因变量: 人均食品支出
系数a
模型
非标准化系数标准系数
B 标准误差试用版t Sig.
1 (常量) -50.946 67.745 -.75
2 .458
人均收入.422 .033 .921 12.729 .000
a. 因变量: 人均食品支出
α是在0.05的显著性水平下数据可以知道β0=-50.946,而β1为0.422.
假设H0:β0=0 H1:β0≠0
因为t值为-0.752,sig为0.458,有P >α,所以接受原假设,所以β0=0,可以得出最终的回归方程为y^=0.422x+ε
5.主成分分析和因子分析
分析降维因子分析
描述 kmo/系数(当其大于0.6时才有效)
抽取相关性矩阵最大方差
6.方差分析:检验多个总体均值是否相等
方差分析的条件:正态分布独立性和方差齐性,符合者三个因素,所以可以做方差分析。

一般做男女性别的比例:
分析描述统计 P-P图
首先做P-P图
可以知道该数据符合正态分布,独立性。

方差分析
做P-P图
分析比较均值单因素
方差齐性检验
身高(厘米)
Levene 统计量df1 df2 显著性
.200 1 30 .658
而P大于α的0.05的显著性水平下,所以该数据符合方差分析的条件。

分析比较均值单因素
方差同质性检验确定
7.误差分析
(1)打开数据分析比较均值单因素
(2)选项方差同质性检验确定。

相关文档
最新文档