数据的基本统计与非参数检验

合集下载

统计学第十章 非参数统计方法

统计学第十章  非参数统计方法
– 非参数检验的假定条件要比参数检验宽松得多,不仅对 总体分布,而且对数据的测量层次。
4
参数统计与非参数统计
• 参数统计
– 对那些其总体分布族或称统计模型只依赖于有限个实参 数的问题,通称为“参数统计问题”,也就是说,总体 分布服从正态分布或总体分布已知条件下的统计检验, 称为参数检验,研究这一问题的统计分支称为参数统计。 参数统计的大部分方法要求所分析的数据至少是定距尺 度测量的结果。如统计学中的检验、检验等,都属于参 数检验。
第十章 非参数统计方法
2020/2/4
1
内容要点
• 非参数统计方法的意义 • 单样本非参数检验 • 两个相关样本的非参数检验 • 两个独立样本的非参数检验
2
1. 非参数统计方法的意义
2020/2/4
3
参数统计与非参数统计
•非参数统计
–当总体分布不能由有限个实参数所刻划时的统计检验, 称为非参数检验,也就是说,统计检验的正确、有效并 不依赖于总体的一个特定的统计模型即并不取决于总体 分布时,称为非参数检验。非参数检验通常认为是总体 分布不要求遵从正态分布或总体分布未知条件下的统计 检验只能,研究这一问题的分支称为非参数统计。
13
符号检验
•符号检验的步骤
–建立假设
–计算检验统计量
•检验统计量S+为S—和。 S+表示为正符号的数目, S—表示 为负符号的数目。 S+ + S— =n,n是符号的总数目。

统计学中的非参数统计分析

统计学中的非参数统计分析

统计学中的非参数统计分析

统计学作为一门研究数据分析和推断的学科,涉及到各种统计方法和技术。其中,非参数统计分析是一种常见且重要的方法,它不依赖于数据的特定分布假设,而是利用数据本身的特征进行分析和推断。本文将介绍非参数统计分析的基本概念、应用场景和常用方法。

非参数统计分析是相对于参数统计分析而言的。参数统计分析通常需要对数据

的分布做出假设,如正态分布、指数分布等,并利用参数估计方法来推断总体参数。然而,在实际应用中,我们往往无法确定数据的真实分布,或者分布假设不成立。这时,非参数统计分析就成为一种有力的工具。

非参数统计分析的一个重要应用是在样本比较中。假设我们想比较两组样本的

均值是否有显著差异,但无法确定数据是否符合正态分布。这时,可以使用非参数的Wilcoxon秩和检验来进行推断。该方法将两组样本的观测值按大小排序,并计

算秩次和。通过比较秩次和的大小,可以判断两组样本的均值是否有显著差异。

除了样本比较,非参数统计分析还可以用于回归分析。在传统的线性回归中,

我们通常假设自变量和因变量之间的关系是线性的,并利用最小二乘法来估计回归系数。然而,在实际应用中,变量之间的关系可能是非线性的,或者无法确定具体的函数形式。这时,非参数的局部回归方法就可以派上用场。该方法通过在每个数据点附近拟合局部线性模型,来估计变量之间的关系。这种方法不依赖于具体的函数形式,能够更好地适应数据的特点。

在实际应用中,非参数统计分析还有许多其他的方法,如Kolmogorov-Smirnov 检验、Mann-Whitney U检验等。这些方法都不依赖于数据的分布假设,能够更加

统计学第13讲 第13章 非参数检验

统计学第13讲 第13章 非参数检验

科研中。虚无假设、备择假设、统计检验、抽样分布 以及显著性水平都必须在数据搜集之前就要确定下来 。如果先搜集数据,再“货比三家”地考虑统计分析 方法,我们会为了“差异显著”而夸大偶然造成的差 异效应,会增大犯Ⅰ类错误的概率。 13.2 类别变量 分类变量的数据就是计数数据,非参数检验适合小样 本的计数数据。但是当大样本时,计数数据也可考虑 使用参数检验。 测量、等距、比率量表,当样本小并且分布不明朗 ,不服从正态分布,可考虑非参数检验。
判断方法,如果χ2≥ χ2临界值,则拒绝H0。
表13-2 χ2 部分临界值表
34%远远超过7%,这些 女生有80%正在减肥 表13-3 女生对自身体重观念,H0下的期望值及χ2 值计算表
实际值 期望值 fo-fe 2309387.70 2141343.40 3173.41 (fo-fe)2 1104.544 1.370 (fo-fe)2/fe 1191.224
表13-7 使用公式13-3计算曼-惠特尼U检验(假设数据) 实验组 控制组 计算 时间(ms) 等级 时间(ms) 等级 N 1 ( N 1 1) R1 140 4 130 1 U N1 N 2 2 147 6 135 2 153 8 138 3 8 9 160 165 170 171 193 R1 N1=8 10 11 12 13 14 144 148 155 168 R2=39 N2=7 5 7 9 12

医学统计学.非参数检验例题

医学统计学.非参数检验例题

医学统计学.非参数检验例题

某医院测定10名受试者针刺膻中穴前后痛阈的数据,见下表,试分析针刺膻中穴前后痛阈值的差异有无统计学意义?

10名受试者针刺膻中穴前后痛阈资料

编号针刺前针刺后

1 600 610

2 600 700

3 685 575

4 1050 600

5 900 600

6 1125 1425

7 1400 1350

8 750 825

9 1000 800

10 1500 1400

[参考答案]

(1)建立假设检验

H0:差值总体中位数为零

H1:差值总体中位数不为零

α=0.05

(2)计算统计量见下表

10名受试者针刺膻中穴前后痛阈

编号针刺前针刺后差值秩次

1 600 610 10 1

2 600 700 100 4.5

3 685 575 -110 -6

4 1050 600 -450 -10

5 900 600 -300 -8.5

6 1125 1425 300 8.5

7 1400 1350 -50 -2

8 750 825 75 3

9 1000 800 -200 -7

10 1500 1400 -100 -4.5

合计T+=17 T-=38 T++T-= 17+38 = 55,总秩和(1)10(101)55

n n,

22

计算准确无误

T= min(T

,T-)=17。

(3)查表及结论

现n=10,查T界值表T0.05(10)=8~47,T=17落在此范围内,所以P > 0.05,按α=0.05水准,不拒绝H0,针刺膻中穴前后痛阈值的差异无统计学意义。

8名健康男子服用肠溶醋酸棉酚片前后的精液中精子浓度检查结果如下表(服用时间3月),问服用肠溶醋酸棉酚片前后精液中精子浓度有无下降?

假设检验——非参数检验

假设检验——非参数检验

假设检验(二)——非参数检验

假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。上一节我们所介绍的Z 检验、t 检验,都是参数检验。它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检

验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。

非参数检验法与参数检验法相比,特点可以归纳如下:

(1)非参数检验一般不需要严格的前提假设;

(2)非参数检验特别适用于顺序资料;

(3)非参数检验很适用于小样本,并且计算简单;

(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;

(5 )非参数检验法目前还不能用于处理因素间的交互作用。

非参数检验的方法很多,分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。

一.2检验

2

检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。

2

2

检验的方法主要包括适合性检验和独立性检验。

(一)2检验概述

2

是实得数据与理论数据偏离程度的指标。其基本公式为:

2 ( f0 f e)(公式11—9)

f

e

式中,f0 为实际观察次数,f e 为理论次数。

分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。观察公式可发现,如果实际观察

统计学中的非参数检验方法介绍

统计学中的非参数检验方法介绍

统计学中的非参数检验方法介绍

统计学是一门研究收集、分析和解释数据的科学。在统计学中,我们经常需要进行假设检验,以确定样本数据是否代表了总体特征。非参数检验方法是一种不依赖于总体分布假设的统计方法,它在现实世界中的应用非常广泛。本文将介绍一些常见的非参数检验方法。

一、Wilcoxon符号秩检验(Wilcoxon Signed-Rank Test)

Wilcoxon符号秩检验是一种用于比较两个相关样本的非参数检验方法。它的原理是将两个相关样本的差值按绝对值大小进行排序,并为每个差值分配一个秩次。然后,通过比较秩次总和与期望总和的差异来判断两个样本是否具有统计学上的显著差异。

二、Mann-Whitney U检验(Mann-Whitney U Test)

Mann-Whitney U检验是一种用于比较两个独立样本的非参数检验方法。它的原理是将两个样本的所有观测值按大小进行排序,并为每个观测值分配一个秩次。然后,通过比较两个样本的秩次总和来判断它们是否具有统计学上的显著差异。

三、Kruskal-Wallis检验(Kruskal-Wallis Test)

Kruskal-Wallis检验是一种用于比较三个或更多独立样本的非参数检验方法。它的原理是将所有样本的观测值按大小进行排序,并为每个观测值分配一个秩次。然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。

四、Friedman检验(Friedman Test)

Friedman检验是一种用于比较三个或更多相关样本的非参数检验方法。它的原理类似于Kruskal-Wallis检验,但是对于相关样本,它将每个样本的观测值按照相对大小进行排序,并为每个观测值分配一个秩次。然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。

常见的几种非参数检验方法

常见的几种非参数检验方法

常见的几种非参数检验方法

非参数检验是一种不需要对数据进行假设检验的统计方法,它不需要满足正态分布等前提条件,因此被广泛应用于实际数据分析中。在本文中,我们将介绍常见的几种非参数检验方法。

一、Wilcoxon符号秩检验

Wilcoxon符号秩检验是一种用于比较两个相关样本之间差异的非参数检验方法。它基于样本差异的符号和秩来计算统计量,并通过查表或使用软件进行显著性判断。

二、Mann-Whitney U检验

Mann-Whitney U检验是一种用于比较两个独立样本之间差异的非参数检验方法。它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。

三、Kruskal-Wallis H检验

Kruskal-Wallis H检验是一种用于比较多个独立样本之间差异的非参数检验方法。它基于样本排名来计算统计量,并通过查表或使用软件

进行显著性判断。

四、Friedman秩和检验

Friedman秩和检验是一种用于比较多个相关样本之间差异的非参数检验方法。它基于样本排名来计算统计量,并通过查表或使用软件进行

显著性判断。

五、符号检验

符号检验是一种用于比较两个相关样本之间差异的非参数检验方法。

它基于样本差异的符号来计算统计量,并通过查表或使用软件进行显

著性判断。

六、秩相关检验

秩相关检验是一种用于比较两个相关样本之间关系的非参数检验方法。它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。

七、分布拟合检验

分布拟合检验是一种用于检验数据是否符合某个特定分布的非参数检

验方法。它基于样本数据与理论分布之间的差异来计算统计量,并通

参数统计和非参数统计

参数统计和非参数统计
A组:- ± + + + 1 2 3 4 5
B组: + 6
++ 7
++ ++ ++ +++ +++ 8 9 10 11 12
11.5 11.5
1 2 4.5 4.5 4.5 8.5
4.5 8.5Baidu Nhomakorabea8.5 8.5
秩和

A组: - 、、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
(iii)零差值时秩次正负各半(或不参与编秩)
3.分别求正、负秩次之和,以绝对值较小者为T值 4.根据统计量T确定对应的P值 (i)小样本时,查表(附表9) (ii) 大样本时,正态近似
符号秩和检验的基本思想


总秩和为T=N(N+1)/2
如H0成立,则正负各半,T+ 与 T- 均接近
N(N+1)/4。
基本思想

如果H0 成立,即两组分布位置相同, 则A组的实际秩和应接近理论秩和n1(N+1)/2;
(B组的实际秩和应接近理论秩和n2(N+1)/2)。
或相差不大。

如果相差较大,超出了预定的界值,则可认为

第1章-非参数统计概述

第1章-非参数统计概述

2. 原假设与备择假设
原假设
又称零假设,指正在被检验
的假设,记为 H 0
备择假设 指拒绝原假设后打算要接受
的假设,记为 H 1
基 本
双侧检验
形 式
单侧检验
右侧检验
左侧检验
检验假设是设的总体而不是样本。
零假设和备择假设是互斥的,它们中 仅有一个正确;等号必须出现在零假 设中;
最常用的有三种情况:双侧检验、左 侧检验和右侧检验。
与 的反向关系
希望所用的检验方法尽量少犯错误,但不能完 全排除犯错误的可能性。理想的检验方法应使 犯两类错误的概率都很小,但在样本的容量给 定的情形下,不可能使两者都很小,降低一个 ,往往使另一个增大。
当实际分布 的均值为未知时, 无法计算出犯第二

类错误的概率。因
此,我们通常只控
NNoo 制犯第一类错误的
概率。
假设的总体 抽样分布
IIm maaggee
- Z mb mb mb ma
以左侧检验为例
Neymann-Pearson原则
找一个不犯错误的检验!? 控制两种错误概率的方法:增加样本量和N-P原 则。
N-P原则:控制犯第一类错误的概率不超过。
显著水平:犯第一类错误的最大概率。
两类错误总结
结论
不能拒绝 H0
定类尺度数据没有顺序和大小区别

医学统计学精品教学第十章-非参数检验精品文档

医学统计学精品教学第十章-非参数检验精品文档
2.偏态分布资料
2019/10/13
秩和检验
7
何时使用非参数检验?
3.个别数据偏离过大资料
这里指的是随机的偏离而不属于“过失误差” 所致。还有一种情况就是数据的某一端无确定数 值,如“<0.01µg”,“>50mg”等等,只给一个上 限或下限,而没有具体数值。
4.各组离散程度相差悬殊(方差不齐)的资料
2019/10/13
秩和检验
19
本例中:
T=23 对子数n=10,查p226附表8得 23∈[10 45] 故 P>0.10
下结论:在α =0.05水准上不拒绝H0 ,故 不能认为两法测得血红蛋白含量有差别。
2019/10/13
秩和检验
20
平均秩和
② 大样本时( 对子数n>50)通过公式进
行u转化,采用正态近似检验:
u|Tn(n1)/4|0.5 (式10-1)
n(n1)(2n1)/24
秩和标准
式中0.5是连续性校正数,因差为T值是 不连续的,而u分布是连续的。
2019/10/13
秩和检验
21
当存在同一秩较多时,按(式10-1)计算
的u值要比实际的u值小,应采用(公式 10-2)对u加以校正:
u |Tn(n1)/4|0.5
28
符号秩和检验的SPSS实现
2019/10/13

参数检验与非参数检验

参数检验与非参数检验

❖ 二、第Ⅰ类错误、第Ⅱ类错误与显著性水平
在进行统计推断时,有可能会出现以下两种错误,第
一类错误是拒绝真实的原假设,我们把它叫做“拒真”
的错误。第二类错误是接收错误的原假设,我们把它叫
做“取伪”的错误。在假设检验中,犯第Ⅰ类错误的概率
记为 ,称其为显著性水平;犯第Ⅱ类错误的概率记为 。
我们一般事先规定允许犯第Ⅰ类错误的概率 ,然后尽量
❖ 2、选择检验统计量。单样本 计量。
检t验的检验统计量为 统
❖ 3、t计算检验统计量观测值和概率值。SPSS将自动计算
统计量的观测值和对应的概率 值。
❖ 4、给t定显著性水平,并作出决策 。给定显p著性水平,与
检验统计量的概率值作比较。如果概率值小于显著性水平,
则应拒绝原假设;反之,如果概率值大于显著性水平,则
第十六页,讲稿共七十二页哦
❖ 两独立样本 检t验的基本步骤:
❖ 1、提出原假设:两总体均值无显著差异
❖ 2、选择检验统计量:在具体实现时通过两步完成:第一,利
用 检验判断两总体的方差是否相等;第二,根据前一步的判 断结果决定 统F计量和自由度的计算公式。
❖ 3、计算检验统计量观测值和概率值t:SPSS将自动依据单
第十三页,讲稿共七十二页哦
❖ 2、在左边的源变量框中选择要分析的变量,将其送 入Test Variable(s)框中。在Test Value检验值一栏中填入

数据的基本统计与非参数检验

数据的基本统计与非参数检验

北京建筑大学理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423 日期 2016 . 3 .17

姓名班级学号指导教师成绩

【实验目的】

(1)熟悉数据的基本统计与非参数检验分析方法;

(2)熟悉撰写数据分析报告的方法;

(3)熟悉常用的数据分析软件SPSS。

【实验要求】

根据各个题目的具体要求,完成实验报告

【实验内容】

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显着影响,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家

庭收入与10000元是否有显着差异,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显着影响,撰写相应的分析报告。

根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显着影响,撰写相应的分析报告。

【分析报告】

1.

表一家庭收入和现住面积的基本描述统

计量

家庭收入现住面

N有效29932993缺失00均值

均值的标准误.47349中值

众数

标准差

方差

偏度.910偏度的标准误.045.045峰度

峰度的标准误.089.089

百分位数25 50 75

表一说明,

家庭收入方面:

被调查者中家庭收入的均值为元,中值为15000元,普遍收入为10000元;

统计学中的非参数统计方法介绍

统计学中的非参数统计方法介绍

统计学中的非参数统计方法介绍统计学是一门研究如何收集、分析和解释数据的学科。它的应用范

围广泛,可以帮助我们了解数据背后的规律和趋势。在统计学中,参

数统计方法和非参数统计方法是两种常用的统计分析方法。本文将重

点介绍非参数统计方法的定义、优点和应用领域。

一、非参数统计方法的定义

非参数统计方法是一种基于数据本身的分布特征进行统计推断的方法,不需要对总体参数进行假设。与之相对的是参数统计方法,它需

要对总体参数进行假设并进行推断。非参数统计方法主要采用排序、

秩次、重复采样等技术来推断总体的特征。

二、非参数统计方法的优点

1. 相对灵活性更大:非参数统计方法不对总体分布形态做任何假设,因此在数据分布未知或非正态的情况下,非参数方法是一种很好的选择。

2. 更广泛的适用性:非参数统计方法适用于有序数据、等级数据和

分类数据等不需要具体数值的数据类型,使其在许多领域中都有应用,如医学、经济学、环境科学等。

三、非参数统计方法的应用领域

1. 秩和检验:用于比较两个独立样本的总体中位数是否相等,常用

于药物疗效的比较。

2. Mann-Whitney U检验:用于比较两个独立样本的总体分布形态是否相同,常用于医学研究中。

3. Wilcoxon符号秩检验:用于比较两个配对样本的总体中位数是否

相等,常用于心理学研究中。

4. Kruskal-Wallis检验:用于比较多个独立样本的总体中位数是否相等,常用于统计学实验中。

5. Friedmann检验:用于比较多个配对样本的总体中位数是否相等,常用于行为学实验中。

6. 非参数回归:用于研究自变量和因变量之间的关系,常用于金融

10第9章 非参数统计

10第9章 非参数统计

第四节 Kruskal-wallis H检验 (多组比较用)
一、多组连续型资料比较的秩和检验
1. H 检验 即Kruskal-wallis H 检验
计量:完全随机设计两或多样本比较 等级:推断双向有序资料的相关性
【例9-5】比较A、B、C三种中药的灭钉螺作用, 各作5批观察,每批对200只活钉螺用药后清点 每批钉螺的死亡数,计算死亡率(%),结果 见表8-4的②、④、⑥行。
2. 秩和检验(rank sum test)
秩和检验是用秩号代替原始数据,计算秩和 (即秩号之和),用秩和作推断依据,推断样 本所来自总体分布的位置是否相同。
基本步骤:
H0:k个总 体分布位置 相同
建立假设 编秩
求秩和
作出推断结论 确定P值
计算检验统计量
秩和检验用途
等级资料和不满足参数检验条件的计量资料。 (1)计量:不满足正态和方差齐性的小n; 分布不明的小n; 一端或二端为不确定值(如<x、>y必选)。 (2)等级: 2检验:属于非参数检验,只能推断构成比差别;
(4)确定P值并作出推断结论。n1≤10,查成组比较秩和T 表(P436附表7)→P(内大外小)。
n1=6,n2-n1=7-6=1,T=48,查附表7相交处所对应的 4行界值, T=48在双侧P为0.10所对应的范围30~54之内, 故P>0.10。
2.Mann-Whitney U检验

3.参数检验和非参数检验

3.参数检验和非参数检验

4.3.1 独立样本t检验的功能与意义
• SPSS的独立样本t检验过程(Independent-
Samples T Test)也是假设检验中最基本、 最常用的方法之一。跟所有的假设检验一 样,其依据的基本原理也是统计学中的 “小概率反证法”原理。通过独立样本t检 验,我们可以实现两个独立的样本的均值 的比较。所以独立样本t检验过程 (Independent-Samples T Test)同样属于均 值比较(Compare Means)这一体系。
5.1.1 卡方检验的功能与意义
• SPSS的卡方检验(Chi-square Test)是非参数
检验(Nonparametric Tests)方法的一种, 其基本功能是通过样本的频数分布来推断 总体是否服从某种理论分布或者某种假设 分布。这种检验过程是通过分析实际的频 数与理论的频数之间的差别或者说吻合程 度来完成的。
• 【例5.6】某农药制造厂针对侵害棉花生长的一系

列害虫开发出了8种杀虫剂,为判断哪种农药最为 有效,特随机选取了10名棉农并把各种药交给他 们使用,一段时间后让棉农们对各种药的杀虫效 果打分(效果最高为10,最差为0),结果如下面 的资料所示。试用多相关样本检验的方法判断棉 农们对这8种药的评价是否一致。 配书资料\源文件\5\正文\原始数据文件\案例 5.6.sav
4.3.2 独立样本t检验实例

统计学之非参数检验讲义

统计学之非参数检验讲义
统计学之非参数检验讲 义
2020年4月29日星期三
吴喜之
统计学
─从数据到结论

第十六章 非参数检验

16.1 关于非参数的一些常识
• 经典统计的多数检验都假定了总 体的背景分布。
• 但在总体未知时,如果假定的总 体和真实总体不符,那么就不适 宜用通常的检验
• 这时如果利用传统的假定分布已 知的检验,就会产生错误甚至灾 难。
个游程(单独的0或1也算)。 • 这个数据中有4个0组成的游程和3个1组成
的游程。一共是R=7个游程。其中0的个数 为m=15,而1的个数为n=10。

关于随机性的游程检验(run test)
• 出现0和1的的这样一个过程可以看成是参 数为某未知p的Bernoulli试验。但在给定了 m和n之后,在0和1的出现是随机的零假设 之下,R的条件分布就和这个参数无关了。 根据初等概率论,R的分布可以写成(令 N=m+n)
• 重于100g的只有8包。这样的二项分 布变量小于或等于8的概率为0.05388 。这就是p-值。
• 因此, 对于水平a=0.05, 根据这个符号 检验,没有充分的证据拒绝零假设。

数据gs.txt •SPSS输出的结果在下面表格中。从 该表格可以看出精确的双边检验的 p-值=0.108(精确地为0.1078);也 就是说,我们的单尾检验的p-值为 其一半。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

北京建筑大学

理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423 日期2016 . 3 .17 姓名班级学号指导教师成绩

【实验目的】

(1)熟悉数据的基本统计与非参数检验分析方法;

(2)熟悉撰写数据分析报告的方法;

(3)熟悉常用的数据分析软件SPSS。

【实验要求】

根据各个题目的具体要求,完成实验报告

【实验内容】

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显著影响,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显著差异,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显著影响,撰写相应的分析报告。

根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显著影响,撰写相应的分析报告。

【分析报告】

1.

表一家庭收入和现住面积的基本描述统计量

家庭收入现住面积

N 有效2993 2993

缺失0 0

均值17696.1567 62.7241

均值的标准误279.64310 .47349

中值15000.0000 60.0000

众数10000.00 60.00

标准差15298.80341 25.90383

方差 2.341E8 671.008

偏度 5.546 .910

偏度的标准误.045 .045

峰度55.425 3.078

峰度的标准误.089 .089

百分位数25 10000.0000 45.0000

50 15000.0000 60.0000

75 20000.0000 80.0000

表一说明,

家庭收入方面:

被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元;

家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;

偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布;

由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下;

现住面积方面:

被调查者中现住面积的均值为62.724平方米,中值为60平方米,普遍面积为60平方米;

现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;

偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;

由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。

图一:家庭收入直方图

该图表明,家庭收入分布存在一定的右偏。

图二:现住面积直方图

该图形象的展示了现住面积的数据分布比标准正态分布更陡峭。

图三:学历与家庭收入直方图

表二表明:

首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;收入为0~5w,5w~10w,10w~15w,15w~20w,20w~25w的样本量分别为2897,79,8,4,5,各占样本的96.8%,2.6%,0.3%,0.1%,0.2%,收入在0~5w的占较大比例。

其次,对不同学历进行分析。在初中及以下学历中,98.9%的家庭收入在5万以下,1%的家庭收入在5w~10w之间;在高中学历中98.6%的家庭收入在5万以下,1.4%的家庭收入在5w~10w之间;在大学学历中92.9%的家庭收入在5万以下,5.7%的在5w~10w之间;在研究生及以上学历中85.3%的家庭收入在5万以下,8.8%的家庭收入在5w~10w,2.9%的家庭收入在10w~15w之间。

最后,对家庭收入进行分析。在家庭收入为5w(2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。

这些结论从图中可以直观的展现出来。

表三:不同学历的家庭收入的一致性检验结果

數值df 漸近顯著性(2

端)

皮爾森 (Pearson) 卡方102.257a12 .000 概似比81.387 12 .000

本检验的原假设是:不同学历对家庭收入是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为不同学历与家庭收入是否无显著影响。这种无影响主要体现在家庭收入低的比例在低学历中低于总体比例,而家庭收入高的在比例在低学历中高于总体比例

图四:不同学历与现住面积的直方图

表四表明:

首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;现住面积为0~60m2,60~120m2,120~180m2,180~240m2,240~300m2的样本量分别为

1413,1478,99,2,1,各占样本的47.2%,49.4%,3.3%,0.1%,0.0%,现住面积在第一和第二种情况下居多。

其次,对不同学历进行分析。在初中及以下学历中,58.8%的现住面积为60m2以下,38.1%的现住面积在60~120m2之间,3%的现住面积在120~180m2之间;在高中学历中,52.3%的现住面积为60m2以下,45.6%的现住面积在60~120m2之间,2%的现住面积在120~180m2之间;在大学学历中,30.5%的现住面积为60m2以下,64%的现住面积在60~120m2之间,5.5%的现住面积在120~180m2之间;在研究生及以上学历中,26.5%的现住面积为60m2以下,70.6%的现住面积在60~120m2之间,2.9%的现住面积在120~180m2之间。

最后,对家庭收入进行分析。在现住面积为60m2以下及60~120m2的样本中,学历为高中的占大多数;在现住面积120~180m2的样本中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。

相关文档
最新文档