第3章描述性统计分析

合集下载

第3章 SPSS描述性统计分析

Step01 打开主窗口
选择菜单栏中的【Analyze(分析)】→ 【Descriptive Statistics(描述性统计)】 →【Explore(探索)】命令，弹出【Explor e(探索)】对话框，该对话框是探索性分析的主操作窗口。
Step02 选择分析变量
在【Explore(探索)】对话框左侧的【候选变量】清单中，选取一个或多个待分析变量，将它们移入右侧的【Dependent List（因变量列表）】列表框中，表示要进行探索性分析的变量。
3.2.2 描述统计分析的SPSS操作详解
Descriptives 过程是连续资料统计描述应用最多的一个过程，它可对变量进行描述性统计分析计算，并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能，就是可将原始数据转换成标准化值，并以变量的形式保存。
Step01：打开主窗口
Step04 选择标签值
从候选变量列表框中选择一个变量作为标识变量，并将其移入【Label Cases by（标注个案）】列表框中。选择标识变量的作用在于，若系统在数据探索时发现异常值，便可利用标识变量加以标记，便于用户找这些异常值。如果不选择它，系统默认以id变量作为标识变量。
Step05 选择输出类型
Step04：选择输出图形类型
Step05：完成操作
（1）基本统计结果输出
频数分析基本统计结果
N Percentiles
Valid Missing 25 50 75
38 0 18.00 20.00 23.00
表3-2 频数分析表
（2）频数分析表输出
频数分析表
Valid
14 15 16 17 18 19 20 21 22 23 24 26 27 Tota l

SPSS统计分析--第3章--基本统计分析

.
3.2.1 频数统计的主要功能
• “频率”过程可以产生频数分布表，以对数据按组进行归类整理。还可以生成各种描述性统计指标，以及条形图、饼图、直方图等常用的统计图。通过选择SPSS中的“分析 ”︱“描述统计”︱“频率”命令，可以对各变量的数据分布特征有一个概括的整体的认识。
.
3.2.2 频数统计的操作过程
.
3.2.3 实例分析：大学新生的心理健康状况（1）
【例3.1】某大学为了了解学生的心理健康状况，要对初入学的大一新生进行心理测评，并建立心理档案。现要对某班学生的生活事件量表进行分析。请用SPSS做出此测试结果的频数分布情况。
解：本例中，主要通过“频率”过程对本班生活事件量表的总分进行描述，并得出全班学生此量表总分各分数的频数情况及其百分比和累积百分比，可以从中了解到学生整体得分的高低水平，也可以由此注意到需要给予较多关注的个体或群体。下面将介绍具体的操作过程。
• 均值标准误差：描述样本均值与总体均值之间的平均差异程度的统计量。
• 全距：也称极差，是数据的最大值与最小值之间的绝对离差。 • 方差：也是表示变量取值离散程度的统计量，是各变量值与算
数平均数离差平方的算术平均数。
.
• 标准差：表示变量取值距离均值的平均离散程度的统计量。标准差值越大，说明变量值之间的差异越大，距均值这个“中心值”的离散趋势越大。
• 均值：即算术平均数，是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入可用均值。
• 中位数：即一组数据按升序排序后，处于中间位置上的数据值。如评价社会的老龄化程度时，可用中位数。
• 众数：即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。

实验三描述性统计分析20191010

4
49
5
0
注从意这：个在图制可作以茎直叶观图的时看，出重: 复出现的数据要重复记录，不能遗漏，特该别运是动“员叶中”位部数分、；众同数一都数在据2出0和现4几0之次间，，就且要呈在"图单中峰体"状现几次.
且分布较对称，集中程度高，说明其发挥比较稳定．
7、QQ图和QQ趋势图
QQ趋势图主要描述观察数值的离散趋势，从中可以发现异常点及观察数值的变化趋势
Z变换（标准正态变换）：
zi

xi
S
x
其中 x 表变量的均值，S表变量的标准差。如果选择该项，
则数据文件中将自动生成一列名为“Z＋原变量名”的新
变量。
•
变换前
变换后
2.4 探索性分析——Explore
• 与前面介绍的两个过程相比，【Explore】过程更加强大。 • 它除了可以计算常见描述性统计量之外，还可以给出一些简
其中，5% Trimmed Mean：去掉5％极端数之后的均值（排在最前面和最后面5%的数据都删掉）。
2、M－均值估计——检验异常数据。
3、分位点表
其中Tukey's Hinges表示的是绘制箱图时所用的分位点数据，它的计算方法和一般的百分位数略有不同。
4、极值表 5、正态性检验
6、茎叶图
• 思路:是将数组中的数按位数进行比较
• 具体化:将数的大小基本不变或变化不大的位作为一个主干（茎），将变化大的位的数作为分枝（叶），列在主干的后面，这样就可以清楚地看到每个主干后面的几个数，每个数具体是多少。
探究：某篮球运动员在某赛季各场比赛的得分情况如下：12，15，24，25，31，31，36，36，37，39，44， 49，50

描述性统计分析方法

定义通过对现象进行调查研究，将大量数据加
以整理，简化，制成图标，并就这些数据的分布特征进行计算，如集中趋势、离中趋势等。
主要内容（1）整理。主要是做统计分组及频数统计。（2）计算分布特征指标。如平均数、众数、
中位数、标准差，等。
（3）做图表。如条形图、饼图、直方图等。
第二节统计整理
一般的图形：箱式图、茎叶图考察数据是否为正态分布（1）正态QQ概率图、去势QQ正态概率图。（2）正态性检验分组情况下对不同组别方差齐性进行检验
第四节统计图制作
略
百分位数指标四分位数、各个百分位数等。
分布指标偏度系数、峰度系数。
其它 M统计量、极端值等。
二、数据类型及SPSS一般实现操作
基于未分组的原始数据资料基于某种标志的分组数据资料
三、EXPLORE模块
Explore过程（探索性分析）主要用于对资料的性质、分布特点等完全不清楚的情况下。在常用描述性统计指标的基础上，又增加了有关数据详细分布特征的文字及图形等。
对考试成绩进行统计分组组距式分组对考试成绩进行可视离散化即将原始数据转化为统计组别的离散数据如123对分组后的离散数据进行频数分析
描述性统计分析方法
第一节基本问题
意义一般的数据资料都来源于样本的调查。只
有通过对样本的研究，才能做好对实际问题的可能的推断。因此，描述性分析是统计数据分析的第一步。
（三）SPSS相关操作
定义多选题变量集（分析——多重响应——定义变量集）频数表（分析——多重响应——频率）注意：缺失值的处理问题。交叉分析
第三节统计指标计算
一、指标类型集中趋势指标

SPSS统计分析第3章-描述性统计分析课件

3.4 探索性分析
➢描述性统计量表
科目成语均值绩文
均值的 95% 置信区间
5% 修整均值中值方差标准差极小值极大值范围四分位距偏度峰度
描述
下限上限
统计量 69.17
45.63
92.70 69.91 73.50 502.967 22.427
30 95 65 34 -1.085 1.617
打开“描述：选项”对话框，选中“均值”、“标准差” 、“最小值”、“最大值”、“峰度”、“偏度”及显示顺序的“变量列表”等选项。
SPSS统计分析第3章-描述性统计分析
3.3 描述性分析
第3步运行结果及分析：描述性分析结果表
描述统计量
身高
N 极小值极大值均值标准差
偏度
峰度
统计
标准统计标准
5
打开“图表”对话框，选中“直方图”及后
4
5
面的复选框
SPSS统计分析第3章-描述性统计分析
3.2 频率分析
第3步主要结果及分析：
统计量表
统计量ห้องสมุดไป่ตู้
教育
收入
N
有效
缺失
众数
百分位数 30
60
90
835 1 5
4.00 5.00 5.00
836 0 3
3.00 4.00 7.00
变量“教育”的频率分布表
3.3 描述性分析 3.3.1 基本概念及统计原理
描述性分析主要用于输出变量的各类描述性统计量的值，通过上一节的学习可知，频率分析同样可以做到，都是以计算数值型单变量的统计量为主。描述性统计分析没有图形功能，也不能生成频率表，但描述性分析可以将原始数据标准化为Z分数，并以变量形式存入数据文件中，以便后续分析时应用。

spss 第3章

第3章数据描述性分析
主要内容
3.1 频数分析 3.2 描述分析 3.3 求分组平均数 3.4 求交叉分组平均数（列联表分析） 3.5 统计分析图的制作
3.1 频数分析
• 频数分布表知识回顾 • 统计量 – 分位数（四分位数、百分位数） – 离散趋势指标（标准差、方差、全距、最小值、最大值） – 集中趋势指标（算术平均数、中位数、众数、总和） – 分布参数 • 统计图：条形图、饼图、直方图
3.2 描述分析
• Descriptives：计算变量的描述性统计量（均值、总和、标准差等）
3.2.2 例题
结果分析
3.3 求分组平均数
3.3.1 主要参数
3.3.2 例题
结果分析
3.4 交叉分组描述（卡方检验）
• 检验两个变量是否有关联 • 列联表分析 • 知识回顾
某集团公司打算进行一项改革，但此项改革涉及
Graphs
3.5.1 条形图（Bar）
1、条形图的类型 – ３种形状 – ３种统计量综述方式 – ９种组合方式构成９种类型的条形图
例题１简单条形图－个案分组
• 问题：对不同顾客类型（X1）的满意度（X19）平均数进行统计作图。
例题２简性的平均数统计图，按照不同地区分列。
描述分析
求分组平均数
• 按照某个变量分组统计某个或多个变量值对应的统计量。
求交叉分组平均数
• 检验两个变量是否有关联 • 列联表分析 2 • 检验
H0：两个变量独立
H1：两个变量不独立
统计分析图的制作
• • • • • • • • • • • 条形图三维条形图线图面积图饼图高低图盒式图误差图总体锥图散点图直方图

第三章描述性统计分析

描述性统计分析指标

统计量可分为两类

一类表示数据的中心位置，例如均值、中位数、众数等一类表示数据的离散程度，例如方差、标准差、极差等用来衡量个体偏离中心的程度。
描述单变量分布的三种方式

用数字呈现一个变量的分布用表格呈现一个变量的分布用图形呈现一个变量的分布
Frequencies

在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的33.3％， 33.3％， 33.3 ％分别是高级工程师3人中各学历人数所占的比例，称为行百分比（Row percentage），一行的百分比总和为100％；表中第一列的25.0％，25.0％，50.0％分别是本科学历4人中各职称人数所占的比例，称为列百分比（Column percentage），一列的列百分比总和为100％，表中的6.3％，6.3 ％，12.5％等分别是总人数16人中各交叉组中人数所占的百分比，称为总百分比（Total percentage），所有格子中的总百分比之和也为 100％。
例子

假设我们有以下的三组观测值：

观测A：11，12，13，16，16，17，18，21 观测B：14，15，15，15，16，16，16，17 观测C：11，11，11，12，19，20，20，20

这三组观测值的均值都是15.5，那么这三组数据是否相似呢？
离散趋势
离散趋势的描述
本科职称高级工程师 Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total 1 33.3% 25.0% 6.3% 1 25.0% 25.0% 6.3% 2 33.3% 50.0% 12.5% 0 .0% .0% .0% 4 25.0% 100.0% 25.0%

描述性统计分析

描述性统计分析【导言】在科学研究、市场调查、社会调查以及政策制定等各个领域中，描述性统计分析是一种重要的分析方法。

它主要通过对数据的整理、总结和分析，来描述数据的特征、分布和关系等。

本文将简要介绍描述性统计分析的概念和应用领域，并探讨其在实际问题中的意义和方法。

【一、描述性统计分析的概念】描述性统计分析是一种通过对数据的整理、总结和分析，来描述数据的特征、分布和关系等的方法。

它不仅可以帮助我们更好地理解数据，还可以从中发现问题和规律，为后续的分析和决策提供依据。

描述性统计分析主要包括数据的中心趋势度量、数据的离散程度度量和数据的分布特征等内容。

【二、描述性统计分析的应用领域】描述性统计分析在各个领域中都有广泛的应用，以下是几个常见的应用领域：1. 科学研究：在科学研究中，描述性统计分析可以帮助研究人员对实验数据进行整理和总结，发现数据中的规律和趋势，从而对研究对象进行深入的理解和解释。

2. 市场调查：在市场调查中，描述性统计分析可以帮助市场研究人员对市场数据进行整理和总结，了解产品的市场需求、消费者的购买行为和市场竞争情况，为市场营销活动提供科学依据。

3. 社会调查：在社会调查中，描述性统计分析可以帮助调查人员对社会问题的数据进行整理和总结，了解社会现象的普遍性和差异性，为制定社会政策提供参考依据。

4. 教育评估：在教育评估中，描述性统计分析可以帮助教育管理者对学生成绩、教学效果等数据进行整理和总结，洞察学生的学习状况和教育的质量问题，为教育改革提供参考依据。

【三、描述性统计分析的意义】描述性统计分析的意义主要体现在以下几个方面：1. 描述数据特征：通过描述性统计分析，我们可以对数据的中心趋势、离散程度等特征进行客观的量化和描述，从而更好地理解数据。

2. 发现问题和规律：通过描述性统计分析，我们可以发现数据中的异常值、缺失值等问题，从而及时采取措施进行修复；同时，还可以发现数据中的规律和趋势，为后续的分析和决策提供依据。

实验三、描述性统计分析实验报告

实验三、描述性统计分析实验报告上海对外贸易学院实验报告⼀、实验⽬的和要求1.熟练掌握描述性统计分析的基本原理2.熟练掌握频数分析原理、SPSS操作及案例分析3.熟练掌握基本描述统计量原理、SPSS操作及案例分析4.熟练掌握探索性分析原理、SPSS操作及案例分析5.熟练掌握原理交叉列联表原理、SPSS操作及案例分析6.熟练掌握多选项分析的SPSS操作及案例分析⼆、实验内容及结果分析1.频数分析（数据⽂件：3－studentscore.sav）(1)完成各门成绩的统计结果（抓图后复制到下⾯）图1分析解释：(2)完成语⽂成绩区间频度分布表（抓图后复制到下⾯）图2分析解释：(3)计算全部学⽣各门成绩的平均值、标准差、极差和四分位数（抓图后复制到下⾯）图3分析解释：2.基本描述统计量（数据⽂件：3－studentscore.sav）计算全部学⽣各部门成绩的平均值、标准差、最⼤值和最⼩值（抓图后复制到下⾯）图4分析解释：3.探索性分析（数据⽂件：3－studentscore.sav）(1)完成语⽂成绩茎叶图和箱图（抓图后复制到下⾯）图5分析解释：图6分析解释：(2)语⽂成绩正态分布检验的Q－Q概率图（抓图后复制到下⾯）（数据⽂件：4－Explore.sav）图7分析解释：(3)完成考察学⽣“英语”、“数学”、“语⽂”三门课程成绩的分布、极端值以及正态分布性和⽅差的齐性。

（抓图后复制到下⾯）图8分析解释：4.交叉列联表分析（数据⽂件：4－crosstabulation.sav）(1)⼆维交叉列联表（P64，抓图后复制到下⾯）图9分析解释：(2)X2检验结果（P671，抓图后复制到下⾯）图10分析解释：三、思考题（P79－P80）完成思考题3、4，并将关健图抓下来粘贴到相应题下⾯，并进⾏简单的解释。

四、学完“描述性统计分析”章节后的收获。

《管理统计学》焦建玲第03章描述性统计分析

第三章描述性统计分析
3.1 统计数据整理与显示
频数分布
【例3-1】以下是一个班级60名学生数学期末考试成绩，请编制组距式变量数列。 90 78 81 64 83 75 78 79 81 82 91 93 95 94 84 64 61 87 70 60 20 65 77 73 78 92 88 73 86 73 64 76 71 67 63 69 70 89 90 83 74 79 76 99 75 38 55 82 93 98 85 78 89 66 71 84 70 68 72 80
第三章描述性统计分析
3.1 统计数据整理与显示
统计分组
统计分组是根据统计研究的任务的要求和现象总体的内在特点，按照一定的标志，将统计总体区分为不同类型或不同性质的若干组成部分。这些组成部分中的每一个部分就叫做一个分组，通过分组把总体内部不同性质的单位分开，把性质相同的单位归并在一个组内，说明总体内部各组之间的相互关系及其特征。
下限公式：上限公式：
Me L
fi 2 Sm1 h fm
Me U
fi 2 Sm1 h fm
第三章描述性统计分析
3.1 统计数据整理与显示
【例3-2】某高校随机抽取300名学生的身高样本资料，
并根据研究需求对样本进行分组，数据如表3-4所示，试
计算该校学生身高的中位数。
表3-4 某高校学生身高样本数据
第三章描述性统计分析
3.1 统计数据整理与显示
频数分布
组限的具体形式有间断组限和重合组限，开口组限和闭口组限。例如：企业职工按年龄分组，其组限可表示为：30岁以下，30~39 岁，40~49岁，50~59岁，60岁以上。
间断组限是每一组的组限与邻组的组限都是间断设置的。

chap32集中趋势的数据描述

第三章描述性统计分析3.1 3.23.4相关概念集中趋势的数据描述表示分布形状的统计量3.3离散趋势的数据描述3.2.1 表示集中趋势的统计量均值（Mean ）•均值是所有观测值的平均数，SAS 系统中的均值主要指的是算术平均数。

表示为：nx x x n x n ni i +⋯⋯+==∑=111•n ：样本含量•x i ：观测值中位数（Median 或Med ）•中位数的计算方法是：首先将数据从小到大排序为：x (1)，...，x (n) ，然后计算⎪⎪⎩⎪⎪⎨⎧+=++为偶数为奇数中位数n x x n x n n n )(21)12()2()21(•如果n 为奇数，中位数是处于正中心位置的数据；•如果n 为偶数，中位数是处于正中心位置的二项数据的平均数。

例如：一单位6人，其中5个员工和1个经理，月薪分别：300，400，500，400，300，50000元月薪均值：8650元中位数：400元！！•中位数不受个别极端数据的影响，具有稳健性。

比均值更能代表数据的集中趋势。

优点•其它值比中位数大多少或少多少，无法反映出来。

•当样本量比较小时，中位数不太稳定。

缺点众数（Mode）•观测值中出现次数最多的数称为众数。

在属性变量分析中，常需要考虑频数，因此众数用的比较多。

百分位数（Percentile）将观测值按从小到大顺序排列，k百分位数(k-percentile)，是指有k%的观测值小于这个k百分位数0.5分位数就是中位数Q10.25分位数常称为下四分位数,记为Q1Q30.75分位数常称为上四分位数,记为Q3Q3-Q1表示中间50%的观测值，它排除了两边极端值的影响，具有很好的稳定性。

•百分位数，是一个位置指标，描述数据分布和位置的统计量。

3.2.2 PROC MEANS 分析实例其中：–统计关键字列表：指定要计算的统计量，省略此项，过程会自动计算观测数、均值、标准差、最大值、最小值5个统计量。

–分析变量列表：指定所要分析的所有变量，多个变量之间用空格隔开。

统计学(第3章)

第三章统计数据的整理 6
4、定比尺度（比率尺度 ratio scale）
是对事物之间比值的一种测度，可用
于参数与非参数统计推断。特征：

除区分事物的类别、进行排序、比较大小，而且还可以进行加减乘除运算。具有绝对零点，即“0”表示“没有” 或“不存在”。所有统计量都可以对其进行分析。与定距尺度的唯一区别是有绝对固定的零点。
第三章统计数据的整理 10
3、观察数据和实验数据

观察数据：通过调查或观测而得到的数据。实验数据：通过控制实验对象而收集的数据。
第三章统计数据的整理
11
4、直接数据和间接数据
直接数据：即原始数据。
间接数据：已加工整理过的数据。
第三章统计数据的整理
12
第二节统计整理的含义和步骤

当异距分组时，各组的次数还受到组距不同的影响。为消除异距分组的这种影响，须计算频率密度（或次数密度），计算公式：频数密度 = 频数/组距频率密度 = 频率/组距
第三章统计数据的整理
36
二、分布数列的编制
将原始资料按其数值大小重新排列 2. 确定全距 3. 确定组距和组数 4. 确定组限 5. 编制变量数列示例3-5
第三章统计数据的整理
某地人口
21
（三）按分组标志的不同性质分
品质分组（属性分组）：是将总体按
品质（或属性）标志进行分组。如企业按经济成份、企业规模，职工按性别、文化程度分组等。数量分组（变量分组）：是将总体按数量标志进行分组，如企业按职工人数、劳动生产率分组，职工按工龄、工资分组等。
第三章统计数据的整理 31
4、开口组的组距与组中值

统计描述分析

▪ 四分位数（Quartile）
▪ 割点（Cut points）：选择此项，在后面的文本框中输入数值，假设为N（N为在2 100之间的整数），则计算并显示N分位数。
▪ 百分位数（Percentile(s)）：选择此项，在后面的文本框中输入数值，可以有选择地显示百分位数。在文本框中可以输入0 到100之间的数，输入后，单击“添加”（Add）按钮，将对应的百分位数添加到方框内的列表框中，利用“更改”（ Change）按钮和“删除”（Remove）按钮，可以对列表框中的选项进行修改和删除。
▪ 探索性分析的选项对话框
▪ 在该对话框中，可选择缺失值的处理方式，SPSS提供了3 种处理方式：
▪ “按列表排除个案（Exclude cases listwise，系统默认） ”：选择此项，对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据；
▪ “按对排除个案（Exclude cases pairwise）”：同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据，在其他分析过程中可能包含缺失值；
IBM-SPSS
第3章统计描述分析
▪ 描述性统计分析是进行其他统计分析的基础和前提。在描述性分析中，通过各种统计图表及数字特征量可以对样本来自的总体特征有比较准确的把握，从而选择正确的统计推断方法。
主要内容
▪ 1：频数分布分析（Frequencies） ▪ 2：描述性统计分析（Descriptives） ▪ 3：探索性分析（Explore）
▪ 比较变量（Compare variables）：系统默认选项，SPSS将所有变量的描述统计的结果显示在同一张表格中，方便用户进行比较分析。

《统计学原理》国开(电大)形成性考核答案集

《统计学原理》国开(电大)形成性考核答案集第一章统计学导论1.1 统计学的定义与应用问题1: 统计学的定义是什么?{统计学是研究数据收集、整理、分析和解释的科学，旨在通过量化的方法来揭示和理解现象的规律性和内在联系。

}问题2: 统计学在哪些领域中有应用?{统计学在众多领域中都有应用，包括但不限于经济学、生物学、医学、工程学、心理学、社会科学和商业管理等。

}1.2 统计数据的类型问题3: 定量数据和定性数据的区别是什么?{定量数据是数值化的，可以进行数学运算的数据，而定性数据则是非数值化的，通常表现为类别或属性。

}1.3 统计数据的来源问题4: 描述性统计和推理性统计的区别是什么?{描述性统计旨在对数据进行总结和描述，而推理性统计则通过样本数据来对总体进行推断和预测。

}第二章数据的收集与整理2.1 调查问卷设计问题5: 如何设计一个有效的调查问卷?{设计有效的调查问卷需要明确调查目的，选择合适的调查方法，确保问题的清晰性和逻辑性，避免引导性问题，并考虑隐私和伦理问题。

}2.2 数据整理与图表展示问题6: 什么是频数和频率分布表?{频数是指某个数值出现的次数，频率分布表则是将数据按照一定的区间分组，列出每个组的频数和频率。

}第三章描述性统计分析3.1 频数与频率分布问题7: 如何计算累积频率?{累积频率是指将数据从小到大排序后，从最小值开始累加各个数值的频率，直到该累计频率达到或超过某个指定的概率。

}3.2 统计量度问题8: 什么是众数、中位数和平均数?{众数是一组数据中出现次数最多的数值，中位数是将数据从小到大排列后位于中间位置的数值，平均数则是所有数值加和后除以数值的个数。

}3.3 离散程度的度量问题9: 方差和标准差的定义是什么?{方差是衡量数据分布离散程度的统计量，它是各个数值与其平均数差值的平方的期望值；标准差是方差的平方根，用于衡量数据分布的离散程度。

}第四章推理性统计分析4.1 概率论基础问题10: 什么是随机变量和概率分布?{随机变量是一个将试验的所有可能结果映射到实数上的函数，概率分布则是描述随机变量取各种可能值的概率。

第三章描述性统计量

2020/6/24
第一节刻画数据集中程度的特征量
▪ 依据各种统计指标的具体代表意义和计算方式的不同，可以将其归纳为数值平均数和位置平均数两大类。
▪ 数值平均数就是对所有各项数据计算的平均数。因此它能够概括反映所有各项数据的平均水平。
▪ 常用的数值平均数有算术平均数、调和平均数和几何平均数。
2020/6/24
第一节刻画数据集中程度的特征量
▪ 位置平均数是根据数据集中处于特殊位置的个别单位或部分单位的数据来确定的代表值，因此数据集中某些数据的变动，不一定会影响到位置平均数的水平，尽管如此，位置平均数对于整个数据集仍具有非常直观的代表性。
▪ 常用的位置平均数有众数、中位数和其他分位数等。
2020/6/24
第一节刻画数据集中程度的特征量
▪ 一、算术平均数（均值）、中位数和众数 ▪ （一）算术平均数（均值）（Mean)(Average)
在刻画数据的“平均”特性的特征值中，最普遍最常用的是算术平均数，在统计上称为均值。均值的计算：
2020/6/24
x
1 n
xi
fi
第一节刻画数据集中程度的特征量
2020/6/24
第一节刻画数据集中程度的特征量
▪ 例16（P21）关于工人月薪的调查见下表
2020/6/24
每月收入 ≤400
（400，500】（500，600 】（600，700 】
﹥700 合计
分类平均 280 460 550 670 850
工人数 10 28 42 50 20 150
位数的近似值。计算公式为： m = I +i(n/2-F)/f （下限公式）其中： I表示中位数所在区间的下限值

管理统计学第2版第三章数据特征的描述与分析

某工厂有五条相同的流水线，生产同一产品且生产速度相同，各流水线的合格率分别为 95%、92%、90%、85%、80%，那么该工厂产品的平均合格率是多少？如果某流水生产线有前后衔接的五道工序，各工序产品的合格率分别为95%、92%、90%、85%、80%，那么产品的平均合格率又是多少？
x x1 x2 xn 95% 92% 90% 85% 80% 88.40%
X F2 2
X N FN
9 (105.3%)3 (104.5%)2 (102.1%)4
103.90%
投资者平均股票的平均收益率为103.90%-1=3.90%
3.1 集中趋势的测度与应用
中位数
中位数是位置平均数，若将变量值按大小顺序排列，处于中点位置的变量值即为中位数。
中位数不受极端数值的影响，在由个别极端数值存在的数列种，中位数的代表性比算术平均数的代表性强。
为：
X
K
Xi
Fi
K
593 .10（元）
i 1Leabharlann Fii 1算术平均数
3.1 集中趋势的测度与应用
算术平均数的性质（1）各变量值与其均值的离差之和等于零，即：
未分组资料：分组资料：
N
（X i - X ) 0
i 1
N
（X i - X )Fi 0
i 1
（2）各变量值与其均值的离差平方和最小，即：
中位数的计算一般分两步，首先确定中位数位置，然后找出中位数位置对应的变量值。
3.1 集中趋势的测度与应用
中位数
未分组资料计算中位数（1）中位数的位次= N 1 2
式中，N为变量值的项数。
（2）若用Me表示中位数则有：
Me

第三章描述性研究及其评价

42
2、信息偏倚（information bias）信息偏倚是指在收集资料过程中所产生的各种系统误差，使所获得的资料缺乏真实性和可靠性。通常有以下几种：
① 调查对象所引起的偏倚
② 调查人员所引起的偏倚 ③ 测量偏倚
43

信息偏倚的控制方法

为使调查对象能提供准确的信息，必须在调查问卷上下功夫。对于调查员，关键是进行严格的培训，增强工作的责任感。统一调查程序、方法。
24
例：拟了解某地人群血红蛋白水平。文献记载，正常人血红蛋白标准差约3.0g/100ml，现规定d =0.2g/ml。求：n =？解：
4 3 n 900 （人） 2 0.2
2
25
2）计数资料：n=ta2PQ/d2 d为容许误差；P为预期的某病患病率；Q=1-P
当d等于0.1P时，
N 400 Q P
8
三、横断面研究的种类
普查（Census）调查特定时点或时期、特定范围内的全部人群(总体)。
抽样调查（Sampling survey）
随机抽样，调查特定时点、特定范围人群的一个代表性样本，以样本统计量估计总体参数所在范围。
根据研究提出的问题，明确调查目的根据具体研究目的确定是普查还是抽样调查
29

（二）问卷设计的程序
确定问卷主题分析样本特征
拟定编排问题
进行试问试答修改
30
（三）问卷的一般格式

1、封面信
和价值等）
（主办单位，调查目的，主要内容，意义
2、指导语（填答说明，解释概念，统一标准） 3、问题及答案

包括一般项目、流行病学项目、临床体检项目、实验室检查项目等一个问卷中应该具备的内容由研究目的决定

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

15
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.3 描述性分析 3.3.2 实例分析
【例3-2】图3-8是5岁儿童体重、身高、胸围的部分SPSS数据，试对儿童身高作描述性统计分析。（数据文件：data32.sav）第1步打开数据文件data3-2.sav;
第2步描述性分析设置：选择菜单“分析→ 描述统计 →描述” ，打开“描述性”主对话框，将要分析的变量“身高”加入“变量”列表框中。打开“描述：选项”对话框，选中“均值”、“标准差”、 “最小值”、“最大值”、“峰度”、“偏度”及显示顺序的“变量列表”等选项。
7
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.2 频率分析 3.2.1 基本概念及统计原理
频率就是一个变量在各个变量值上取值的个案数，分析时不考虑其实际取值。基本统计分析往往从频率分析开始。通过频率分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。经过频率分析可以得到如下结果：（1）频率分布表：该表中包含频率、各频率占总样本数的百分比、有效百分比、累计百分比。（2）统计图：用统计图形展示变量的取值状况，频率分析中提供的统计图形可以是条形图、饼图或者直方图。
20
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.4 探索性分析
打开“统计量”对话框，选中“描述性”及“M-估计量” 选项；打开“探索：图”对话框，选中“按因子水平分组”、“ 茎叶图”、“带检验的正态图”等选项。打开“探索：选项”，选中“按列表排除个案”选项。第3步运行结果及分析： “成绩”按科目分组的案例处理摘要表
表中显示了变量“教育”在各个取值上出现的次数（频率）、其频率占所有个案中的百分比、有效百分比及累积百分比。
11
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.2 频数分析
变量“收入”的频率分布表
收入频率有效 0 2 有效百分累积百分比比百分比 .2 .2 .2
8
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.2 频率分析 3.2.2 SPSS实例分析
【例3-1】以下是调查问卷中针对被调查人设置的两个问题： 1、您的家庭月收入大约是：（请包括所有工资、奖金、津贴等在内，以人民币为单位）单选 500-1000……..1 1000-1999……2 2000-2999……3 3000-3999……4 4000-4999……5 5000-5999……6 6000-6999……7 7000-7999……8 8000-8999……9 9000-9999……10 10000及以上…11 2、您的教育程度：（指您受过的最高或正在接受的教育程度）单选没有受过正式教育/小学……….1 初中……………………..………2 高中/中专/技校… ……… ……..3 大专/大学非本科/高职高专……4 大学本科……………………….5 研究生及以上…………………..6 从问卷中收集到的数据如表3.1所示 , 试对收集到的数据进行频数分析
1. 偏度（Skewness）：是描述取值分布形态对称性
的统计量；偏度系数大于0，表示其数据分布形态有一条长尾拖在右边，称为右偏或正偏，偏度系数小于0,表示其数据分布形态有一条长尾拖在左边，称为左偏或负偏。偏度系数的绝对值越大，与正态分布相比越偏斜。
2. 峰度（Kurtosis）：是描述变量取值分布形态陡缓
9
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.2 频率分析
第1步数据组织：根据表3.1生成SPSS 数据文件，建2个变量：“收入”、“教育”，度量标准均为序号。第2步频率分析设置：选择菜单：“分析→ 描述统计 → 频率”，打开“频率（F）”对话框，将“教育”和 “收入”加入到“变量”列表框中。打开“统计量”对话框，选中“百分位数” “众数”，并在“百分位数”中添加30.0、 60.0、90.0；打开“图表”对话框，选中“直方图”及后面的复选框
3.1.2 描述离散程度的统计量
1.样本方差（Variance）
2.样本标准差（Std. deviation）
3.极差（Range） 4.均值标准误差（Standard Error of Mean）
4
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.1 基本描述性统计量的定义及计算 3.1.3 描述总体分布形态的统计量
探索性分析提供了很多关于数据的概括分析和图表直观描述的方法，不仅对个案数据有效，而且还可以针对分组个案。在输出常用描述性统计量的基础之上，探索性分析增加了有关数据详细分布特征的文字与图形表述，如茎叶图、箱图等，显得更加详细、完整，还可以以方差齐性为目的的变量交换提供线索，有助于用户制定更进一步分析的方案。
电子工业出版社
主要内容
3.1 基本描述性统计量简介 3.2 频率分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉表分析 3.6 多重响应分析
14
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.3 描述性分析
3.3.1 基本概念及统计原理
描述性分析主要用于输出变量的各类描述性统计量的值，通过上一节的学习可知，频率分析同样可以做到，都是以计算数值型单变量的统计量为主。描述性统计分析没有图形功能，也不能生成频率表，但描述性分析可以将原始数据标准化为Z分数，并以变量形式存入数据文件中，以便后续分析时应用。
1
2 3 4 5 6 7 8 9 10 11
87
152 157 137 88 85 52 27 9 8 32
10.4
18.2 18.8 16.4 10.5 10.2 6.2 3.2 1.1 1.0 3.8
10.4
18.2 18.8 16.4 10.5 10.2 6.2 3.2 1.1 1.0 3.8
21
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.4 探索性分析
描述性统计量表
描述科目成绩语文均值统计量 69.17 标准误 9.156
均值的 95% 置信区间
下限
上限
45.63
92.70 69.91 73.50 502.967 22.427 30 95
5% 修整均值中值方差标准差极小值极大值
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
第三章
描述性统计分析
1
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
主要内容
3.1 基本描述性统计量简介 3.2 频率分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉表分析 3.6 多重响应分析
2
SPSS 23(中文版)统计分析实用教程(第2版)
19
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.4 探索性分析 3.4.2 实例分析
【例3-3】下表是某班3门课程对应成绩的统计数据，试对其作探索性分析并做是否服从正态分布的检验。
第1步数据组织：定义2个变量，分别为：“科目”、“成绩”，“科目”的度量标准为“名义”，“成绩”的度量标准为“度量”。第2步探索分析设置：选择菜单“分析→ 描述统计 → 探索”，打开“探索” 对话框，，将“成绩”字段移入“因变量列表”，“科目”移入“因子列表”。
电子工业出版社
3.2 频数分析
变量“教育”的直方图表中显示了变量“教育”的直方图，从图上可以看出受访者教育程度同正态分布相比左偏，不具备明显的正态分布。
变量“收入”的直方图表中显示了变量“收入”的直方图，从图上可以看出受访者家庭收入同正态分布相比右偏，不具备明显的正态分布。
13
SPSS 23(中文版)统计分析实用教程(第2版)
3.1.3 描述总体分布形态的统计量
来自于正态总体的偏度及峰度均近似为0，可以利用偏度和峰度的值是否接近0作为检验是否是正态分布的重要依据。
6
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
主要内容
3.1 基本Βιβλιοθήκη 述性统计量简介 3.2 频率分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉表分析 3.6 多重响应分析
的统计量；峰度系数等于0，表明数据分布的陡峭程度与正态分布相同。峰度系数大于0时为尖峰分布，表明数据分布的陡峭程度比正态分布大，峰度系数小于0时为平峰分布，表明数据分布的陡峭程度比正态分布小。
5
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.1 基本描述性统计量的定义及计算
电子工业出版社
3.1 基本描述性统计量简介
3.1.1 描述集中趋势的统计量
1.均值（Mean） 2.众数（Mode） 3.中位数（Median）
4.总和（Sum）
5.百分位数（Percentile Value）
3
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.1 基本描述性统计量的定义及计算
18
SPSS 23(中文版)统计分析实用教程(第2版)
电子工业出版社
3.4 探索性分析 3.4.1 基本概念及统计原理
与前面介绍的两种分析方法相比，探索性分析更加强大，它是一种在对资料的性质、分布特点等完全不清楚的情况下，对变量进行更深入研究的描述性统计方法。在进行统计分析前，通常需要寻求和确定适合所研究的问题的统计方法， SPSS提供的探索性分析是解决此类问题的有效办法。