第四讲 描述性统计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
• 从更精确地视角说,变异性(也叫离散度) 可被看作是对不同数值之间的差异性的测 量。 • 如果把变异性看作是每个数值和一个特定 值的差异程度可能更精确(而且也许更容 易)。那么,你认为哪一个“数值”可能 被作为那个“特定值”呢?
11
• 通常情况下这个“特定值”就是均值,也 就是说,变异性成为测量数据组中每一个 数值与均值的差异性的量数。 • 由此,就引出了两个最为重要的变异性量 数——标准差和方差。
3
频数(frequency)
• 频数是指同一个观测值在一组数据中出现 的次数。
4
集中趋势量数一:均值(mean)
• 均值是最常见的集中趋势量数的统计形式。
X X n
X X n 78 83 93 84 .7 3
5
• 均值只是表示一组数据集中趋势的一个统计 量,还有其他形式的统计量可供使用。 • 还需要注意的两点:
5个美国家庭的收入数据 135 456美元 25 500美元 32 456美元 54 365美元 37 668美元 5 个美国家庭的收入数据(排序后) 135 456美元 54 365美元 37 668美元 32 456美元 25 500美元
很明显,中位数为37668美元,均值为57089美元。
7
• 中位数对极值不敏感而均值却对极值非常敏感;
8
集中趋势量数三:众数(mode)
• 众数也是表达一组数据集中趋势的统计量 数,它是指在一组数据中出现次数最多的 数值。
专业 次数或频次
心理学 教育学 化学 英语
9 6 2 2
众数是出现次数最多的数值,在这个例子中就是心理学。很多人容易犯的错 误就是,选择9为众数。
9
变异性量数(measures of variability)
第四讲 描述性统计
1
描述性统计的概念
• 所谓描述性统计(descriptive statistics),就 是对所收集的数据的整理、描述、汇总和 解释。 • 通常,与描述性统计相对应的概念是推断 性统计(inferential statistics)。
2
描述性统计的几个关键统计量
• 频数(frequency); • 集中趋势量数(measures of central tendency); 1、均值(mean); 2、中位数(median); 3、众数(mode); • 变异性量数(measures of variability); 1、极差(range); 2、标准差(standard deviation); 3、方差(variance);
2
17
• 前面的例子中的标准差是1.76,那么1.762就 是3.11。所以,方差就是3.11。
• 一般来说,在描述性统计中,很少会提到 方差,而经常被提到的是标准差。为什么 呢?因为,标准差与原数据的单位是一样 的,而方差的单位是以平方形式存在的。
18
偏度(skewness)与峰度(kurtosis)
1、均值就像跷跷板上的支点。均值就是中心点,也 就是,均值的一边的所有数值等于均值另一边的所 有数值; 2、尤其需要注意的是,均值对极值很敏感。极值会 使均值向一方或另一方倾斜,也使得均值对数据组 的代表性减弱,同时作为集中趋势量数的有效性减 弱。
6
集中趋势量数二:中位数(median)
• 中位数也是描述一组数据集中程度的统计 量数。中位数被定义为一系列数据的中点。 在这一数据点左边和右边,各有50%的数据。
30
如何通过SPSS操作?
• 点击SPSS软件中的Analyze下的Descriptive Statistics→Explore命令。
31
• 在Plots按钮下,要注意点击Normality plots with tests复选框。
32
小结
• 康德有一句名言:“实在并不顺应于我们 认知的力量”。(Reality is not adapted to our power of cognition) • 人们创造各种各样的工具去认识这个外部 的世界,去了解外部的真实;描述性统计 就是我们认识世界、顺应真实的工具,我 们使用各种各样的工具,无论它们是文字 的、数量的、图形的。
33
• 最经常使用的变异性量数就是标准差。实际 上,标准差表示一个数据组中变异性的平均 数量。实际的含义是与均值的平均距离。标 准差越大,每一个数据点与均值的平均距离 越大。
• 计算标准差的基本逻辑是,先计算均值,然 后把每个数据都减去均值(得到距离),最 后再计算这些距离的平均数。
14
• 这个逻辑是正确的,的确会得到每一个数 值与均值的平均距离。但这在实际中是行 不通的(用下面的例子来说明),因此需 要用另一种方法来计算这个“平均距离”。 具体的计算公式如下:
• 变异性反映了一组数据的数值之间的不同。 • 我门先看下三两组数据,来体会一下什么 是变异性。 组一: 7, 6, 3, 3, 1 组二: 3, 4, 4, 5, 4 组三: 4, 4, 4, 4, 4
三组数据的平均值都是4,但我们可以直观地感受到,第 一组数据的变异程度最大,第二组的变异性稍小,第三组 数据的数值之间没有差异。
• 偏度是对数据分布对称性缺失或者分布不均衡的测量; • 峰度是对数据集中或分散程度的测量。
19
利用SPSS来进行描述性统计
• SPSS软件中的Analyze下的Descriptive Statistics→Frequency命令提供了比较完整的描述性统计 的指令,并能得出较全面的统计信息。 • 打开数据文件4-01,这是一个“中学生学校生活质量满 意度调查”的统计数据文件。现在的问题是: • 1.对于“对学校基础设施的满意度”这个变量(实际上 是一个调查维度,根据变量8、9、10、11、12、13、 14、15求出),进行描述性统计(要求算出频数、平 均数、中位数、众数、极差、标准差、方差),同时, 对这个变量做出一个直方图(带有正态分布曲线)。 • 2. 分别就公立中学的学生以及私立中学的学生,在 “对学校基础设施的满意度”这个变量上进行描述性 统计,能否在统计的基础上,给出自己的一些分析呢?
23
箱图(boxplot)
24
公立、私立学校的学生“对学校基 础设施满意度”的箱图比较
• 由此可见,一是私立中学的满意度普遍较高;二是私立中学的满意度 比较集中,离散程度不大。 25
茎叶图(stem-and-leaf plot)
• 茎叶图的排列方式和频数表非常相似,不 过改成了整数位合在一起,称为茎;将小 数位单独列出,称为叶; • 茎叶图可以非常直观地看出数据的分布范 围及形态,在国外非常流行。
26
不同学校类型“学生对学校基础设 施满意度”的茎叶图比较
27
正态性检验与Q-Q图
公立中学和私立中学的“学生对学校基础设施的满意度” 都没有通过正态性检验,但私立中学在“Kolmogorov”检 验上却通过了。尽管定量研究中一般要求变量需要满足正 态分布,但大部分的变量的分布情况却无法达到正态性, 所以这一要求不是非常严格,只要基本满足正态分布就可 以了。
28
公立、私立中学的Q-Q图比较
图中的直线为正态分布的标准线,如果数据呈正态分布,则图中的数据 点应和理论直线基本重合。显然,私立中学的数据点正态分布的拟合性 更好,私立中学的分布更趋向正态分布。
29
公立、私立中学的去势Q-Q图比较
去势Q-Q图可以更加仔细地表达出正态性情况。该图反映的是按正态分布计算 的理论值和实际值之差的分布情况。如果数据服从正态分布,则数据点应较为 均匀地分布在Y=0这条直线上下。通过对比可知,私立中学更接近正态分布。
20
问题二的解答
公立中学的描述性统计
私立中学的描述性统计
21
公立中学的直方图
偏度Skewness=0.137 峰度Kurtosis=1.762
私立中学的直方图
偏度Skewness=0.138 峰度Kurtosis=2.286
22
其他一些更高级的描述性统计
• • • • 箱图(boxplot); 茎叶图(stem-and-leaf plot); Q-Q正态概率图与去势Q-Q正态概率图; 正态性检验(nomality test);
• 但极差也通常被视为对变异性的一个非常 笼统的测量量。
12
变异性量数一:极差(range)
• 极差是对变异性的最笼统的测量。极差是 通过数据分布中的最大值减去最小值而得 到的。 • 比如,一组数据为: 98,86,77,56,48 那么,98-48=50。极差就是50。
13
变异性量数二: 标准差(standard deviation)
• 如果你的数据集中有一个或多个均值,中位数相 对其他集中趋势量数来说能更好地代表数据集的 中心值。甚至,比均值更好。 • 就是由于此原因,特定的社会和经济指标(大多 数与收入相关)的分析,经常会使用中位数作为 集中趋势量数组,例如“美国家庭平均收入的中 位数是……,”而不是使用均值来概括收入。总 是存在太多的极值改变或者明显地扭曲一个数据 组或者数据分布的中心点。
s
(X X )
n 1
2
15
从一个例子看标准差的计算
共有10个值,所以样本规模为10-1=9。用28除以9,则 28/9=3.11。 计算3.11的平方根,结果是1.76。这就是这10个数值的标准 16 差(sd)。
变异性量数三:方差
• 方差其实是标准差的平方,用公式表示就 是:
s
Hale Waihona Puke Baidu
2
(X X ) n 1
相关文档
最新文档