ppt3_DescriptiveStatistics
descriptive statistics
descriptive statistics
描述性统计是一种统计学的视角,它是应用到单一统计变量或多个变量以描述数据的进行的一种报告。
它使得我们可以使用诸如均值,中位数和模式等指标来较快地概括数据集中数据的分布特征,而不必去收集每一条数据,从而大大节省了我们的研究时间。
描述性统计学可以将一组数据概括为一个更容易理解的形式,方便我们观察事物之间的联系,充分利用分析结果做出明智的决策。
它更强调数据的汇总和比较,而不是关注每一数值的特征。
描述性统计可以使用一系列不同的指标来衡量数据,并通过图表和统计数值获得更直观的概要信息,比如最大值、最小值、百分位数,众数和模式等。
描述性统计是深入了解数据的第一步,对统计推断分析也起到了关键的作用。
它可以帮助使用者获取更多的信息,获取新的灵感,排除事实上并不重要的信息,有助于识别出假设中不确定性和隐藏特征,揭示出决策基础上存在的趋势和模式,同时还能帮助研究者更有效地分析数据。
《描述性统计》课件
案例一:人口普查数据的描述性统计分析
总结词
全面、详尽
详细描述
人口普查数据涉及大量个体的信息,描述性 统计分析可以帮助我们全面、详尽地了解人 口的基本情况,如年龄、性别、教育程度、 职业分布等。通过计算均值、中位数、众数 等统计量,可以了解人口的集中趋势和离散 程度。同时,还可以通过绘制直方图、饼图
进行复杂的数据处理和 分析,如数据分组、聚 合和转换等
2023
REPORTING
THANKS
感谢观看
决策支持
基于描述性统计的结果,可 以为决策提供数据支持,如 市场分析、质量控制、风险 评估等。
2023
PART 02
描述性统计的基本概念
REPORTING
总体与样本
总体
研究对象的全体集合,具有全面性和完整性。
样本
从总体中抽取的一部分数据,用于推断总体的特征和规律。
数值型与类别型数据
要点一
数值型数据
案例三:股票市场数据的描述性统计分析
总结词
及时、准确
详细描述
股票市场数据具有高度的动态性和实时性,描述性统计 分析可以帮助我们及时、准确地把握市场走势和热点。 通过对开盘价、收盘价、最高价、最低价等指标的计算 和分析,可以了解市场的波动情况和趋势。同时,还可 以通过分析换手率、量比等指标,了解市场的交易活跃 度和资金流向。此外,描述性统计分析还可以用于风险 控制和投资组合优化等领域。
描述性统计的应用场景
数据清洗和预处理
在数据分析之前,使用描述 性统计对数据进行清洗和整 理,如异常值处理、缺失值 填充等。
数据探索
通过描述性统计了解数据的 分布特征、集中趋势、离散 程度等,帮助人们更好地理 解数据。
第2章 描述性统计课件
第三节 离散程度的指标
4.变异系数(Coefficient of Variation) 简记为CV,它是标准差与均数之比,用百分数表达。
➢比较不同对象时,用不同的线条或颜色 表示,并要附图例说明。图例写在图的 下面或图的右上角。
• 几种常用的统计图 ➢直条图 (bar graph)
直条图用等宽直条的长短来表示相互独 立的各指标的数值大小。 适用于相互独立的、无连续关系的间断 性资料的比较。
种类:单式直条图和复式直条图
直条图的绘制要点
=4.959
二、几何均数(Geometric Mean)
常用对数计算,公式如下: LogG=∑logX/n
再查反对数得出G。 列成频数表时计算公式如下:
LogG=∑flogX/Σf 适用条件: 1.成倍数关系的资料。
2.明显正偏态分布的资料。
二、几何均数(Geometric Mean)
例3.3 6例钩端螺旋体病人的潜伏期分别为7, 10, 12, 14, 18, 20天, 求其平均潜伏期。
x=
=鍈x/n
适用于服从正态分布的资均数
x为每个组段的组中值, f为相应组段的频数。
原理:将落在某一组段内的观察值都视为
组中值。
本例: =(4.0×4+4.2×5+……+5.8×3)/120
=595.8/120=4.965
如用原始观察值计算有 =(5. 195+5.070+……+5.010)/120
spss 相关统计学概念与描述性统计分析PPT课件
中间位置的那个数值。中位数M •极差(range):全距R,描述数据的分布范围,极差大说
明数据分布较分散 •四分位数间距(inter-quartile range): QU与QL的差距
3
百分位数(percentile):Px ,如P25,P50等 四分为数:QL(下四分数,25%),QU(上四分 位数,75%)
Mode Std. Deviation
集中趋势指标
120.0
4.741
Variance
22.479
Skewness
偏度系数
Std. Error of Skewness
离散趋势指标
.156
.230
Kurtosis
峰度系数 分布参数估计值
-.025
Std. Error of Kurtosis
.457
Range
示
格式化…
频
数
表
5
某市1982年110名7岁男童的身高资料:
序号 数据cm
6
条形图 饼图 直方图
图表…
统计… 正态曲线
7
身高的各项统计学指标
频数表
统计 表
身高 (cm)
N
Valid
110
Missing
0
Mean
119.725
Std. Error of Mean
.452
Median
119.900
80.73 822.9 742.1 152.5800 1.832 4.241
标准误 22.8944
.295 .582 15.4535
描述性统计分析--Descriptive-Statistics
描述性统计分析--Descriptive-Statistics菜单详解第六章:描述性统计分析--Descriptive Statistics菜单详解描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。
SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本章讲述的四个过程在9.0及以前版本中被放置在Summarize菜单中。
§6.1 Frequencies过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。
它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。
和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并不按某种要求确定组段数和组距,而是按照数值精确列表。
如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。
6.1.1 界面说明Frequencies对话框的界面如下所示:该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:【Display frequency tables复选框】确定是否在结果中输出频数表。
【Statistics钮】单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。
现将各部分解释如下:o Percentile Values复选框组定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut pointsfor equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。
第二章统计描述DescriptiveStatistics20页PPT
率与构成比
率
构成比
概念 发生的频率或 各组成部分所占
强度
的比重
强调点 随机发生事件 各部分的构成
资料获得
较难
容易
特点
不一定
合计为100%
第四军医大学卫生统计学教研室 пятниц
率与构成比的例子
年龄 组 ⑴ 40~ 50~ 60~ 70~
受检 人数 ⑵
560 441 296 149
白内障 患者年龄构患病率(%)
第四军医大学卫生统计学教研室 пятниц
按年龄(2岁一组)与职业整理
年龄 工人 管理人员 农民 商业服务 无 知识分子 总计
18
2
0
0
0
3
0
5
20
9
2
6
10
18
0
45
22 28
7
10
24
70
11
150
24 50
34
28
52
153
44
361
26 50
43
25
45
133
70
366
28 34
35
10
34
第四军医大学卫生统计学教研室 пятниц
定义: 将统计分析的事物及指标
用表格列出。 特点: 1.避免长篇文字叙述,便于 阅读和对比分析。 2.数据具体。
定义: 用点的位置, 线段
的升降,直条的长短或 面积的大小等 形式表达 统计资料。
特点: 直观、醒目,常给人
以深刻印象。
第四军医大学卫生统计学教研室 пятниц
第四军医大学卫生统计学教研室 пятниц
统计表的结构
[课件]第四章 统计描述PPT
的信息,对未知总体的情况做出具有一定概
率保证的估计和推断,包括假设检验和参数
估计两大内容。
2018/12/2
3
4.1 基本概念和原理
4.1.1频数分布
频数分布的概念及其构成
在统计分组的基础上,把总体所有单位按某一标志 进行分组,计算各组的单位数,它是统计描述的一 种重要形式。分布数列由两个要素构成:按某标志 所分的组;各组单位数。 L d L d o (f f ) (f f ) Δ Δ m 1 m 1 1 2
2018/12/2
9
4.1 基本概念和原理
4.1.2离散程度指标
变异指标的概念、作用及分类。
1、极差(Range)
R=Xmax-Xmin
几个术语
频数(次数)、频率(比率);累计频数(次数)、 累计频率(比率)
2018/12/2
4
4.1 基本概念和原理
成绩分组 人数 (人) 比重 向上累计 (%) 累计频数(人) 累计频率(%)
60以下
60~70 70~80 80~90 90以上
2
10 15 20 3
4
20 30 40 6
2
12 27 47 50
4
24 54 94 100
合 计
2018/12/2
50
100
——
——
5
4.1 基本概念和原理
4.1.2集中趋势指标
平均指标的概念、作用及分类。 1.算术平均数(Mean)
简单算术平均数:
x 1 x 2 x n 1 x i n n
描述性统计分析 ppt课件
PPT课件
23
【界面介绍】
⑴ 选 择 菜 单 【Analyze】→【Descriptive Statistics】→ 【Crosstabs】,进入列联表分析界面。
PPT课件
24
【实验案例】
例4-4 调查339名45岁以上吸烟习惯与患肺癌的关系,数 据见4-4-1.sav。试问吸烟者与不吸烟者患肺癌的概率是 否有所不同。
PPT课件
18
(3)单击【Plots】按钮,弹出Plots子对话框。该项用于选择 所需要的统计图。
PPT课件
19
(4 )单击【Options】按钮,在弹出的子对话框中选择对 缺失值的处理方cases listwise)、不分析计算某统计量时有缺 失值的记录(Exclude cases pairwise),或报告缺失值 (Report values)。
PPT课件
22
列联表分析的主要任务有两个:
• 第一,根据收集到的样本数据,产生二维或多维交叉 列联表。交叉列联表是两个或多个以上变量交叉分组 后形成的频数分布表。
• 第二,在交叉列联表的基础上,分析两两变量之间是 否具有独立性或一定的相关性。对交叉列联表中的行 变量和列变量之间关系进行分析是列联表分析的第二 个任务。在列联表基础上做进一步分析,可以得到行 变量和列变量之间是否有联系、联系的紧密程度如何 等更深层次的信息。
PPT课件
14
• 例4-2 已知有某地110名10岁女生身高数据,数据见文 件4-2-1.sav ,请编制频数表。
PPT课件
15
4.3 探索性分析
Explore过程可对变量进行更为深入详尽的描述性统 计分析,主要用于对资料的性质、分布特点等完全不清楚 时,故又称之为探索性分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
(raw data)
审核的内容 完整性审核
数据筛选 数据排序
检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 检查数据是否真实反映客观实际情况, 内容是否符合实际 检查数据是否有错误,计算是否正确等
13 14
分类数据的整理与图示
分类数据的整理
(基本过程)
1. 2. 3. 4.
分类 A B C D E 15
分类数据的整理
(可计算的统计量)
频数(frequency) :落在各类别中的数据个数 比例(proportion) :某一类别数据占全部数 据的比值 百分比(percentage) :将对比的基数作为 100而计算的比值 比率(ratio) :不同类别数值的比值
5%
10%
0% Stocks Bonds Savings CD
0%
25
分类数据的图示—饼图
(例题分析)
露露 18% 汇源果汁 12% 可口可乐 30%
顺序数据的整理与图示
百事可乐 18%
旭日升冰茶 22%
不同品牌饮料的构成
27 28
顺序数据的整理
(可计算的统计量)
顺序数据的频数分布表
(例题分析)
【例】在一项城 市住房问题的研 究中,研究人员 在甲乙两个城市 各抽样调查300户 ,其中的一个问 题是:“您对您 家庭目前的住房 状况是否满意? 1.非常不满意; 2 .不满意; 3 . 一般;4.满意; 5.非常满意。
电脑品牌 联想 IBM 康柏 戴尔
一季度 256 285 247 563
二季度
销售量
700 600
563 468 397 328 256 285 247
688
468 397 328 688
500 400 300 200 100 0
一季度 二季度
联想
IBM
康柏
戴尔
电脑品牌
电脑销售量的对比条形图
22
分类数据的图示—帕雷托图
非常不满意 不满意 一般 满意 非常满意 合计
24 108 93 45 30 300
8 36 31 15 10 100.0
30
5
顺序数据的频数分布表
(例题分析)
乙城市家庭对住房状况评价的频数分布 乙城市 回答类别 向上累积 户数 (户) 21 99 78 64 38 300 百分比 (%) 7.0 33.0 26.0 21.3 12.7 100.0 户数 (户) 21 120 198 262 300 — 百分比 (%) 7.0 40.0 66.0 87.3 100.0 — 向下累积 户数 (户) 300 279 180 102 38 — 百分比 (%) 100.0 93.0 60.0 34.0 12.7 —
20%
也称圆形图,是用圆形及圆内扇形的角度来 表示数值大小的图形 主要用于表示总体或样本中各组成部分所占 的比例,对于研究结构性问题十分有用 绘制圆形图时,总体中各部分所占的百分比 用圆内的各个扇形角度表示,这些扇形的中 心角度,是按各部分数据百分比占 3600 的相 应比例确定的
26
% invested in each ca ategory (bar graph)
非常不满意 不满意 一般 满意 非常满意 合计
非常 不满意 一般 不满意
(a)向上累积
甲城市家庭对住房状况评价的累积频数分布
32
环形图 (annular chart)
环形图中间有一个“空洞”,样本或总体中 的每一部分数据用环中的一段表示 环形图与圆形图类似,但又有区别 圆形图只能显示一个总体各部分所占的 比例 环形图则可以同时绘制多个总体的数据 系列,每一个样本或总体的数据系列为 一个环 环形图可用于结构比较研究 环形图主要用于展示分类和顺序数据
数据透视表
用Excel创建数据透视表
(用Excel创建数据透视表)
第1步:在Excel工作表中建立数据清单 第2步:选中数据清单中的任意单元格,并选择【数据】菜单 中的【数据透视表和数据透视图】 第3步:确定数据源区域 第4步:在【向导—3步骤之3】中选择数据透视表的输出位置, 然后选择【布局】 第5步:在【向导—布局】对话框中,依次将“分类变量”拖至 左边的“行”区域,上边的“列”区域,将需要汇总的 “变量”拖至“数据区域” 第6步:然后单击【确定】,自动返回【向导—3步骤之3】对 话框。然后单击【完成】 ,即可输出数据透视表
数据的整理与显示
12
2
数据的整理与显示
(基本问题)
要弄清所面对的数据类型,因为不同类型的 数据所采取的处理方式和方法是不同的 对分类数据和顺序数据主要是作分类整理 对数值型数据则主要是作分组整理 适合于低层次数据的整理和显示方法一般也 适合于高层次的数据;但适合于高层次数据 的整理和显示方法并不一定适合于低层次的 数据
29
累积频数(cumulative frequencies):各类 别频数的逐级累加 累 积 频 率 (cumulative percentages) : 各 类别频率(百分比)的逐级累加
甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 向上累积 户数 (户 ) 百分比 (%) 户数 (户 ) 24 132 225 270 300 — 百分比 (%) 8.0 44.0 75.0 90.0 100.0 — 向下累积 户数 (户 ) 300 276 168 75 30 — 百分比 (%) 100.0 92 56 25 10 —
16 12 频数 8 4 0 可口 可乐 旭日升 冰茶 百事 可乐 汇源 果汁 露露 品牌
20
15 11 9 6 9
不同品牌饮料的频数分布
19
分类数据的图示—对比条形图
(side-by-side bar chart )
分类数据的图示—对比条形图
(例题分析)
800
分类变量在不 同时间或不同 空间上有多个 取值 对比分类变量 的取值在不同 时间或不同空 间上的差异或 变化趋势
40
组距Hale Waihona Puke 组(几个概念)
组距分组
(步骤)
1. 确定组数:组数的确定应以能够显示数据的分布 特征和规律为目的。在实际分组时,组数一般为 5K 15,可以按 Sturges 提出的经验公式来确 lg n 定组数K
按一定顺序将数据排列,以发现一些明 显的特征或趋势,找到解决问题的线索 排序有助于对数据检查纠错,以及为重 排序有助于对数据检查纠错 以及为重 新归类或分组等提供依据 在某些场合,排序本身就是分析的目的 之一 排序可借助于计算机完成
8
用Excel进行数据筛选
8名学生的考试成绩数据
数据透视表
24
频数
4
Pareto Diagram Example
Current Investment Portfolio
45% 100%
分类数据的图示—饼图 (pie Chart)
cumulative % invested (line graph)
40%
90%
35%
80%
70% 30% 60% 25% 50% 20% 40% 15% 30% 10%
组距分组
等距分组
37
异距分组
38
单变量值分组
(要点)
组距分组
(要点)
将一个变量值作为一组 适合于离散变量并且变量 值较少的情况
39
将变量值的一个区间作为一组 适合于连续变量或变量值较多 的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不 等距分组
~ ~ ~ ~ ~
18
分类数据的整理.xls
17
3
分类数据的图示—条形图
(bar Chart)
用宽度相同的条形的高度或长短来表示 各类别数据的图形 主要用于反映分类数据的频数分布 绘制时,各类别可以放在纵轴,称为条 形图,也可以放在横轴,称为柱形图 (column chart)
分类数据的图示—条形图
(例题分析)
统计描述
数据的预处理 数据的整理与显示
品质数据的整理与显示 顺序数据的整理与图示 数值型数据的整理与显示 统计表 鉴别图表优劣的准则
数据的预处理
数据的概括性度量
集中趋势的度量 离散程度的度量 偏态与峰态的度量
1
2
数据审核—原始数据 数据的预处理
数据审核
4
准确性审核
数据透视
数据的审核—二手数据
(second hand data)
适用性审核
数据筛选(data filter)
当数据中的错误不能予以纠正,或者有 些数据不符合调查的要求而又无法弥补 时 需要对数据进行筛选 时,需要对数据进行筛选 数据筛选的内容 将某些不符合要求的数据或有明显错误
数据排序 (方法)
分类数据的排序 字母型数据,排序有升序降序之分,但 习惯上用升序 汉字型数据,可按汉字的首位拼音字母 排列,也可按笔画排序,其中也有笔画 多少的升序降序之分 数值型数据的排序 递增排序 递减排序
9
(pivot table )
可以从复杂的数据中提取有用的信息 可以对数据表的重要信息按使用者的习惯 或分析要求进行汇总和作图 形成一个符合需要的交叉表(列联表) 在利用数据透视表时,数据源表中的首行 必须有列标题
列出各类别 计算各类别的频数 制作频数分布表 用图形显示数据