学习资料统计学基础知识培训.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
40-49岁 50-60
合计
56 28 12 4 100
Analyze——Descriptive Statistics——Crosstabs
返回
比率值的计算及显示
Analyze——Reports——Case summaries
员工级别
<30 岁
30-39 岁
40-49 岁
49-50 岁
<40岁在本 级别中的比 率
结束
4
你要归纳整理的是什么类型的数 据?
1.已分类数据(定类、定序) 2.连续、数值型数据(定距、定比)
返回
你想如何归纳整理数据?
1.分类计算频数和百分比
2.计算两分类变量下的频数和百分比
3.计算比率值:比率是各不同类别数值之 间的比值 返回
分类变量的图形及图表显示
员工级别
员工 领班 主管 经理助理 合计
与数据分布相关的测度量总结
集中趋势适用的统计 量
离散趋势使用的统计 量
定类 众数 —— —— —— —— —— 异众比率 —— —— —— ——
用于比较不同组数据 的相对位置
——
用于比较不同组数据 相对离散程度
——
定序 中位数 分位数 众数 —— —— —— 四分位差 异众比率 —— —— ——
——
300
200




285 283
100
0
N=
249
American
71
European
79
Japanese
国别
返回
你有何种数据?
1.分类数据(定类、定序) 2.连续数值型数据(定距、定比)
返回
分类数据分布的统计量指标
1.集中趋势:计算众数、中位数
众数是一组数据中出现次数最多的变量值;
中位数是一组数据排序后,处于中间位置的变量值 ;
指标
1.集中趋势:平均值、加权平均值、算术平均值
简单均值就是一组数据值之和除以其数据个数 ;加权平均的均值与其各个数 值的个数有关 ;几何平均是适用于特殊数据的一种平均数,只要用于比率的 平均。
2.离散趋势:极差(全距)、方差、标准差
极差也称全距,为一组数最大值减去最小值得到。 方差是各变量值与其均值离差平方的平均数,它是测度数值型数据离散程度的 最主要的方法。计算方法:s2=Σ(xi-x平均)/(n-1)。实际分析问题时,我们常 用标准差,标准差为方差开根号。
2.离散趋势:异众比率、四分位差
异众比率是指非众数组的频数占总频数的比率,用Vr表示,Vr= (Σfi-fm)/Σfi。 四分位差也称内距或者四分间距,计算方法:Qd= QU - Ql。四分 位差反映的是50%数据的离散程度,其数值越小,说明中间数据
越集中,反之,越分散。
3.频数分布和百分比
返回
连续数值型数据分布的统计量
数据分组法
数据分组包括单变量分组和组距分组两种,单变量适合离散变量分组, 一般数据都使用组距分组。
数据分组的步骤: 1.确定组数,可以按斯特奇斯(Sturges)提出的经验公式来确定组 数K;K=1+lgn/lg2。n为数据的个数,对结果四舍五入即为组数; 2.确定各组的组距。组距是上限与下限的差,组距=(最大值-最小 值)/组数; 3.根据分组整理成频数分布表。
数据的分类
•根据数据测量的尺度:分为定类数据、定 序数据、定距数据、定比数据
•根据描述对象与时间的关系:分为截面数 据和时间序列数据
•根据统计数据的收集方法:分为观测数据 和实验数据
你想要干什么?
一.归纳、描述或者显示数据 二.观察变量和数据的分布 三.比较组间数据的不同 四.变量之间显著性关系的测度 五.相似数据分组的测度 六.相似变量的压缩测度
Analyze-Descritives-Crosstabs
举例说明
某公司为了提高市场占有率,某行业有两个主要的竞争对手,A和 B公司同时开展了广告宣传。在广告宣传之前,A公司的市场占有 率为45%,B公司市场占有率为40%,其它公司为15%。广告战 后,随机抽取了200名消费者,其中102人准备买A公司产品,82 人买B公司产品,另外有16人准备买其它公司产品。问以广告战
SPSS实现:Analyze-Compare Means-One Sample T Test
返回
你的数据是如何组织起来的?
1.分成两不相关组的一个连续数值型变量 2.具有相关关系的两连续数值型变量
返回
你想要进行何种独立的样本检 验?
步骤:1.首先检测变量是否服从正态分布,方法 为通过Graphs-Interactive-Histogram(直方图) 进行观察
合计
员工
47
20
6
2
89.33% 75
领班
7
5
2
1
80%
15
主管
2
2
3
1
50%
8
经理助理 — —
1ቤተ መጻሕፍቲ ባይዱ
1 ——
50%
2
合计
56
28 12 4
84% 100
返回
如何整理连续数值型数据?
1.描述连续数值型数据的统计量及数据分 组法
2.图表显示
返回
连续数值型数据统计量及数据 分组法
1.统计量:度量集中趋势的统计量包括平 均数、几何平均;度量离散趋势的统计 量包括极差、方差和标准差等。
2.如果变量服从正态分布,那么应用独立样本T 检验进行两样本均数的比较:AnalyzeCompare Means-Independent Samples T Test
3.如果变量不服从正态分布,那么应用非参数双 独立样本检验进行两独立样本所在总体分布是 否相同的检验:Analyze-Nonparametric Tests2 Independent Samples
3.数据分组:分组是根据统计分析的需要, 将原始数据按照某种标准划分成不同的 组别,形成分组数据,分组后计算数据 出现的频数,形成频数分布表。
各常用统计量的计算方法
平均值(mean):一组数据之和除以数据个数; 几何平均值:用于计算比率的平均,实际应用 中,主要用于社会经济现象的年平均增长率; 极差(Range):也称全距,是一组数据的最大 值和最小值之差; 方差:各变量与其均值离差平方的平均数; 标准差(std.Deviation):即是方差的平方根; 与方差不同的是,标准差具有与变量值一样的 量纲,实际的意义要比方差清楚。 SPSS实现:Analyze—Descriptive Statistics— Descriptives
分组数据的图形显示——直方图 这是406例汽车的马力的直方图
60
40
20
0
50
100
150
200
汽车马力
连续数值型数据的显示方法
未分组数据的显示方法——箱线图 箱线图是由一组数据的5个特征值绘制而成的,它由一个箱子和两条线段 组成,5个特征值为:最大值、最小值、中位数和两个四分位,下面是 406例产地为美国、欧洲和日本三个地区的汽车马力值的箱线图。欧洲箱 线图有两个离群点。
Cramer’s V和λ系数测量变量关系强度 的指标。
返回
你想要比较多少组数据或多少 个变量?
1.一组数据或变量与一个已知数值进行比 较
2.两组数据或变量
3.三组或者三个以上变量
返回
应用单样本T检验检验一组数据 或变量与一已知数值是否相等
工作中经常碰到根据已有的知识或者给定的标准对单 个变量做出结论,比如新产品的份额是否超过了15% 等。这样的问题就可以转化为通过单样本T检验进行检 验的零假设。单样本T检验检验的是抽样总体均值是否 与给定假设一致。根据样本计算得出的T统计量值与给 定的0.05显著性水平下的临界值进行比较,从而得出 结论。
一种原料来自不同的地区,原材料质量被分为三个不同的等级。
: 从这批原料中随机抽取500件进行检验,结果如下表
地区 甲 乙 丙
合计
一级 52 60 50 162
二级 64 59 65 188
三级 24 52 74 150
合计 140 171 189 500
计算卡方值为19.82大于显著性 为0.05、自由度为4的的卡方值为 9.488,所以地区和原材料等级之 间存在依赖关系,原材料的质量 受地区影响。存在关系的假设成 立,可以计算ф系数、列联系数
3.数据偏态与峰态的测度
偏态及其测度:计算公式SK=nΣ(xi-x平均值)3/[(n-1)(n-2)s3];如果数据分布 是对称的,则偏态系数为0,如果偏态系数明显不等于0,表明分布是非对称的; 当SK为正值时,可以判断为右偏;当SK为负值时,为左偏。SK越大,说明偏 斜的程度就越大。 峰态及其测度:计算方法:K={n(n+1) Σ(xi-x平均值)4-3[Σ(xi-x平均值)2]2(n1)}/[(n-1)(n-2)(n-3)s4]。标准正态分布的峰态为0,当K>0时为尖峰分布; 当K<0时为扁平分布
返回
你要比较什么类型的数据?
1.分类数据(定比、定序) 2.已分组的连续数值型数据(定距、定比)
返回
应用列联分析解决分类数据的 组间比较
频数分布表每次只能描述一个变量的情况,而列联表是由 两个以上的变量进行交叉分类的频数分布表,是反映两个 或多个变量联合分布的表格。可用于各组比例值是否一在 列联表中,可以计算以列合计为基数的列百分比或以行合 计为基数的行百分比。卡方统计量提供对列联表中观察到 的联系的统计显著性检验(拟合优度和变量联系),通过 ф系数、列联系数、Cramer’s V和λ系数测量变量关系强度 的指标。
返回
两分类变量数据的图表及图形 显示
员工级别
<3 0岁
30-39 岁
员工
47 20
领班
7
5
主管
2
2
经理助理 — —
1
40-49 岁
6 2 3 1
4950岁
合计
2 75 1 15 18 —— 2
各级别各年龄段频数
50 40 30
频数
20 10 0
员工级别
年龄段
员工 领班 主管 经理助理
<30岁 30-39岁
统计学基础知识培训
2007年5月
根据测量尺度数据的分类
姓名 甲 乙 丙 丁 戊 戌
1999年某公司员工情况明细表
性别
级别
年龄 绩效分数
1
0
21
8.6
1
0
25
7.8
0
0
26
9.2
1
1
27
7.9
1
1
25
8.9
0
2
31
8.4
月均收入
2479 2345 2547 2689 2776 3124
注:1.本表纯属虚构,如有雷同实属巧合;2.性别栏0代表男,1代表女;级 别栏0代表员工,1代表领班,2代表主管;3.绩效栏10分为满分。
频数
75 15 8 2 100
百分 (%)
累积百 分比 (%)
75% 75.00%
15% 90.00%
8% 98.00%
2% 100%
100% ——
频数
各级别员工人数表
80
频数
70
60
50
40
30
20
10
0
员工 领班 主管 经理助理
Analyze——Descriptive Statistics——Frequencies
分组需要“不重不漏”,因此习惯上规定“上组限不在内”。若有 的值过大,可以设置开口组。等距分组由于各组的组距相等,各组频 数分布不受组距大小的影响,可以从频数分布中直接观察频数分布的 特征和规律,而不等距分组就必须计算频数密度,频数密度=频数/组
距,频数密度才能准确反映频数分布的实际情况。 返回
连续数值型数据的显示方法
——
定距和定比
均值 加权平均 几何平均 中位数 分位数 众数
全距 方差 标准差 四分位差 异众比率
标准分数: zi=(xi-x平均)/标准 差
离散系数: V=标准差/x平均值
常见的数据分布——正态分布
在社会经济问题中,有许多随机变量的概率分布服从正 态分布,如身高、体重等。正态分布记作X~N(μ,σ), μ为随机变量X的均值, σ为随机变量X的标准差。 μ决 定了正态分布图形的中心位置,σ 决定了图形中峰的 陡峭程度, 当σ 较大,图形较缓,当σ 较小,图形趋 于陡峭。 所有的正态分布均能通过Z=(X- μ)/ σ 化成标准正态分 布X~N(0,1)(均数为0,方差为1)。 随机变量X处在一个正负一个σ之内的概率为68.26%; 2个σ之内的概率为95.45%; 3个σ之内的概率为 99.73%。
返回
你想要何种配对样本的检验
步骤:1.同样通过直方图观察变量是否服从正态 分布;
2.如果服从正态分布,那么应用配对样本的T检 验进行配对设计的差值均数与总体均数0进行 比较:Analyze-Compare Means-Paired Samples T Test.
3.如果不服从正态分布,那么应用双相关样本检 验:Analyze-Nonparametric Tests-2 Related Samples.
前后各公司市场占有率是否发生了变化。
公司
A B 其它 合计
观察频率 102 82 16 200
期望频率 90 80 30 200
检验观察值和期望值的
拟合优度:计算卡方值为 8.18,而显著性0.05、自由 度为2时的卡方值5.99,因 此说明占有率发生了显著 的变化。
举例说明
列联表格的卡方检验还用于判断两个分类变量之间是否存在联系 的问题中。
相关文档
最新文档