统计学基础知识培训
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
置信度:90%的机会,样本数据是在可接受的误差范围内;有10%的机会、样本数据是超出可接受的 误差范围。 抽样误差:样本统计量于相应总体参数的误差范围
目录
1
统计学基础知识 抽样调查简介 描述统计 推断统计
2
3
4
描述统计学概念
描述统计学(descriptive statistics):指对采集的数
• 结构相对数(如:比率)
• 比例相对数(如:比例) • 比较相对数(如:同比、环比) • 强度相对数(如同业比) • 计划完成相对数
1、集中量数
集中量数:用来描述数据分布中心的统计量。常用的有平均数、
中位数、众数
1. 平均数:一组数据的算术平均数 2. 中位数:数轴上面使其左边和右边的数据个数相等的数据 指标 3. 众数:分布中出现频次最高的数据值 平均数、中位数、众数之间的关系(根据分布)
统计学基础知识 抽样调查简介 描述统计 推断统计
2
3
4
调查方法
普查
• 专门组织的,一般用来调查属于一定时点上的社会经济现象数量的全面调查。句中 三个关键词:专门、时点、全面。
抽样调查
• 最常用的调查方式,从总体中随机抽取一部分单位(样本)进行调查,目的是为了 推断总体特征
重点调查
• 在总体中选择个别或部分重点单位进行调查,调查结果不能用于推断总体
定距数据
定比数据
定义
它的取值之间可以比 较大小,可以用加减 可以进行加减乘除运 法计算出差异的大小, 算,它与定距变量意 基本特点是两个相同 义相近,细微差别在 间隔的数值的差异相 于有绝对“0” 等 温度 收入
举例
分类
√
√
√
√
排序
间距 比值
√
√
√
√
√ √
参数与统计量(1/2)
参数
• 描述总体特征的指标 • 参数常用希腊字母表示,如:μ 、σ、ψ 、τ 等
比率检验: • 卡方检验
统计是一门艺术!
பைடு நூலகம் 参数与统计量(1/2)
总体 样本
参数
X
、 2
p
平均数 标准差、方差 成数
统计量 一 X
S、 S2 P
统计学分类
统计学
描述统计学
推断统计学 参数估计 假设检验
描述统计(descriptive statistics):研究如何取得反映客观现象的数据,并通过
• • 方法:将总体全部单位分为许多个““群”,然后随机抽取若干““群”,对被抽 中的各““群”内的所有单位登记调查 适用:总体规模不大;总体内部差异小
多阶段抽样
• • 方法:就是先从总体中抽出较大的范围的单位,再从中选的大单位中抽较小范围的 单位,依次类推,最后从更小的范围抽出样本基本单位 如:广东省客户满意度调研的样本抽取
据样本数据去推断总体数量特征的方法,它是在对样本数据进 行描述的基础上,对统计总体的未知数量特征做出以概率形式 表述的推断 常见分支为参数估计与假设检验
1、参数估计
参数估计依据所获得的样本资料观察对所 研究现象总体的水平,结构规模等数量特 征进行估计。
包括点估计与区间估计
点估计:指直接以样本指标来估计总体指标,也叫定值估计
• H0与H1两者是对立的,如H0真实,则H1不真实;如H0不真实,则H1
为真实。 H0和H1在统计学中称为统计假设 • 当原假设H0为真时,却因为样本指标的差异而被否定,这种否定真实的
原假设的概率就是显著性水平。用α 表示
常用的统计检验
均值检验: • 单样本T检验 • 两个独立样本T检验
• 配对样本T检验
• 样本:从总体中随机抽取部分单位所构成的集合体
• 调查总体:对总体进行进一步限制,使对总体的调查具备可操作性
样本
总体
数据类型
定类数据
它的取值只代表观测 对象的不同类别。最 常用来综合定类数据 的统计量是频数、比 率或百分比 性别、职业
定序数据
它的取值的大小能够 表示观测对象的某种 顺序关系(等级、方 位或大小等),也是 基于“质”因素的变 量 学历
•
计划完成相对数:是用来检查、监督计划执行情况的相对指标。它以现象在某一段时间
内的实际完成数与计划数对比,来观察计划完成程度。(如同比、环比;同比是指与历 史同时期进行比较得到的数据,,环比是指与前一统计期进行比较得到的数值)
可以用哪些图表展示数据?
要表达的数据 和信息
成分 (整体的一部分) 排序 (数据间比较) 时间序列 (走势、趋势) 频率分布 (数据频次) 相关性 (数据间关系) 多重数据比较
X x,
s,
P p
优点:简单,具体明确 缺点:无法控制误差,仅适用于对推断的准确程度与可 靠程度要求不高的情况
2、假设检验
基本思想:小概率原理,指如果对总体的某种假设是真实的,那么 不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几 乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该 假设的真实性,拒绝这一假设。
不同抽样组织设计的比较
进行抽样设计时需要考虑的两个问题
提高样本的代表性,增加抽样的效果。抽样要满足随机 性要求。 抽样设计时,要充分考虑如何降低抽样的成本费用。
样本量和抽样误差之间的关系
在统计学上,一般的调查项目都是定在90%的信心程度,不同的样本数产生的准 确程度相应增加或减少。
90%置信度下,样本量和抽样误差的对应关系 2% 样本量 • • 1681 3% 747 4% 420 5% 269 6% 187 7% 137 8% 105 9% 83 10% 67 11% 56 15% 30
总 体 (某种假设)
抽样 检验
样 本 (观察结果)
(接受) 小概率事件 未 发 生
(拒绝) 小概率事件 发 生
假设检验的意义
所谓假设检验,就是对某一总体参数先作出假设的数值;然后搜 集样本资料,用这些样本资料确定假设数值与样本数值之间的差
异;最后,进一步判断两者差异是否显著,若两者差异很小,则
假设的参数是可信的,作出“接受”的结论,若两者的差异很大, 则假设的参数准确的可能性很小,作出“拒绝”的结论。
类型抽样(分层抽样)
• 方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位, 合成样本
等距抽样(机械抽样)
• 方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位
· · · · · ·
·
·
· ·
·
·
(总体单位按某一标志排序)
抽样方法组织形式(2/2)
整群抽样
统计学基础知识培训
目录
1
统计学基础知识 抽样调查简介 描述统计 推断统计
2
3
4
统计学(statistics)
什么是统计学?
统计学是一门收集、处理、分析、解释数据并从数据中得 出结论的科学
统计是一门工具!
研究对象
总体(population)/样本(sample)
• 总体:根据研究目的确定的同质观察对象的全体。有限总体、无限总体 • 个体:构成总体的基本单位
2、差异量数
差异量数:以数字形式计算出某分布中数据差异的程度,反映
一组数据围绕数轴中心分布的离散情况。常用的有全距、方差、
标准差、四分位差 1. 全距:数据在数轴上分布的距离 2. 方差:指离均差平方后的平均数;标准差是指方差的平方 根
3. 四分位差:第一个四分位点和第三个四分位点的距离
3、相对量数
• 如广州电信移动用户1000W,其中3G用户500W,3G用户比率π=50%
统计量:由样本计算的不含未知参数的函数
• 一般情况下,总体中的个体数目往往较大或无限,因而总体指标(参数)
往往是未知的,人们在实践过程中逐渐认识到,样本统计量与相应总体参
数间有着某种联系,可以通过样本去了解总体情况,由样本信息来推断总 体特征
相对量数:
• • • 结构相对数:是在对总体分组的基础上,以总体总量作为比较标准,求出各组总量占总 体总量的比重,来反映总体内部组成情况的综合指标(如:比率) 比例相对数:是总体中不同部分数量对比的相对指标,用以分析总体范围内各个局部、 各个分组之间的比例关系和协调平衡状况(如:比例) 比较相对数:比较相对指标是不同单位的同类现象数量对比而确定的相对指标,用以说 明某一同类现象在同一时间内各单位发展的不平衡程度,以表明同类实物在不同条件下 的数量对比关系(如:同业比) • 强度相对数:是两个性质不同但有一定联系的总量指标之间的对比,用来表明某一现象 在另一现象中发展的强度、密度和普遍程度
举例:某地区去年职工家庭年收入为72000元,本年抽样调查结果表
明,职工家庭年收入为71000元,这是否意味着职工生活水平下降呢? 我们还不能下这个结论,最好通过假设检验,检验这两年职工家庭收 入是否存在显著性统计差异,才能判断该地区今年职工家庭年收入是 否低于去年水平。
降了
升了
原假设与备择假设
• 原假设(又称虚无假设)是接受检验的假设,记作H0; • 备择假设(又称备选假设)是当原假设被否定时的另一种可成立的假设, 记作H1;
典型调查
• 从调查对象的全部单位中选择少数典型单位进行调查,目的是描述与揭示事物的本
质特征和规律,调查结果不能用于精确推断总体
抽样方法
抽样方法
• 是指在总体中每个单位都具有同等可能性抽样中,每个单位被抽中的概率是已知的
误差
• • 非抽样误差:在统计调查中,由于主客观原因而引起的诸如测量、登录、计算等误 差。该误差可以避免 抽样误差:在抽样调查中由于抽样的随机性而产生的样本指标对总体指标的代表性
更多内容可以参照《谁说菜鸟不会数据分析》
饼图
柱形图
条形图
折线图
气泡图
其他
盒子图、 饼图结合 条形图
√
√ √ √ √ √
√ √ √ √ √ √ √ √
折线图结 合条形图 多重折线 图
散点图 雷达图
目录
1
统计学基础知识 抽样调查简介 描述统计 推断统计
2
3
4
推断统计学
推断统计(inferential statistics):研究如何根
据进行登记、审核、整理、归类,在此基础上进一步计算出各 种能反映总体数量特征的综合指标,并用图表的形式表示经过
归纳分析而得到的各种有用的统计信息。
反映总体数量特征的综合指标有哪些呢?
可以用哪些图标形式展示呢?
反映总体数量特征的综合指标有哪些呢?
总体量数: 集中量数:平均数、中位数、众数 差异量数:全距、方差、标准差、四分差 相对量数:
误差。样本虽然是总体的缩影,但是还不足以完全代表总体,从而产生了误差。抽
样误差是随机抽样固有的,可以计算并加以控制,但是不可以避免
抽样方法分类
抽样方法
简单随机抽样
系统抽样
分层抽样
整群抽样
多阶段抽样
抽样方法组织形式(1/2)
简单随机抽样(纯随机抽样)
• • 方法:将总体单位编成抽样框,而后用抽签或 随机数表抽取样本单位 适用:总体规模不大;总体内部差异小
图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观 现象的规律性数量特征。
推断统计(inferential statistics):研究如何根据样本数据去推断总体数量特征
的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率 形式表述的推断
目录
1