统计学提纲第五章
统计学第五章(变异指标)
02
01
03
变异系数是衡量数据相对波动程度的一个统计量。
它是一组数据的标准差与其均值之比,用于比较不同 数据集之间的离散程度。
变异系数没有单位,其大小同时受标准差和均值的影 响。
变异系数的计算
2. 计算数据集的标准差。
1. 计算数据集的均值。
计算步骤
01
03 02
变异系数的计算
• 将标准差除以均值,得到变异系数。
05
偏态与峰态的度量
偏态及其度量
偏态定义
偏态是指数据分布的不对称性。在统计学中,偏态通常通过偏态系数来度量。
偏态系数
偏态系数是描述数据分布偏态程度的一个统计量,通常表示为SK。当SK=0时,分布呈对称分布;当SK>0时,分 布呈右偏态,即右侧尾部更长或更重;当SK<0时,分布呈左偏态,即左侧尾部更长或更重。
偏态和峰态的应用
数据特征描述
统计推断
偏态和峰态可用于描述数据的分布特 征,帮助了解数据的形状、中心趋势 和离散程度等信息。
在参数估计和假设检验等统计推断过 程中,需要考虑数据的偏态和峰态对 推断结果的影响。例如,在t检验和 方差分析等常用统计方法中,通常需 要假设数据服从正态分布或近似正态 分布。如果数据存在明显的偏态或峰 态,可能需要采用其他适合的统计方 法。
变异指标的作用
衡量平均数代表性的大小。 表明生产过程中的节奏性。
统计学第五章
•2.5
•3.0 •3.5 •4.0
1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布
x
样本均值的分布与总体分布的比较
总体分布
0.3 P(x) 0.25 0.2 0.15 0.1 0.05 0 1 2 x 的取值 3 4
样本均值分布
= 2.5
σ2 =1.25
x
2
n
n
~ N (0, 1)
2. 样本均值的期望值和方差
E( x )
2 x
样本比例的分布
(proportion)
1. 总体(或样本)中具有某种属性的单位与全部单位 总数之比
– – 不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为
3. 样本比例可表示为
4.
n0 p n 或
N0 N
N1 或 1 N
n1 1 p n
样本比例的分布
1. 在重复选取容量为n的样本时,由样本比 例的所有可能取值形成的相对频数分布
2. 一种理论概率分布 3. 当样本容量很大时,样本比例的抽样分布 可用正态分布近似,即 4.
(1 ) p ~ N , n
2. 设
X ~ N ( , )
第五章统计学
二、Gamma相关测量法 G=Ns-Nd Ns+Nd 从公式可见,G是不理会同分对数的。 具有消减误差比例的意义 , G的绝对值越大, 就表示估计时所犯的错误可能性就越小。 对称相关测量法 。
三、dy相关测量法 dy= Ns-Nd Ns+Nd+Ty Ty是只在因变量Y上同分的对数。 表5-5:dy=(4-3)/(4+3+2)=0.11。这个系 数值除了显示正相关外,也表示以工人积极性 的高低来预测或估计工厂产量的高低,可以减 除11%的误差。 在这里要注意的是,dy的值通常是小于G系数 值。
E1=40(100-40)+50(100-50)+10(100-10)=58 100 100 100 E2=10(60-10)+40(60-40)+10(60-10) 60 +30(40-30)+10(40-10)+0(40-0)=45 40 τ=(58-45)/58=0.224
第五章 相关测量法与测量层次 第一节 两个定类变量
一、λ相关测量法(λ和λy具有消减误差比例的意义 , 其统计值是介于0和1之间 。) 基本逻辑:计算以一个定类变量的值来预测另一个定 类变量的值时,如果以众值作为预测的准则,可以减 除多少误差。 λ相关测量法有两种形式,一种是对称形式,另一种 是不多称形式, λ=Σmx+Σmy-(Mx+ My ) λy= Σmy-M y 2n-(Mx+ My) n-M y My是Y边缘和中的众值次数; Mx是X边缘和中的众值 次数;Σmy是每列众值之和;Σmx是每行众值之和; n是全部个案数目。
统计学原理第五章
第五章综合指标
学习要点:了解各种指标的概念及作用,掌握相对指标、平均指标的特点及计算方法,变异指标的计算方法。
§1、总量指标
§2、相对指标
§3、平均指标
§4、变异指标
学习知识点:
前言:
1、总量指标是反映社会经济现象发展的总规模、总水平的综合指标。将总体单位数相加或总体单位标志值相加,就可以得到说明在一定时间、空间条件下某种现象总体的总规模、总水平的指标,即总量指标。
如:2010年年年末为1339724852亿,反映是我国人口的总规模。
总量指标的作用:
第一、总量指标可以用来反映一个国家的基本国情国力,反映一个地区、一个部门或一个单位的人力、物力和财力,是人们对客观事物认识的起点。
第二、总量指标可以用来作为制定政策、制定计划和实行科学管理的基本依据,也是检查政策、计划执行情况,反映社会经济活动绝对效果的重要指标。
第三、总量指标可以用来研究客观现象的数量表现及其发展的变化趋势。
第四、总量指标是计算相对指标和平均指标的基础。
一、总量指标的种类:
1、按其反映现象总体内容的不同:
• 总体单位总量(简称单位总量):指总体内所有单位的总数,
表示总体本身规模的大小。对于一个确定的统计总体,其总体
单位总量是唯一确定的。
• 总体标志总量(简称标志总量):指总体中各单位标志值总
和。对于确定的统计总体,标志总量不是唯一的,而是随着标
志的不同可计算不同的标志。
• 例:我们研究某市三级医院的基本情况,则全市三级医院的总
数量是总体单位总量,而全部三级医院职工总人数、全部三级
医院职工工资总额等就是总体指标总量。
2、按反映时间状况的不同,可分为时期指标和时点指标。
统计学
一个总体参数的区间估计 1、总体均值的区间估计 、
总体方差已知, 总体方差已知,正态总体均值的区间估计 2 x 由中心极限定理知, 由中心极限定理知, ~ N ( µ ,σ / n),给定 1 − α ,可由标准正态分布表得临界值 Z α
x−µ P( ≤ Zα ) = 1 − α σ/ n 2 对于给定1 − α ,x − µ ≤ Z α σ / n
∆ p = Zα σ ( p) = Zα
2 2
P (1 − P) n
总体比率的置信度为 1 − α 的置信区间为
p − ∆p ≤ P ≤ p + ∆p
例题1: 页例4 例题 :书141页例 页例 课堂练习: 课堂练习:某企业在一项关于职工流动 原因的研究中, 原因的研究中,从该企业前职工的总体 中随机抽选了200人组成一个样本。在对 人组成一个样本。 中随机抽选了 人组成一个样本 其进行访问时, 其进行访问时,有140说他们离开该企业 说他们离开该企业 是由于同管理人员不能融洽相处。 是由于同管理人员不能融洽相处。试对 由于这种原因而离开该企业的人员的真 正比例构造95%的置信区间。 正比例构造 %的置信区间。
估计量优劣的标准
无偏性: 无偏性: E (θ ) = θ 样本均值是总体均值的一个无偏估计量, 样本均值是总体均值的一个无偏估计量,样 的无偏估计量。 本方差n 不是总体 2 的无偏估计量。 s2 σ 有效性: 有效性:保证了估计量的取值能集中在被估 计的总体参数附近。 计的总体参数附近。 的无偏估计量, 设 θ1 ,θ 2 都是 θ 的无偏估计量,若 有效。 V (θ1 ) ≤ V (θ 2 ) ,则 θ1比θ 2 有效。 一致性: 一致性:当 n → ∞,θ 越来越接近 θ 。
(08统计)统计学第五章相关与回归分析
统计学
第五章 相关与回归分析
10 - 1
经济、管理类 基础课程
统计学
第五章 相关与回归分析
第一节 相关与回归分析的基本理论 第二节 一元线性回归
10 - 2
经济、管理类 基础课程
统计学
学习目标
1. 了解相关关系的概念及种类 2. 掌握相关分析的原理、相关系数的含义、计算 方法、取值及其应用 3. 掌握回归分析的原理、重点掌握一元线性回归 方程的拟合(参数的最小二乘估计方法)和参 数的含义 4. 掌握判断回归方程拟合优度的度量方法——判 定系数(又称决定系数) 5. 掌握利用回归方程进行估计或预测
10 - 15
经济、管理类 基础课程
统计学
(3)相关分析与回归分析的区别
**相关分析中,变量 x 变量 y 处于平等的地位; 回归分析中,变量 y 称为因变量,处在被解释的地位,x 称 为自变量,用于预测因变量的变化 **相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可以是非随机 的确定变量 **相关分析主要是描述变量x与变量y之间关系的密切程度; 回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以 由回归方程进行估计或预测等
10 - 3
经济、管理类 基础课程
统计学
第一节 相关与回归分析的基本理论
统计学基础复习提纲复习内容统计数据数据搜集
统计学基础复习提纲
复习内容:第一章:统计数据;第二章;数据搜集;第四章:数据分布特征的测度;第五章:抽样与参数估计;第六章:假设检验;第七章:相关与回归分析;第八章:时间序列分析和预测:第九章:指数。
重点内容:
第一章统计和数据
(1)统计的概念和应用(2)统计数据类型:分类数据、顺序数据、数值型数据;观测数据和实验数据;截面和时间序列数据。
(3)统计中的基本概念:总体与样本;参数与统计量;变量。
第二章数据搜集
(1)数据来源:直接来源和间接来源(2)调查设计:调查方案设计和调查问卷设计
(3)统计数据质量
第四章数据分布特征的测度
(1)集中趋势的测度:平均数;中位数和分位数;众数
(2)离散程度的度量:极差和四分位差;平均差;方程和标准差;离散系数
(3)偏态与峰态度量:偏态系数;峰态系数
第五、六章参数估计与假设检验
(1)参数估计的基本原理:点估计与区间估计(2)总体均值的区间估计和总体比率的区间估计(3)样本容量的确定(4)假设检验的基本原理:原假设与备择假设;两类错误与显著性水平;检验统计量与拒绝域。(5)总体均值的检验:大样本检验方法;小样本检验方法。第七章相关与回归分析
(1)变量间关系度量:相关关系的描述和测度;散点图与离散系数。
(2)一元线性回归:一元线性回归模型;参数的最小二乘估计;回归方程的拟合优度;显著性检验。(3)利用回归房产进行估计和预测
第八章时间序列分析与预测
(1)时间序列的分解和描述:图形描述;增长率分析
(2)预测方法的选择和估计
(3)平稳序列的预测:移动平均法;指数平滑法
统计学复习提纲
第一章导论
1.什么是统计学?统计方法可以分为哪两大类?
统计学是收集、分析、表述和解释数据的科学。统计方法可分为:1。描述统计是研究数据收集、整理和描述的统计学分支,是用图、表、统计量等方式对已有数据的特征进行描述。内容包括:搜集数据、整理数据、展示数据、描述性分析。目的:描述数据特征、找出数据的基本规律.2。推断统计是研究如何利用样本数据推断总体特征统计学分支,是指利用这种概率关系,由样本统计量推估总体参数。内容包括:参数估计、假设检验。目的:对总体特征作出推断。
2.统计数据可分为哪几种类型?不同数据的类型各有什么特点?
按计量尺度分:1。分类数据:对事物进行分类的结果,数据表现为类别,用文字来表述.2。顺序数据:对事物类别顺序的测度,数据表现为类别,用文字来表述。3.数值型数据:对事物的精确测度,结果表现为具体的数值.按收集方法分:1。观测的数据:通过调查或观测而收集到的数据。2.试验的数据:在试验中控制试验对象而收集到的数据,在没有对事物人为控制的条件下而得到的。按时间状况分:1.截面数据:在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况。2.时间序列数据:在不同时间上收集到的数据,描述现象随时间变化的情况。
3.总体、样本、参数、统计量、变量的概念。
总体:所研究的全部元素的集合。样本:从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本容量。参数:用来描述总体特征的概括性数字度量.统计量:用来描述样本特征的概括性数字度量。变量:说明现象某种特征的概念.
4。变量的类型、特点及应用.
统计学第5章抽样推断
所谓推断: 抽样指标去推断全及指标
(三)重置抽样和不重置抽样
重置抽样——有放回抽样 不重置抽样——无放回抽样 (四)抽样框和样本个数 抽样框 ——即总体单位的名单 样本个数——指从总体中可能抽取的样本的数量。
四、抽样推断的要求 1.无偏性 样本指标的数学期望等于总体指标的数值。 2.有效性 对于多个无偏估计量,方差小的更有效。 3.一致性 样本单位数越大,样本指标与总体指标的差 异越小。
就 是 由 样 本 指 标 直 接 代 替 全 及 指 标 , 不 考 虑
任 何 抽 样 误 差 因 素 。 即 用 x直 接 代 表 X , 用 p 直 接 代 表 P。
例 在 全 部 产 品 中 , 抽 取 100件 进 行 仔 细 检 查 , 得 到 平 均 重 量 x1002克 , 合 格 率 p98% , 我 们 直 接 推 断 全 部 产 品 的 平 均 重 量 X 1002克 , 合 格 率 P 98% 。
2000小时根据以往资料:σ=20小时,
算计抽x样平均n误差?120002(小时)
2.不重复抽样:
x
2 N n
•
n N1
但 实 际 中 , Q往 往 N 很 大 , n很 小 , 故 改 用 下 列 公 式 : 2 n
(1 ) x nN
统计学原理第五章
③百分数:是将对比的基数定为100而计算出来的 相对数。
④千分数:是将对比的基数定为100而计算出来的 相对数。
二、相对指标的种类及计算方法:
1、结构相对指标:
• 定义:是在资料分组的基础上,以总体总量作为比较 标准,求出各组总量占总体总量的比重,来反映总体 内部组成情况的综合指标。
值和经济内容,可以综合汇总。 • 对于不同类现象则不能简单相加汇总,计算其实物指标 • 对现象的同类性要求不能绝对化。 3、要有统一的计量单位。
§2、相对指标
一、相对指标的意义及其表现形式:
1、相对指标又称统计相对数,它是两个有相互联系的现 象数量的比率,用以反映现象的发展程度、结构、强 度,普遍程度或比例关系。
• 公式
比例相对指标
总体中某一部分数值 总体中另一部分数值
例:
设某校教学人员为200人,行政人员为300人, 教学人员占行政人员的比例为66.7%,也可用1: 1.5来表示。
• 一般以总量指标进行对比,依据分析任务和提供 资料的情况,也可运用现象总体各部分的相对数 或平均值进行对比。
3、比较相对指标
②实物指标还是计算价值指标的基础。 ③实物单位有局限性,它缺乏对不同类产品或商
品的综合性能。
2、货币单位计算的总量指标又称货币指标和价值指标, 货币单位体现现象和过程的社会属性。
统计学第五章
数学期望为:
的单位在各自
总体中的比例
Ep 1p 2 P 1 P 2 n1、n2≥30,且 n1p1、
n1、n2为分别从两个相
对独立的总体中抽取出的两
n1(1-p)和n2p2、n2 (1-p2)都大于等于5
个简单随机样本的容量数
方差为: D p 1p 2p 11 n 1p 1p 21 n 2p 2
随机变量及其概率分布概述 抽样方法与抽样组织形式 抽样分布
抽样分布
一、抽样分布的概念 样本统计量因样本的不同有若干可能取值,每个
可能取值都有一定可能性大小(概率),从而形成它 的概率分布,统计上称为抽样分布。即抽样分布是样 本统计量取值的概率分布
二、抽样分布的基本类型
c 2分布
c2X1 2X2 2...Xn 2
则两个样本均值之差否有x1区别x2 ,的两抽种样品分牌布轿仍车的然安服全从性正态
分布
是否相同,两个地区女性消费者比
率的差异等,相应的需要研究两个
样本统计量的抽样分布
数学期望:
E x 1 x 212
方差为:
2
2
Dx1x2 1 2
n1 n2
如果X1、X2是两个相互独立的非正态总体,只 要样本容量足够大(n1,n2≥30),两个样本均值之差
为2/n的正态分布,即
统计学+第五章+二三节
1月
106 时距
N=5
N=4
一次移动
N=4
二次移动
2月
3月
114 1-3月
126
346
一次移动
117.6
114.5
117.5
4月
5月 6月 7月 8月
112
130 4-6月 150 138 134 7-9月 426 392
126.4
131.2Leabharlann Baidu132.8 141.2 145.6
120.5
129.5 132.5 138 144
yn y0
yn yn 1 y0 yn 1
3.年距发展速度
类似于年距发展水平指标,对于按月 (季)编制的时间序列,可计算年距发 展速度,用公式表示为:
本期发展水平 年距发展速度= 100% 上年同期发展水平
(二)增长速度 增长速度是增长量与基期水平 的比率,它反映了现象在一定时间内 增长变化的相对程度。增长速度用百 分数或倍数表示。其计算公式为:
年距增长量 年距增长速度= 100%=年距发展速度-1 上年同期发展水平
(三)平均发展速度
平均发展速度:环比发展速度的平均数。 平均增长速度=平均发展速度-1 1.几何平均法(水平法)
yn yn y1 y2 y0 y0 y1 yn 1
yn b1 b2 bn y0
统计学第五章
四、平均增长量
平均增长量是说明社会经济现象在一定时期内平 均每期增长的数量,从广义来说, 均每期增长的数量,从广义来说,它也是一种序 时平均数, 时平均数,即是逐期增长量时间序列的序时平均 反映现象平均增长水平。 数,反映现象平均增长水平。
第三节 时间序列速度分析指标
时间序列的速度分析指标有发展速度、增长速度、 时间序列的速度分析指标有发展速度、增长速度、 平均发展速度和平均增长速度。 平均发展速度和平均增长速度。这四种指标具有 密切联系,其中发展速度是基本的速度分析指标。 密切联系,其中发展速度是基本的速度分析指标。
二、时间序列的种类
时间序列按统计指标的性质不同, 时间序列按统计指标的性质不同,可分为绝对数 时间序列、 时间序列、相对数时间序列和平均数时间序列三 种。 其中,绝对数时间序列是基本数列, 其中,绝对数时间序列是基本数列,其他两类数 列则是绝对数时间序列的派生数列。 列则是绝对数时间序列的派生数列。
第二节 时间序列水平分析指标
时间序列水平,也就是现象发展水平。 时间序列水平,也就是现象发展水平。 时间序列水平分析指标主要有发展水平、 时间序列水平分析指标主要有发展水平、平均发 展水平、增长量、平均增长量等指标。 展水平、增长量、平均增长量等指标。
一、发展水平
发展水平是时间序列中各个不同时期的统计指标 数值, 数值,以反映现象在各个不同时期发展所达到的 水平,它是计算各种动态分析指标的基础。 水平,它是计算各种动态分析指标的基础。 根据发展水平在时间序列中所处的位置不同, 根据发展水平在时间序列中所处的位置不同,有 最初水平、最末水平、中间水平、 最初水平、最末水平、中间水平、基期水平和报 告期水平之分。在时间序列中, 告期水平之分。在时间序列中,第一个指标数值 叫最初水平,最后一个指标数值叫最末水平, 叫最初水平,最后一个指标数值叫最末水平,其 余各项指标数值叫中间水平。 余各项指标数值叫中间水平。 在对两个时间的发展水平作动态对比时, 在对两个时间的发展水平作动态对比时,作为对 比基础时期的水平称为基期水平, 比基础时期的水平称为基期水平,作为研究时期 的指标水平称为报告期水平。 的指标水平称为报告期水平。
统计学第5章 假设检验
假设检验的基本思想
抽样分布 这个值不像 我们应该得 到的样本均 值 ... ... 如果这是 总体的假设 均值 = 50 H0
... 因此我们 拒绝假设 = 50
20
样本均值
假设检验的过程
提出假设 作出决策 拒绝假设 别无选择!
总体
我认为人口的平 均年龄是50岁
情形下,不可能使两者都很小,降低一个, 往往使另一个增大。 假设检验的指导思想是控制犯第一类 错误的概率不超过, 然后,若有必要,通
过增大样本容量的方法来减少 。
关于原假设与备择假设的选取
H0与H1地位应平等,但在控制犯第一类 错误的概率的原则下,使得采取拒绝 H0 的决策变得较慎重,即H0 得到特别
指定为符号 ≤, =或≥ – 例如, H0 :μ =10cm
–
备择假设
(alternative hypothesis)
1. 研究者想收集证据予以支持的假设 2. 也称“研究假设” 3. 总是有符号 ≠,< 或 > 4. 表示为 H1
–
–
H1 :μ <某一数值,或 μ > 某一数值
例如, H1 :μ < 10cm,或 μ > 10cm
H1 :μ ≠500 H1 :μ <500 H1 :μ >500 H1 :μ ≤500
提出假设
(结论与建议)
(完整版)统计学总复习提纲
(完整版)统计学总复习提纲
统计学复习提纲
第⼀章:绪论
1、
1)统计的含义:
统计⼀词有统计⼯作、统计资料、统计科学三种含义,但最基本的还是统计⼯作。没有统计⼯作就不会有统计资料,没有丰富的统计实践经验就不会产⽣统计科学。
2)统计的研究对象:
统计学的研究对象是统计⼯作的规律,即搜集、整理和分析统计数据的⽅法,是⼀门⽅法论科学。
3)统计的特点:
数量性、具体性、综合性
2、统计学的基本概念
1)总体:
总体是指在某种共性的基础上由许多个别事物结合起来的整体。
总体有三⽅⾯特征:同质性、⼤量性、差异性
总体可分为有限总体和⽆限总体
2)总体单位:
构成总体的个别事物叫总体单位。
总体和总体单位是根据统计研究的⽬的来确定的。
3)标志:
标志是指说明总体单位特征的名称。
标志可分为数量标志(⽤数字回答问题)和品质标志(⽤⽂字回答问题)。
标志还可分为不变标志和可变标志。
不变标志:所有总体单位共同具有的特征。它是构成总体的必要条件和确定总体范围的标准。可变标志:在总体各单位之间必然存在差异的标志。
4)变量:
可变标志中既有品质标志也有数量标志。可变的数量标志就叫变量。
变量的具体数值叫变量值。
凡变量值只能以整数出现的变量,叫离散变量。
凡变量值可作⽆限分割的变量,叫连续变量。
5)指标与指标体系:
指标:说明总体数量特征的概念。
指标体系:以共同的研究⽬的为纽带⽽相互联系的⼀系列统计指标。
6)指标与标志的区别与联系
区别有⼆:第⼀,指标说明总体的特征;⽽标志说明总体单位的特征。
第⼆,指标只反映总体的数量特征,所有指标都要⽤数字来回答;标志则既有反映总体单位的数量特征(⽤数字回答),也有反映总体单位的品质特征(⽤⽂字回答)。
统计学5章
x x
n
n i 1
sn
x x
i
2
n
(二)参数和统计量
修正样本标准差
sn 1
n
x x
n i 1 i
2
n 1
样本方差
2 sn
x x
i 1 i
2
n
修正样本方差
s
2 n 1
x x
n i 1 i
2
n 1
(二)参数和统计量
该抽样方法的特点:
(1)总共可构成 C 个可能的样本个数,每个
n N
样本被抽取的概率都是相同的。
(2)由于是不重复抽样,每抽样一次,总体就 少了一个单位数,因此在 n 次抽样中,每个单位在各 次抽样中被抽取的概率不同,n 次抽样不是相互独立 的 n 次试验。
二、不重复简单随机抽样和抽样分布
在不重复抽样时,样本平均数的抽样分布有数学
成了一个容量为 n 的样本。
一、重复简单随机抽样与抽样分布
该抽样方法的特点: 第一,总共可以构成 Nn 个可能的样本个数,每 个样本被抽取的概率都是相同的;
第二,由于是重复抽样,因此在 n 次抽样中,总
体中每个单位在各次抽样中被抽取的概率都相同,n
次抽样就是 n 次相互独立的试验。
一、重复简单随机抽样与抽样分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章抽样推断
第一节抽样推断的相关基本概念
一、抽样调查
(一)什么是抽样调查抽样调查是按随机原则从总体中选取部分单位进行
观察,用所获得的样本数据推算总体数量特征的一种非全面调查。
(二)抽样调查的特点:
1.按随机原则去抽取调查单位。随机原则也就是机会均等的原则,每个
单位被抽中的机会相等。其目的是保证抽出的样本是随机样本。
2.以样本数据估计总体参数或检验总体的某种假设。抽样调查虽仅是直接调查被抽取的那一部分样本,但其目的是着眼于研究总体的数量特征。
3.抽样误差可以事先计算并加以控制。
(三)抽样调查的适用范围:
1.能够解决全面调查无法或难以解决的问题;
2.对能取得全面资料,但不必进行全面调查的情况。
3.可以补充和订正全面调查的结果;4.可用于对总体的某种假设进行检验,为行动决策提供依据。(四)抽样调查的基本形式
基本形式有简单随机抽样、类型随机抽样、等距抽样、整群抽样。
1.简单随机抽样按随机原则直接从总体中抽选样本单位进行调查。这里,不论是重复抽样还是不重复抽样,每个单位都有相等的中选机会。
2.类型随机抽样(分层抽样)先将总体单位按某一标志分类,然后按随机原则直接从各类中抽取一定的样本单位进行调查。
3.等距抽样(机械抽样或系统抽样)它是先将总体单位按某一标志进行排列,再按照一定的间隔抽取样本单位进行调查。
4.整群抽样(集团抽样)整群抽样是先将总体单位按某一标志进行分群,再按随机原则从各群中抽取部分群,对抽中的群的所有单位进行调查是抽样组织方式。
二、抽样推断的概念及主要内容
(一)抽样推断是在抽样调查的基础上,以样本实际数据计算的样本指标推算总体相应数量特征的一种统计分析方法。
(二)抽样推断的主要内容为:参数估计和假设检验
三、抽样的有关基本概念
(一)全及总体和样本总体
1.全及总体简称总体,又称母体,它是指所要认识的研究对象的全体。也就是具有某种共同性质的许多单位的集合体。
2.样本总体简称样本,又称子样,是从全及总体中抽取,代表全
及总体的那部分单位的集合体。
全及总体是我们所要研究的对象,而样本总体则是我们所要观察和采集数据的对象,两者是有区别。
(二)样本容量和样本个数
1.样本容量是指样本所包含的单位数。
2.样本个数又称样本可能数目,也就是从一个总体中可能抽取的样本个数。
重复抽样时:■冷:;
对于一次抽样调查,全及总体是唯一确定的,而一个全及总体可能抽出很多个样本总体;样本的个数和样本的容量有关,也和抽样的方法有关。
(三)参数和统计量
1.根据全及总体各个单位的标志值或标志属性计算的,反映总体某一数量特征的综合指标称为全及指标,也称为总体参数,简称参数。
2.由样本总体各单位标志值或标志属性计算的,反映样本数量特征,并用以估计全及指标的综合指标称为样本指标,或称为抽样指标、统计量。统计量有:
样本平均数二抽样成数x = p
n
-- 2
样本方差:厂2「X-X
n
p(1-p)二pq
样本标准差:
二' x-x [注
意:
W p(l-P)p:pq
对于一个问题,全及总体是唯一确定的,而一个总体有多少样本;
总体指标值是唯一确定的;而统计量是样本变量的函数,也就是样本统计量就有多种取值
(四)重复抽样和不重复抽样
重复抽样:从有N个单位的总体中,每次随机抽取1个单位,登记其标志
表现后放回,再从总体中重新抽取,一直抽取n次。
不重复抽样:从有N个单位的总体中,每次随机抽取1个单位,登记其标
志表现后不放回,再从总体中重新抽取,一直抽取n次。
第二节抽样误差
一、误差
调查资料的检查是指对资料的准确性、完整性、及时性检查
(一)登记性误差
凡是由于错误判断事实、错误登记事实或错误计算而发生的误差,登记性误差在全面调查与非全面调查中都可能存在。它分为1.偶然
登记性误差;2.系统登记性误差其特点是具有明显的倾向性和一贯性。
(二)代表性误差
在没有登记性误差的条件下,由于用样本指标代表总体指标而产生的误差,它分为:
1.偏差凡是由于违反随机原则抽样而产生的代表性误差,又称
为系统性代表误差、非偶然性代表误差。
2. 抽样误差 是指由于随机抽样的偶然因素,使样本的结构不 足以代表总体
各单位的结构,而引起抽样指标和总体指标之间的误 差,也称为随机误差、偶然性代表误差。
抽样误差既不包括登记误差,也不包括系统性代表误差。
影响抽样误差的因素有:总体各单位标志值的差异程度;样本的 单位数;抽样的方法;抽样调查的组织形式。
二、抽样平均误差。
抽样平均误差是反映抽样误差一般水平的指标,它反映了抽样指 标与总体指标的平均离差程度,即样本指标与总体指标的标准差 常用抽样平均数的标准差来衡量
抽样平均误差的作用首先表现在它能够说明样本指标代表性的大 小。平均误差大,说明样本指标对总体指标的代表性低;反之,则说 明代表性高。
抽样平均数的平均数二总体平均数。 抽样平均误差的计算: (一)简单随机抽样条件下:
-- 2
1、 重复抽样:匚亠
V n J n
当N 很大且很小时,.-二
N
麻
其中,。为总体标准差,n 为样本单位数,在总体标准差未知, 用样本标准差s ;=国E 亘代替但如果是大样本时,可以用样本
\ n _1
标准差s -、(x_x )代替S ;。
卩-"-刃 2 X _, M X 为第i 个样本的平均数;
X 为总体平均数;
M 为样本个数
a (P -P)2
M
Pi 为第i 个样本的成数 P 为总体成数; M 为样本个数