统计学第五章
统计学第五章(变异指标)
峰态及其度量
峰态定义
峰态是指数据分布的尖峭程度或扁平程度。在统计学中,峰态通常通过峰态系数 来度量。
峰态系数
峰态系数是描述数据分布峰态程度的一个统计量,通常表示为K。当K=3时,分 布呈正态分布,峰度适中;当K>3时,分布呈尖峰分布,即比正态分布更尖峭; 当K<3时,分布呈平峰分布,即比正态分布更扁平。
方差
要点一
定义
方差是在概率论和统计方差衡量随机 变量或一组数据时离散程度的度量, 用来度量随机变量和其数学期望(即 均值)之间的偏离程度。
要点二
计算公式
方差s^2=[(x1-x)^2+(x2x)^2+......(xn-x)^2]/n(x为平均数)。
要点三
性质
方差越大,说明随机变量取值越离散; 方差刻画了随机变量的取值对于其数学 期望的离散程度;若X的取值比较集 中,则方差D(X)较小,若X的取值比较 分散,则方差D(X)较大;因此,D (X)是刻画X取值分散程度的一个 量,它是衡量取值分散程度的一个尺 度。
变异系数的计算
01
注意事项
02
当数据集包含极端值时,变异系数可能会受到影响。
03
对于非正态分布的数据,变异系数的解释需谨慎。
变异系数的应用
比较不同数据集的离散程度
通过比较不同数据集的变异系数,可以评估它们 的相对波动程度。
在质量控制中的应用
通过计算产品质量的变异系数,计学第五章变异指
目
CONTENCT
录
• 变异指标概述 • 变异系数 • 极差、四分位差与平均差 • 标准差与方差 • 偏态与峰态的度量 • 变异指标在统计分析中的应用
01
变异指标概述
统计学原理第五章
第五章综合指标学习要点:了解各种指标的概念及作用,掌握相对指标、平均指标的特点及计算方法,变异指标的计算方法。
§1、总量指标§2、相对指标§3、平均指标§4、变异指标学习知识点:前言:1、总量指标是反映社会经济现象发展的总规模、总水平的综合指标。
将总体单位数相加或总体单位标志值相加,就可以得到说明在一定时间、空间条件下某种现象总体的总规模、总水平的指标,即总量指标。
如:2010年年年末为1339724852亿,反映是我国人口的总规模。
总量指标的作用:第一、总量指标可以用来反映一个国家的基本国情国力,反映一个地区、一个部门或一个单位的人力、物力和财力,是人们对客观事物认识的起点。
第二、总量指标可以用来作为制定政策、制定计划和实行科学管理的基本依据,也是检查政策、计划执行情况,反映社会经济活动绝对效果的重要指标。
第三、总量指标可以用来研究客观现象的数量表现及其发展的变化趋势。
第四、总量指标是计算相对指标和平均指标的基础。
一、总量指标的种类:1、按其反映现象总体内容的不同:• 总体单位总量(简称单位总量):指总体内所有单位的总数,表示总体本身规模的大小。
对于一个确定的统计总体,其总体单位总量是唯一确定的。
• 总体标志总量(简称标志总量):指总体中各单位标志值总和。
对于确定的统计总体,标志总量不是唯一的,而是随着标志的不同可计算不同的标志。
• 例:我们研究某市三级医院的基本情况,则全市三级医院的总数量是总体单位总量,而全部三级医院职工总人数、全部三级医院职工工资总额等就是总体指标总量。
2、按反映时间状况的不同,可分为时期指标和时点指标。
• 时期指标指反映某社会经济现象在一段时间活动结果的总量指标,它反映的是一段时间连续发生变化过程。
如产品总量、货物运输量、商品销售量、国内生产总量等。
• 时点指标是反映社会经济现象在某一时间(瞬间)状况上的总量指标。
如人口数、职工数、设备台数等。
第五章概率与概率分布
P( A)
事件A发生的次数m 重复试验次数n
m n
英语字母出现频率
space 0.2 ; I 0.055 ; C 0.023 ; G 0.011 ; Q 0.001 ; E R U B Z 0.105 ; T 0.072 ; 0.054 ; S 0.052 ; 0.0225 ; M 0.021 ; 0.0105 ; V 0.008 ; 0.001 O H P K 0.0654 ; 0.047 ; 0.0175 ; 0.003 ; A D Y X 0.063 ; 0.035 ; 0.012 ; 0.002 ; N 0.059 L 0.029 W 0.012 J 0.001
一、概率(Probability)的定义
概率:0-1之间的数,衡量事件A发生可能 性(机会)的数值度量。记P(A) •Probability: A value between 0 and 1, inclusive, describing the relative possibility (chance or likelihood) an event will occur.
P ( A) A包 含 的 可 能 结 果 (偶 数 ) 全部可能结果 3 6
实际与理论分析不符时,实际中可能作弊。
如:河北银行人员为买奖券,盗2000万并没中大奖。
西安彩票中心人员中奖率极高,结果是作弊。
例:已知有148名学生统计表
专业
性别
男 女
金融学院 工商学院 经济学院 会计学院 15 15 22 14 30 12 25 15
摘自:概率论与数理统计简明教程1988》李贤平 卞国瑞 立鹏,高等教育出版社
吴
大量统计的结果,用于破解密码
美国正常人血型分布
统计学 第五章
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
统计学教程 第五章
经济、管理类 基础课程
统计学
样本相关系数的计算公式
r
( x x )( y y ) (x x ) ( y y)
2
2
或化简为 r
10 - 13
n xy x y n x x n y y
2 2 2 2
10 - 4
经济、管理类 基础课程
变量间的关系
统计学 (相关关系correlation relationship)
1. 变量间关系不能用函数关 y 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时,变 量 y 的取值可能有几个 4. 各观测点分布在直线周围 x
10 - 5
经济、管理类 基础课程
变量间的关系
统计学 (相关关系correlation relationship)
相关关系的例子
居民消费支出(y)与收入(x)之间的关系
商品销售额(y)与广告费支出(x)之间的关系
粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系 子女身高 (y)与父母身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系
估计标准误差越小,回归模型拟合的越好。但 是作为判断和评价标准,估计标准完成不如判定 系数。
10 - 32
【例】根据上例中的数据,配合人均消费 金额对人均国民收入的回归方程 统计学
时间
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 10 - 33
b0 和 b1 称为模型的参数
经济、管理类 基础课程
统计学
s n
还可以进一步推断相应总量指标的区间范围。 还可以进一步推断相应总量指标的区间范围。
2、总体比率的区间估计 、
由定理知:在大样本下, 由定理知:在大样本下,样本比率的分 1 布趋近于 N ( P, P(1 − P)) n 给定置信度 1 − α ,查正态表的 Zα , 2 样本比例的抽样极限误差为
2 2 2 2
~ F (n1 − 1, n2 − 1)
得方差比 σ 12 / σ 22 的置信度为1 − α 的置信区间为
1 s12 s12 ( 2 , 2 s2 Fα ( n1 − 1, n2 − 1) s2 F
2 1−
1 ) α ( n1 − 1, n2 − 1)
2
例题:见书 页例11 例题:见书150页例 页例 练习:研究由机器A和机器 生产的钢管的内径, 和机器B生产的钢管的内径 练习:研究由机器 和机器 生产的钢管的内径, 随机抽取A生产的管子 生产的管子18只 测得样本方差0.34 随机抽取 生产的管子 只,测得样本方差 平方毫米,抽取B生产的管子 生产的管子13只 平方毫米,抽取B生产的管子13只,测得样本 方差0.29平方毫米。设两样本相互独立,且设 平方毫米。 方差 平方毫米 设两样本相互独立, 由A、B生产的管子内径分别服从正态分布 、 生产的管子内径分别服从正态分布 2 2 N ( µ1 ,σ 1 ), N ( µ 2 ,σ 2 ) µ i ,σ i 均未知。 均未知。 这里的 试求方差比的置信度为0.90的置信区间。 的置信区间。 试求方差比的置信度为 的置信区间
s 小样本) n (小样本)
综述: 综述:总体均值的置信度为 1 − α 的置信区间 表示为: 表示为:x − ∆ x ≤ µ ≤ x + ∆ x 其中: 其中: σ s ∆ ≈ Zα 大样本下: 大样本下: x = Z α σ ( x) = Z α
统计学基础第五章时间数列
statistics
统计学——第五章时间数列
解:根据上面计算资料再计算第三季度的月平均库存额为:
an-1 an a1 a2 a2 a3 … 2 2 a 2 n 1 an a1 a2 an-1 2 2 n 1
700 900 900 1000 2 2 4 1
均衡的期末登记排列。通常将前者称为间隔相等的间断 时点数列,后者称为间断不等的间断时点数列。
statistics
统计学——第五章时间数列
间隔相等的间断时点数列的平均发展水平的计算公式:
an1 an a1 a2 a2 a3 2 2 a 2 n 1 an a1 a2 an-1 2 2 n 1
statistics
统计学——第五章时间数列
(3)分子、分母由一个时期数列和一个时点数列对比组成 相对数时间数列。
a a 1 a 2 a n 1 a n c b0 bn b1 b n 1 b 2 2
(分子为时期数列,分母为时点数列) a0 an a 1 a 2 a n 1 a 2 或 2 c b1 b n 1 b n
可见,该商场2006年的第三、第四季度的月平均销售 额大于第一、第三季度的月平均销售额。 statistics
统计学——第五章时间数列
2.依据时点数列计算序时平均数
连续时点数列 时点数列 间断时点数列 间隔不等的间断时点数列 间隔相等的间断时点数列
statistics
统计学——第五章时间数列
(1)连续时点数列的序时平均数。
5-4所示,试求第一季度的平均完成率。 表5-4 某厂某年第一季度各月商品销售额 计划完成情况统计表 目 1月 200 210 105 2月 240 260 105 3月 250 280 112 statistics
《统计学》第5章 假设检验
假设不成立时,即拒绝原假设时备以选择的假设,通常用H1 表示。备择
假设和原假设互斥,如在例5.1中,原假设是“2022 年全国城市平均
PM2.5 浓度与2018 年相比没有显著差异”,那么备择假设就是“2022
年全国城市平均PM2.5 浓度与2018 年相比存在显著差异”。相应的统计
小越好。但是,在一定的样本容量下,减少犯第I类错误的概率,就会
使犯第II类错误的概率增大;减少犯第II类错误的概率,会使犯第I类
错误的概率增大。增加样本容量可以使犯第I类错误的概率和犯第II类
错误的概率同时减小,然而现实中资源总是有限的,样本量不可能没有
限制。因此,在给定的样本容量下,必须考虑两类可能的错误之间的权
易被否定,若检验结果否定了原假设,则说明否定的理由是充分的。
第四章 参数估计
《统计学》
16
5.1 假设检验的基本原理
(四) P值法
假设检验的另一种常用方法是利用P值(P-value) 来确定检验决策。P值
指在原假设0 为真时,得到等于样本观测结果或更极端结果的检验统计
量的概率,也被称为实测显著性水平。P值法的决策规则为:如果P值大
1.96) 中。这里−1.96和1.96 称为临界值,区间(−1.96, 1.96) 两侧的
区域则被称为拒绝域。基于样本信息,可以计算得到相应的z检验统计量
值,已知ҧ = 46,0 = 53, = 14 , n = 100 = −5
14/10
第四章 参数估计
《统计学》
14
5.1 假设检验的基本原理
犯第I 类(弃真) 错误的概率 也称为显著性水平(Significance level),
统计学第5章抽样推断
任 何 抽 样 误 差 因 素 。 即 用 x直 接 代 表 X , 用 p 直 接 代 表 P。
例 在 全 部 产 品 中 , 抽 取 100件 进 行 仔 细 检 查 , 得 到 平 均 重 量 x1002克 , 合 格 率 p98% , 我 们 直 接 推 断 全 部 产 品 的 平 均 重 量 X 1002克 , 合 格 率 P 98% 。
(1)
2
n
(1 )
12 2 (1
100
) 1.19 (千克 )
x
n
N
100 10000
(2) 若以概率 95.45%(t 2)保证,该农场 10000 亩小麦的平均
亩产量的可能范围为:
X : x 400 2 1.19 x
X (: 397 .62 ,402.38 ) (3) 若以概率 99.73%(t 3)保证,该农场 10000 亩小麦的平均
在重复抽样情况下:
p (1 p )
p
n
在不重复抽样情况下:
p (1 p ) n
(1 )
p
n
N
例
某玻璃器皿厂某日生产15000只印花玻璃 杯,现按重复抽样方式从中抽取150只进行 质量检验,结果有147只合格,其余3只为不 合格品,试求这批印花玻璃杯合格率(成数) 的抽样平均误差。
N15000n150
二、区间估计
根据样本指标和抽样误差去推断全及 指标的可能范围,它能说清楚估计的准 确程度和把握程度。
总体平均数和总体成数的估计
X :(x x, x x)
1的概率保证下:x tx
P:(pp, pp)
1的概率保证下: p tp
统计学 第五章 动态数列
例
某商业企业2010年第二季度某商品库存 资料如下,求第二季度的月平均库存额
时间 3月末 4月末 5月末 6月末
库存量(百件)
66
72
64
68
解:第二季度的月平均库存额为:
66 68 72 64 2 2 67.67百件 a 4 1
※间隔不相等 时,采用加权序时平均法
一季 度初 二季 度初
af 解:a f
780 9 784 6 786 7 783 9 783(人) 9679
②由间断时点数列计算
一季 度初 二季 度初 三季 度初
不是逐日记录,而 是每隔一段时间登 记一次,表现为期 初或期末值
四季 度初 次年一 季度初
※间隔相等 时,采用首末折半法
时期数列
时期数列特点:
数列中各个指标数值是可加的; 数列中每个指标数值的大小随 着时期的长短而变动; 数列中每个指标数值通常通过连 续不断的登记而取得。
时点数列
在绝对数动态数列中,如果 各项指标都是反映某种现象在某 一时点上(瞬间)所处的数量水 平,这种绝对数动态数列就称为 时点数列。 如 表 4-1 中 所 列 的 我 国 20022008年全国人口年末数。
增速 3.8 9.2 14.2 13.5 12.6 10.5 9.6 8.8 7.8 7.1 8.0
例
某市职工2006-2010年年平均工资 单位:元
年份 年平均工资
2006 10663
2007 11425
2008 12059
2009 14147
2010 15420
三、动态数列的编制原则
时期长短应该统一 总体范围应该一致
⑵ a、b均为时点数列时
统计学第5章 假设检验
假设检验
第 5 章
假设检验
• 5.1 假设检验的基本问题 • 5.2 一个总体参数的检验 • 5.3 两个总体参数的检验(自学)
5.1
假设检验的基本原理
一、假设的陈述 二、两类错误与显著性水平 三、统计量与拒绝域 四、利用P值进行决策
假设检验的基本概念
在实际工作中常会遇到这样的问题: (1)某药物在改进工艺后的疗效是否有提高? (2)假定总体服从某种分布是否成立? 如何通过抽检的样本对上述问题做出判断? 此时常常作出适当的假设,然后进行试验或 观测,得到统计样本,构造统计方法进行判断,以 决定是否接受这个假设。
1. 基本原理
小概率推断原理: 0 α 0.05 小概率事件 (概率接近0的事件),在一次试验中,实际上可认为 不会发生(这是人们长期积累起的普遍经验!).
2. 基本思想方法
采用概率性质的反证法: 先提出假设H0 , 再根 据一次抽样所得到的样本值进行计算. 若导致小 概率事件发生,则否认假设H0 ;否则,接受假设H0 . 下面结合实例来说明假设检验的基本思想.
H0 :π ≤30%
H1 :π >30%
提出假设 (练习)
• 某厂生产的化纤的纤度服从正态分布,纤 维纤度的标准均值为1.04。某天测得25根 纤维的纤度均值为x=1.39,检验与原来设 计的标准均值相比是否有所变化,要求的 显著性水平为α =0.05,则假设形式为: •
H0 :μ =1.04
H1 :μ ≠1.04
假设检验的基本思想
抽样分布 这个值不像 我们应该得 到的样本均 值 ... ... 如果这是 总体的假设 均值 = 50 H0
... 因此我们 拒绝假设 = 50
20
统计学第五章 概率与概率分布
全概公式
(实例)
【例】某车间用甲、乙、丙三台机床进行生产,各种机床的 次品率分别为5%、4%、2%,它们各自的产品分别占总产量 的 25% 、 35% 、 40% ,将它们的产品组合在一起,求任取一 个是次品的概率。 解:设 A1表示“产品来自甲台机床”, A2表示“产品来自 乙台机床”, A3表示“产品来自丙台机床”, B表示“取到 次品”。根据全概公式有
全概公式
设事件A1,A2,…,An 两两互斥, A1+A2+…+ An=(满足这两个条件的事件组称为一个完备事 件组),且P(Ai)>0(i=1,2, …,n),则对任意事件B, 有 n
P( B) p( Ai ) P( B | Ai )
i 1
我们把事件A1,A2,…,An 看作是引起事件B发 生的所有可能原因,事件B 能且只能在原有A1, A2,…,An 之一发生的条件下发生,求事件B 的 概率就是上面的全概公式
概率的古典定义
(实例)
【例】某钢铁公司所属三个工厂的职工人数如下表。
从 该公司中随机抽取1人,问: (1)该职工为男性的概率 (2)该职工为炼钢厂职工的概率 某钢铁公司所属企业职工人数
工厂 炼钢厂 炼铁厂 轧钢厂 合计 男职工 4000 3200 900 8500 女职工 1800 1600 600 4000 合计 6200 4800 1500 12500
概率的性质与运算法则
随机事件的几个基本概念
试
1. 2. 3.
验
在相同条件下,对事物或现象所进行的观察
例如:掷一枚骰子,观察其出现的点数 试验具有以下特点
可以在相同的条件下重复进行 每次试验的可能结果可能不止一个,但试验的所 有可能结果在试验之前是确切知道的 在试验结束之前,不能确定该次试验的确切结果
《统计学原理》第5章:抽样推断
n
抽样推断的基本原理
统计推断的理论基础—样本的概率分布
按一定方法随机抽取样本时,所有可能样本的 特征值及其所对应的概率分布情况
学生 A B C D E F G 成绩 30 40 50 60 70 80 90
按随机原则考虑顺序重复抽样抽选出4名学生。
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示.
考虑顺序的不重复抽样 考虑顺序的重复抽样
M N! (N n)!
M Nn
不考虑顺序的不重复抽样 不考虑顺序的重复抽样
M N! n!(N n)!
全及指标与样本指标
•根据全及总体中各单位的标志值或标志属性计算得 来,反映总体某种特征的指标 •根据样本总体中各单位的标志值或标志属性计算得 来的综合指标.
抽样推断的一般问题
抽样方法
•重复抽样和不重复抽样
•考虑顺序的抽样和不考虑顺序的抽样
抽样推断的一般问题
抽样方法—重复抽样
从总体N个单位中随机抽取一个容量为n的样本,每 次抽取一个单位,把结果登记后再放回到总体中,重新 参加下一次的抽取.
抽出个体
登记特征
放回总体
继续抽取
抽样推断的一般问题
抽样方法—不重复抽样
从总体N个单位中随机抽取一个容量为n的样本, 每次抽取一个单位,把结果登记后不再放回到 总体参加下一次的抽取.
抽出 个体
登记 特征
继续 抽取
抽样推断的一般问题
抽样方法—考虑顺序的抽样
从总体N个单位中抽取n个单位构成样本,不但考虑样本 各单位成分的不同,而且还要考虑样本各单位的中选顺 序.
统计学5章
有数学期望值 E ( x ) = a a 代表全及总体平均数) (
设总体变量有 N 个:X1,X2,… , XN,则
样本容量为 n:x1 , x2 , … , xn , 则:
X1 X 2 X N X= N
x1 x2 xn x = n
∵ ∴ =
2 x
x1, x2,…, xn相互独立
1 n2 E x1 X
2
E x2 X
2
E xn X
2
2
E ( xi X )( x j X ) i j
=
1 n2 1 n2
E ( x X )2 E x X 1 2 E X X
对于属性总体来说则有如下对应样本指标: 设样本总体 n 个单位中有 n1 个单位具有某种属性, n0 个单位不具有某种属性,且n1 +n0 = n 。则:
n1 p n n0 n n1 q 1 p n n
样本标准差
s
p1 p
(二)参数和统计量
(三)样本容量与样本个数
样本容量是指一个样本所包含的单位数,用 n 来 表示。一般地讲,样本单位数达到或超过30个的样本 称为大样本,而在30个以下称为小样本。 样本个数又称样本可能数目,是指从全及总体中
二、抽样推断的几个基本概念
抽样推断的几个基本概念(见图5-1)。
图5-1 抽样推断的几个基本概念
(一) 总体和样本
在抽样推断中面临两个不同的总体,即 全及总体和样本总体(见图5-2)。
图5-2 全及总体和样本总体关系示意
(一) 总体和样本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2-分布
(性质和特点)
• 1. 期望为:E(2)=n,
•
方差为:D(2)=2n(n为自由度)
• 2. 可加性:
•
若U和V为两个独立的2分布随机变量,
U~2(n1),V~2(n2),则U+V这一随机变量服从 自由度为n1+n2的2分布
• 3. 当 n 时, 2分布的极限分布是正态
分布
不同自由度的2-分布
(central limit theorem)
从均值为,方差为 2的一个任意总体中抽取容量
为n的样本,当n充分大时,样本均值的抽样分布近 似服从均值为μ、方差为σ2/n的正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
x
中心极限定理
(2)系统抽样的评价 ——操作上简便易行 ——如果总体是按有关标志进行排列的话,可以提 高样本的代表性,改进抽样精度 ——对估计量方差的估计比较困难
4、整群抽样(cluster random sampling) (1)整群抽样的概念
整群抽样是指将总体分成群,从中随机抽取 若干群,群中的所有单位构成样本
E(x)
2 x
2
n
样本比例的分布
(proportion)
1. 总体(或样本)中具有某种属性的单位与全部单位 总数之比
– 不同性别的人与全部人数之比
– 合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为
N0 或 1 N1
N
N
3. 样本比例可表示为
4.
p n0 或 1 p n1
2. 一种理论概率分布
3. 推断总体均值的理论基础
样本均值的分布
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 体的均值、方差及分布如下
总体分布
.3
.2
.1 0
1
234
均值和方差
N
xi
i1 2.5
N
N
本章重点
几个重要的分布 样本均值、比例的抽样分布 抽样平均误差和抽样极限误差 总体均值和比例的点估计和区间估计
必要抽要数目
第一节 统计量
一、统计量的概念和常用统计量 二、次序统计量和充分统计量
一、统计量的概念和常用统计量
设X1,X2,X3,...,Xn是从总体X中抽取的容量为n 的一个样本,如果由此样本构造一个函数T(X1,X2 ,X3,...,Xn),不依赖于任何未知参数,则称函数 T(X1,X2,X3,...,Xn)是一个统计量。
n=1 n=4
n=10
n=20
2
二、 t-分布
(t-distribution)
1. 提出者是William Gosset,也被称为学生分布(student’s t)
2. t 分布是类似正态分布的一种对称分布,通常要比正态分布 平坦和分散。一个特定的分布依赖于称之为自由度的参数。 随着自由度的增大,分布也逐渐趋于正态分布
样本均值和样本方差都是常用的统计量
二、次序统计量和充分统计量
• 1. 次序统计量-参数估计和假设检验的重 要统计量(中位数、分位数)
• 2. 充分统计量-不损失任何信息的统计量
二、由正态分布导出的几个重要分布
一、 2 分布
二、 t 分布 三、 F 分布
正态分布
(Normal distribution)
(central limit theorem)
x 的分布趋 于正态分布 的过程
抽样分布与总体分布的关系
总体分布
正态分布
样本均值 正态分布
非正态分布
大样本
小样本
样本均值 正态分布
样本均值 非正态分布
样本均值的分布
(数学期望与方差)
1. 样本均值的分布
x
~
N
, 2
n
x ~ N (0,1) n
2. 样本均值的期望值和方差
——不重复抽样(without replacement): 又称不放回抽样,指从总体中抽取一单位观察后不 放回,该单位在下一次抽取中不再可能被抽中
重复抽样在理论上更简单,因为重复抽样意味着每次 抽样之前面对着同样的总体;不重复抽样有更强的实践 意义,因为相对于重复抽样来说不重复抽样的误差往往 更小,这是由于不重复抽样不会重复地抽取同一单位也 就不会有重复的信息;当总体容量N很大时,即使采取 重复抽样同一单位被重复抽到的机会几乎没有,这时候 重复抽样和不重复抽样就没有什么区别。
•4 •2.5 •3.0 •3.5 •4.0
P(x) 0.3
0.2
0.1
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本均值的抽样分布
样本均值的分布与总体分布的比较
总体分布
0.3 P(x)
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
x 的取值
= 2.5
σ2 =1.25
样本均值分布
x x n
s2 x x2
n 1
p
s 2 p p1 p
3、总体容量和样本容量
✓ 总体容量:指总体单位数。用N表示
✓ 样本容量:指样本单位数。用n表示
✓ 抽样比:样本容量占总体容量的比例。用f表示如果
总体为无限总体(总体容量无限或很大),没有意义。
【注意】一般而言,样本容量远小于总体容量,在抽样 推断中,样本容量大于30的样本为大样本。
(2)评价
简单随机抽样采取直接抽样的方法,没有对总体进 行分类再抽样,存在两方面问题
——在抽样的具体操作存在很多不方便
——先分类再抽样可以提高样本的代表性,使抽样精度 提高
2、分层抽样(stratified random sampling) (1)分层抽样概念
分层抽样是指将总体分成若干层,在各层中 分别按照一定的比例随机抽取单位构成样本
本
例如:样本均
值、比例、方
差
抽样推断的概念和特点
1、抽样推断的概念
抽样推断是从总体中按随机原则抽取样本进行观测, 并用样本指标对总体指标作出具有一定可靠程度的 估计判断。
2、抽样推断的特点
——是由部分推算整体的一种认识方法 ——抽样推断是建立在随机取样的基础上 ——抽样推断的误差可以事先计算并加以控制
抽样推断的相关概念 1、总体和样本
✓ 总体:研究对象的全体
✓ 样本:样本是从总体中抽取的一部分个体的集合 (总体的子集)
✓ 样本容量(Sample size):样本中所含个体的数量
对于一次抽样调查,总体是唯一确定的,但是 样本是不确定的,一个总体可能抽出很多个样本总 体,样本的个数主要与总体容量和样本容量有关。
(xi )2
2 i1
1.25
N
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为
•所有可能的n = 2 的样本(共16个)
•第一个
•第二个观察值
•观察值
•1
•2
•3
•4
•1
•1,1
•1,2
•1,3
•1,4
•2
•2,1
•2,2
•2,3
•2,4
•3
• 1. 描述连续型随机变量的最重要的分布 • 2. 经典统计推断的基础
f (x)
x
和 对正态曲线的影响
f(x) B
A
C
x
一、 2-分布
(2-distribution)
1. 由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特
(Hermert) 和 卡 ·皮 尔 逊 (K·Pearson) 分 别 于 1875 年 和
n
n
样本比例的分布
1. 在重复选取容量为n的样本时,由样本比 例的所有可能取值形成的相对频数分布
2. 一种理论概率分布
3. 当样本容量很大时,样本比例的抽样分布 可用正态分布近似,即
4.
p ~ N , (1 )
n
第三节 抽样推断概述
一、抽样推断的概念 二、抽样方法
抽样推断的过程
总体
样
样本统计量
总体、样本关系
随机或非随机抽取
总体
样本
2、参数和统计量
✓ 总体指标:指根据总体各个单位的变量值计算的,反映总体特征 的指标。
✓ 在抽样推断中,由于总体是唯一确定的,所以总体指标也是唯一 确定的,但是又是未可知的,因此称之为参数(parameters)。
✓ 样本指标:指根据样本各单位变量值计算出来反映样本特征的指 标
1900年推导出来
2. 设 X ~ N(, 2 ) ,则
z X ~ N(0,1)
3. 令 Y z 2,则 y 服从自由度为1的2分布,即 Y ~ 2(1)
4. 对于n个正态随机变量y1 ,y2 ,yn,则随机变量
n
• 2 yi2 称为具有n个自由度的2分布,记为 ~ 2(n) i 1
抽样方法
1、简单随机抽样(simple random sampling) (1)简单随机抽样概念
简单随机抽样是指对总体不进行任何分类, 直接从中随机抽取部分单位构成样本的一种抽样方 法,是一种最简单、最基础的抽样方法。根据总体 单位能否被重复抽到,简单随机抽样可分为重复抽 样和不重复抽样
——重复抽样(replacement):又称放回抽 样,指从总体中抽取一单位观察后又放回,该单位 在下一次抽取中还有可能被抽中
x 2.5
2 x
0.625