应用统计学:经济与管理中的数据分析9
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.49
3.24 1.21 16.00 2.56 0.25 1.96 0.25 0.49 0.64 —
0.0860
0.2746 0.0676 0.7619 0.1376 0.0200 0.3063 0.1000 0.7000 3.2000 5.9255
解:
①建立原假设与备择假设 H0:男青年身高分布服从N( , 2); H1:男青年身高分布不服从N( , 2); ②因为总体参数 、2均未知,须以样本平均数 x 和样本 s 2 56.7 方差s2作为它们的估计量。易算得 x 170.28 , ③若H0成立,则总体分布在各组区间上的概率P1可以通过 下面的过程求得:
表9-1 200名顾客购买偏好的观察频数 观察频数 A工厂的 B工厂的 C工厂的 产品 产品 产品 48 98 54 ③ 现在进行拟合优度检验,计算200名顾客的购 买偏好的期望,结果如表9-2所示 期望频数 A工厂的 B工厂的产 C工厂的 产品 品 产品 0.30=60 0.50=100 0.20=40
144 4 196 —
2.40 0.04 4.90 7.34
⑤ 2检验统在显著性水平α=0.05 下,查2分布表,自由度为 k-1=3-1=2,相应的20.05 =5.99,有2=7.44> 2 α 所以拒绝H0,认为C工厂引进的新产品将改变当前市场份额
二、泊松分布拟合优度检验
泊松分布拟合优度检验:这里我们在假定总体分 布服从泊松分布的情况下,阐述利用 统计量来进 行拟合优度检验。注意,泊松分布只有一个参数, 如果参数未知,则需要事先通过收集的样本资料 对其进行估计。
P1 P(148 ≤ X ≤ 152) 152 170.28 148 170.28 P ≤z≤ 7.53 7.53 P(2.96 ≤ z 2.43) 0.449 0.493 0.006
④同理,可以求得P2=0.021, P3=0.057, P4=0.018, P5=0.179, P6=0.21, P7=0.186, P8=0.125, P9=0.064, P10=0.025, P11=0.007, P12=0.002
另一方面,对于已知的分布函数F*(x),对应与下 列的每一个区间(-∞, a1),(a1 , a2) „ ,(ak-1 , +∞)都会 有一定的分布特性,我们也可记
* P p ( x a ) F (a1 ) 1 1 * * P p ( a ≤ x a ) F ( a ) F (a1 ) 2 1 3 2 P p (a ≤ x a ) F * (a ) F * (a ),(i 2,3, i 1 i i i 1 i * P p ( a ≤ x ) 1 F (ak 1 ) k 1 k
例9-2 某从1500—1931年的432年间,每年爆发战 争的次数可以看作一个随机变量,椐统计,这432年 间共爆发了299次战争,具体数据如表9-4所示,其 中X表示战争次数,N表示发生X次战争的年数。 表9-4 每年爆发战争次数
X 0 1 N 223 142
2 3 4
48 15 4
下面我们来检验每年爆发战 争次数的分布是否是泊松分 布:
2 2 0 e e
下面结合几个具体的分布例子着重讲解几个典型 的拟合优度检验
一、多项总体拟合优度检验
多项总体:总体中的每个个体被分配到几个类别中 的一个,且仅被分配到一个类别中。多项总体分布 是二项分布的推广 按照上面用 检验进行拟合优度检验的一般原理, 多项总体拟合优度检验步骤如下: (1) 建立零假设和对立假设 H0:总体服从其中所有k类中每类都有指定的概率的 多项概率分布。 H1:总体不服从其中所有k类中每检验统计量的计算过程如表9-3所示
表9-3 检验统计量的计算过程 类 别
A工厂 B工厂 C工厂 总计
假设比例
0.30 0.50 0.20 1.00
fi
ei
( fi ei )
( fi ei )2
( fi ei )2 / ei
48 98 54 200
60 100 40 200
-12 -2 14 —
例9-1 设有三家生产相同产品的工厂,在过去的 一年中,A工厂的市场份额稳定于30%,B工厂为 50%,C工厂为20%。为了提高市场份额,C工厂新 开发了一种改良产品并且已经投入市场。C工厂希 望判断新产品是否使市场份额发生了改变。 解: 由本例中待检验总体是一个多项总体,每个顾客 按照他购买哪个工厂生产的产品来分类。记pi为 工厂i所占的市场份额 ①假定C工厂的新产品不会改变市场份额,建立如 下零假设和对立=假设
第九章
• • • • •
非参数统计初步
卡方检验 单个总体的位置检验:符号检验 两个总体的比较 多个总体的比较 其他非参数统计方法
§9.1 卡方检验
• • • • 卡方检验 泊松分布拟合优度检验 正态分布拟合优度检验 列联表独立性检验
拟合优度检验是2检验的应用,可以用它来检验 样本内每一类别的实际观察数目与某种条件下的 理论期望数目是否有显著差异,可用于分布的检 验、独立性检验等。 2检验能够检验观察到的频率分布是否服从于某 种理论上的分布,或者说检验某一实际的随机变 量与某一理论分布之间的差异是否显著。若被检 验总体的真实的分布函数为F(x),但它是未知的。 现在根据这一总体中所随机抽取的一组样本来检 验总体是否与某种已知的理论分布F*(x)相一致。
四、列联表独立性检验
列联表独立性检验: 列联表是关于两个或两个以
上变量进行交叉分类的频数分布表。 2检验还可 以用来检验列联表两变量间的独立性。此时,零 假设一般设为两个变量之间相互独立。并且独立 性检验一般都采用表格的形式来显示观察结果, 所以独立性检验也称为列联表分析
(2)选择随机样本,记录每个种类的观察频数 fi (3) 以“原假设为真”导出一组期望频数ei (4) 用观察频数和期望频数构造检验统计量
( fi ei ) 2 ei i 1
2 k
(5)当原假设成立且所有种类的期望频数均大于 或等于5时,则检验统计量服从自由度为k-1的2 分布 (6)判断法则:如果2 > α 2 ,则拒绝H0;如果2 < α 2 ,则不能拒绝H0
分组距离/cm
148~152 152~156 1 2 0.006 0.021 0.6 2.1 0.4 -0.1 0.16 0.01 0.2667 0.0048
156~160
160~164 164~168 168~172 172~176 176~180 180~184 184~188 188~192 192~196 合计
( f 0 f e )2 5.93 ⑤检验统计量 f e
2
,例中共12组数据, 根据样本的频数分布资料拟合总体的正态分布时, 在单位总数、均值、标准差方面存在着三个固定 关系,即受到三个条件的约束,故损失了三个自 由度,因此自由度n-k=12-3=9,查2分布表得临 2 5.93 界值 。故接受原假设,即不能否 0.05 (9) 16.919 定样本资料来自正态总体。 可仿照上述二项分布、泊松分布及正态分布的方 法进行其他分布的拟合优度检验。另外,具体检 验时分组不同,拟合的结果可能不同。检验时需 要足够的样本容量才能保证检验的效果
(4) 计算检验统计量:
( fi npi )2 npi i 1
2 k
(5) 拒绝法则:如果2 < 2α (k-3) ,则拒绝H0;如果 2 > 2α (k-3) ,则不能拒绝H0。其中,α为显著性水平, 自由度为 k-3
例9-3试对表9-6所给男青年身高分布的数据作正态 拟合检验,取α =0.05,表9-6 检验统计量的计算过程
5
10 19 25 17 12 5 3 0 1 100
0.057
0.118 0.179 0.210 0.186 0.125 0.064 0.025 0.007 0.002 1.000
5.7
11.8 17.9 21.0 18.6 12.5 6.4 2.5 0.7 0.2 100.0
-0.7
-1.8 1.1 4.0 -1.6 -0.5 -1.4 0.5 -0.7 0.8 —
三、正态分布拟合优度检验
正态分布拟合优度检验:正态分布是连续型分布, 其拟合优度检验的步骤与前面介绍的多项分布与 泊松分布的拟合优度检验步骤类似,只不过必须 要对观察资料进行区间式分组,然后确定每组的 期望频数和观测频数
其基本步骤如下 : (1) 建立零假设和备择假设 H0 :总体服从正态分布; H1 :总体不服从正态分布 (2) 抽取一个随机样本,并且进行以下操作 ① 计算样本均值和样本标准差 ② 确定取值区间并使得每个区间中的期望频数至少 为5 ③ 对于每个确定好的区间记录观察频数 (3) 对于步骤(2)的②中确定的每个区间,计算发生次 数的期望频数,即样本容量与正态随机变量落入每个 区间的概率的乘积
即下列假设检验问题:
H 0 : F ( x) F ( x)
H1 : F ( x) F ( x)
任意取k-1个实数使得-∞<a1 < a2 < a3 „ ak-1 < +∞ , 把 (-∞, +∞)分成k个互不相交的区间:(-∞, a1) , (a1 , a2) „ ,(ak-1 , +∞)。以f1表示样本观察值落在区 间(-∞, a1)内的个数,以fi表示样本观察值落在区 间(ai-1 , ai)内的个数,以fk表示样本观察值落在区间 (ak-1 , +∞)内的个数(一般要求k>5, fi≥5 )
2.16
— 2.43
ˆ i 5 的组予以合并,即将 其中,将 np 发生3次及4次战争的组归并为一组
④ 因H0所假设的理论分布中有一个未知参数,故 自由度为k-r-1=4-1-1=2 ⑤取α=0.05 ,查2分布表得20.05 =5.99 ,由于统 计量2的实测值2=2.43<5.99未落入否定域,故接 受原假设,认为每年发生战争的次数X服从参数 为0.69的泊松分布
H0:pA = 0.3, pB = 0.5, pC = 0.2 H1:总体比例不是pA = 0.3, pB = 0.5, pC = 0.2 如果样本结果导致拒绝,则表明新产品的引进对 市场份额有影响 ②假定C工厂用一组200个顾客的群体进行研究, 向每个人询问他们关于三个工厂生产产品的购买 偏好,结果汇总如表9-1所示
表9-5 检验统计量的计算过程 X 0 1 2 f 223 142 48 ˆ i 0.58 p 0.31 0.18
i
3 15 0.01
4 4 0.02
合计 —
ˆi np
ˆ i )2 / np ˆi ( fi np
216.7 0.183
149.5 0.376
51.6 0.251
12.0 1.623
, k 1)
式中,这里Pi表示服从于已知的分布函数F*(x)的 总体X在每个区间(ai-1 , ai)上的概率。 在计算得到fi和Pi(i=1,2…k-1,k )以后,计算统 计量为 这一统计量服从于自由度为k-1的2分布
( fi nPi )2 nPi i 1
2 k
用2检验进行拟合优度检验的一般过程如下: (1) 对总体分布建立假设 (2) 抽样并对样本资料编成频数分布(f0 ) (3) 以“原假设为真”导出一组期望频数(fe ) (4) 计算检验统计量 ( f f ) / f (5) 确定自由度,查2表得到临界值 (6) 比较2值与临界值,作出检验判断
解:
① 提出假设 H0:X服从参数为λ 的泊松分布; H1:X不服从参数为λ 的泊松分布
ˆ X=0.69。 ② 根据观察结果得参数λ的极大似然估计为
③ 按参数为0.69的分布,计算事件X=i的概率pi,pi的估 ˆ i e0.69 0.69i / i !,i=1,2,3,4 计是 p 计算结果如表9-5所示