失业问题研究的案例报告

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.

.

《数据模型与决策》案例1

关于“失业问题研究”的案例报告

2010级5班第1组

提交日期:2011年4月23日

目录

Ⅰ. 组员名单......................................................... 错误!未定义书签。Ⅱ. 讨论记录......................................................... 错误!未定义书签。Ⅲ. 案例介绍与背景分析 (2)

一、案例全文 (2)

二、案例背景分析 (3)

Ⅳ. 问题求解及分析 (4)

一、求失业人员年龄均值的区间估计的原理方法和计算过程 (4)

二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失

业时间(14.6周)及结论 (6)

三、失业人员年龄与失业时间长短之间关系的分析 (8)

Ⅲ. 案例介绍与背景分析

一、案例全文

美国人口统计署每个月公布一次失业方面的统计数据,内容包括失业人数和失业时间等。1998年11月,据美国人口统计署报告,美国失业人员失业时间的均值为14.6周。

费城市市长要求对费城地区的失业状况进行一次调查研究。选取50名费城的失业居民组成一个样本,记录他们的年龄以及失业时间(以周为单位)。下面是1998年11月收集的部分数据。全部数据可供我们使用,它们被保存在书本附带的光盘中,文件名为给BLS。

管理报告

1、利用描述统计量对数据进行汇总。

2、求费城失业人员年龄均值的95%置信区间估计。

3、进行假设检验确定费城失业人员失业时间是否高于全国失业人员失业时间的均值14.6周。取显著性水平为0.01.你得到什么结论?

4、失业人员年龄与失业时间长短有关系吗?为什么?

二、案例背景分析

作为失业统计的主要内容之一,对失业人员年龄与失业时间进行调查分析,可以为地方行政首长的施政提供重要决策依据。

失业时间概念的引入在一定程度上克服了只统计人数失业率指标的局限性,通过过滤掉因为换工作或其他临时性原因造成的暂时脱离工作的状态,来降低对统计数据的影响。实践证明失业人员的失业时间是比失业人员数量更有意义的统计指标。

在一般性分析中,人口结构的老龄化是导致失业人数增加的一个结构性原因。对失业人员的年龄分析,特别是通过数据统计手段揭示失业人员年龄与失业时间的内在联系,是施政者正确判断当前失业形势重要依据。通过分析得出判断,认定是经济原因主导还是年龄结构原因主导尤为重要,决策者往往以此为依据做出政策调整。

本案例就是以费城市为例,尝试进行失业人员失业时间的统计分析,以及用统计学方法检验“失业时间与失业年龄有着密切关系”这一假设。

Ⅳ. 问题分析及求解

一、求失业人员年龄均值的区间估计的原理方法和计算过程

根据案例提供的费城市失业统计资料,可以看到这次数据分析采用了一个容量为50的样本数据,内容包括失业人员的年龄和失业时间等两项数据。需要根据这些样本数据估计出失业人口平均年龄的区间估计。由于我们并没有关于总体标准差的一个好的估计,在这种情形下就必须利用同一样本来估计总体的均值μ和标准差σ。

在此之前,先分析费城失业人口年龄调查的抽样分布:利用描述统计量做一些必要的数据汇总。可以利用excel 2007的数据分析工具进行描述统计工作:勾选“汇总统计”和“平均数置信度”选框,其中置信度根据案例要求,填入95%。Execl自动进行数据汇总,结果如表一所示。其中样本的失业年龄平均值(x̅)、和失业年龄的样本标准差(s)可以用来估计失业年龄总体的平均值μ和95%置信水平下的边际误差(ME)。我们发现,其实数据汇总时已将边际误差(ME)算出,就是表一中“置信度”一项的数值。以下将用统计方法计算、验证这一数值。

=1.876<3,判定样本数据不存在异常值。

分析样本数据,峰值59的z-分数=59−36.6

11.94

表一样本数据汇总

同样利用Excel 分析出失业人员样本的年龄构成分布如上图所示。虽然不能假设总体年龄的分布服从正态分布,但是从表一中可知样本偏度=0.36,同时样本容量50已经足够大且样本数据不存在异常值,因此可以利用t 分布来进行总体均值的近似区间估计。

当利用样本标准差s 代替总体标准差σ进行总体均值区间估计时,公式为: x ̅±t α2

⁄√n

式中s 为样本标准差;1-α是置信系数;t α2⁄是自由度为n-1时t 分布的上侧面积为α2⁄的值。其中,t α2

⁄√n

就是总体均值估计的边际误差,x ̅则是总体均值μ的点估计值。总体均值的

95%置信区间也可以表示成(x ̅−t α⁄√

n

,x ̅+t α⁄√n

)。用软件可以计算出t α2⁄,如下图。根据

案例条件:α2⁄=

0.052

=0.025;自由度df=50-1=49得到t α2⁄=2.0096

则边际误差ME =±t α2

⁄√

n

=±2.0096×

50

=±3.3949

计算结果与Excel 相同,费城失业人口年龄总体均值的95%置信区间为36.6±

1234567891020-24

25-29

30-34

35-39

40-44

45-49

50-54

55-59人数

年龄段

样本年龄分布图

3.39,即(33.21,39.99)。

还可以直接用minitab软件计算。将均值36.6、标准差11.9455、样本容量为50、置信水平95%等参数输入minitab进行备择为不等于的单样本t计算,结果如下:

二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失业时间(14.6周)及结论

我们需要检验总体费城失业人口的失业时间是否高于14.6周,但我们并不知道总体失业时间的标准差σ。在这种情形下,必须利用样本同时估计σ和μ,即对总体进行假设检验时,利用样本均值x̅估计μ,用样本标准差s估计σ。如同我们在对总体均值μ进行区间估计时一样,仍然基于t分布进行假设检验。统计实践表明,在样本容量大于等于50的情形下,假设检验统计量服从自由度为n-1的t分布,这样的近似精确度能够满足使用要求。

总体均值假设检验的检验统计量公式为:t=0

s√n

我们要进行一个假设检验,决定拒绝H

将导致得出费城失业人口的失业时间的总体均值比14.6大的结论。因此,需采用Ha: μ>14.6的上侧检验。

原假设H0:μ≤14.6

备择假设H a:μ>14.6检验中采用0.01的显著性水平

根据数据汇总的结果:x̅=15.54,s=9.9267和n=50,检验统计量的值为

t=x̅−μ

s√n

=

15.54−14.6

9.9267√50

=0.6696

查下页的t分布表,得到在自由度为49的情形下,上侧面积为0.01时,t=2.405。我们观察到,t值越大,上侧面积越小。上侧面积的几何含意是支持原假设的概率“P-值”,P-值越小对原假设的支持度就越小,当P-值小于显著性水平α时,我们就得出拒绝原假设的结论,也就是说本次检验的拒绝域是t>2.405。

因为检验统计量t=0.6696<2.405,落在拒绝域外,所以不能得出拒绝原假设的结论,认为费城失业人口的失业时间不大于全美失业人口的平均失业时间14.6周。

t分布表(局部)

相关文档
最新文档