失业问题研究的案例报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数据模型与决策》案例1
关于“失业问题研究”的案例报告
2010级5班第1组
提交日期:2011年4月23日
目录
Ⅰ. 组员 (1)
Ⅱ. 讨论记录 (1)
Ⅲ. 案例介绍与背景分析 (2)
一、案例全文 (2)
二、案例背景分析 (3)
Ⅳ. 问题求解及分析 (4)
一、求失业人员年龄均值的区间估计的原理方法和计算过程 (4)
二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失
业时间(14.6周)及结论 (6)
三、失业人员年龄与失业时间长短之间关系的分析 (8)
Ⅲ. 案例介绍与背景分析
一、案例全文
美国人口统计署每个月公布一次失业方面的统计数据,容包括失业人数和失业时间等。
1998年11月,据美国人口统计署报告,美国失业人员失业时间的均值为14.6周。
费城市市长要求对费城地区的失业状况进行一次调查研究。
选取50名费城的失业居民组成一个样本,记录他们的年龄以及失业时间(以周为单位)。
下面是1998年11月收集的部分数据。
全部数据可供我们使用,它们被保存在书本附带的光盘中,文件名为给BLS。
管理报告
1、利用描述统计量对数据进行汇总。
2、求费城失业人员年龄均值的95%置信区间估计。
3、进行假设检验确定费城失业人员失业时间是否高于全国失业人员失业时间的均值14.6周。
取显著性水平为0.01.你得到什么结论?
4、失业人员年龄与失业时间长短有关系吗?为什么?
二、案例背景分析
作为失业统计的主要容之一,对失业人员年龄与失业时间进行调查分析,可以为地方行政首长的施政提供重要决策依据。
失业时间概念的引入在一定程度上克服了只统计人数失业率指标的局限性,通过过滤掉因为换工作或其他临时性原因造成的暂时脱离工作的状态,来降低对统计数据的影响。
实践证明失业人员的失业时间是比失业人员数量更有意义的统计指标。
在一般性分析中,人口结构的老龄化是导致失业人数增加的一个结构性原因。
对失业人员的年龄分析,特别是通过数据统计手段揭示失业人员年龄与失业时间的在联系,是施政者正确判断当前失业形势重要依据。
通过分析得出判断,认定是经济原因主导还是年龄结构原因主导尤为重要,决策者往往以此为依据做出政策调整。
本案例就是以费城市为例,尝试进行失业人员失业时间的统计分析,以及用统计学方法检验“失业时间与失业年龄有着密切关系”这一假设。
Ⅳ. 问题分析及求解
一、求失业人员年龄均值的区间估计的原理方法和计算过程
根据案例提供的费城市失业统计资料,可以看到这次数据分析采用了一个容量为50的样本数据,容包括失业人员的年龄和失业时间等两项数据。
需要根据这些样本数据估计出失业人口平均年龄的区间估计。
由于我们并没有关于总体标准差的一个好的估计,在这种情形下就必须利用同一样本来估计总体的均值和标准差。
在此之前,先分析费城失业人口年龄调查的抽样分布:利用描述统计量做一些必要的数据汇总。
可以利用excel 2007的数据分析工具进行描述统计工作:勾选“汇总统计”和“平均数置信度”选框,其中置信度根据案例要求,填入95%。
Execl自动进行数据汇总,结果如表一所示。
其中样本的失业年龄平均值()、和失业年龄的样本标准差(s)可以用来估计失业年龄总体的平均值和95%置信水平下的边际误差(ME)。
我们发现,其实数据汇总时已将边际误差(ME)算出,就是表一中“置信度”一项的数值。
以下将用统计方法计算、验证这一数值。
分析样本数据,峰值59的z-分数=
表一样本数据汇总
失业年龄失业时间(周)
平均36.6 平均15.54
标准误差 1.689342 标准误差 1.403846029
中位数34 中位数13.5
众数27 众数7
标准差11.94545 标准差9.926690469
方差142.6939 方差98.53918367
峰度-1.14515 峰度0.053711356
偏度0.357283 偏度0.9107658
区域39 区域38
最小值20 最小值 1
最大值59 最大值39
求和1830 求和777
观测数50 观测数50
置信度(95.0%) 3.39486
置信度
(95.0%)
2.821134164
同样利用Excel分析出失业人员样本的年龄构成分布如上图所示。
虽然不能假设总体年龄的分布服从正态分布,但是从表一中可知样本偏度=0.36,同时样本容量50已经足够大且样本数据不存在异常值,因此可以利用t分布来进行总体均值的近似区间估计。
当利用样本标准差s代替总体标准差进行总体均值区间估计时,公式为:
式中s为样本标准差;1-是置信系数;是自由度为n-1时t分布的上侧面积为的值。
其中,就是总体均值估计的边际误差,则是总体均值的点估计值。
总体均值的95%置信区间也可以表示成(,)。
用软件可以计算出,如下图。
根据案例条件:;自由度df=50-1=49得到
则边际误差ME
计算结果与Excel相同,费城失业人口年龄总体均值的95%置信区间为。
还可以直接用minitab软件计算。
将均值36.6、标准差11.9455、样本容量为50、置信水平95%等参数输入minitab进行备择为不等于的单样本t计算,结果如下:
二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失业时间(14.6周)及结论
我们需要检验总体费城失业人口的失业时间是否高于14.6周,但我们并不知道总体失业时间的标准差。
在这种情形下,必须利用样本同时估计和,即对总体进行假设检验时,利用样本均值估计,用样本标准差s估计。
如同我们在对总体均值进行区间估计时一样,仍然基于t分布进行假设检验。
统计实践表明,在样本容量大于等于50的情形下,假设检验统计量服从自由度为n-1的t分布,这样的近似精确度能够满足使用要求。
总体均值假设检验的检验统计量公式为:
我们要进行一个假设检验,决定拒绝H
将导致得出费城失业人口的失业时间的总体均值
比14.6大的结论。
因此,需采用Ha:的上侧检验。
原假设
备择假设检验中采用0.01的显著性水平
根据数据汇总的结果:
查下页的t分布表,得到在自由度为49的情形下,上侧面积为0.01时,t=2.405。
我们观察到,t值越大,上侧面积越小。
上侧面积的几何含意是支持原假设的概率“P-值”,P-值越小对原假设的支持度就越小,当P-值小于显著性水平,我们就得出拒绝原假设的结
论,也就是说本次检验的拒绝域是。
因为检验统计量,落在拒绝域外,所以不能得出拒绝原假设的结论,认为费城失业人口的失业时间不大于全美失业人口的平均失业时间14.6周。
我们同样可以用minitab软件进行假设检验,把有关参数输入软件后,minitab的计算结果如下。
结果: Bls.mtw
单样本 T: Weeks
mu = 14.6 与 > 14.6 的检验
平均值
变量 N 平均值标准差标准误 99% 下限 T P
Weeks 50 15.54 9.93 1.40 12.16 0.67 0.253
不难看到minitab同样算出t=0.67,而且精确给出P-值为0.253。
因为P-值大于显著性水平0.01,就是说支持原假设的概率大于给定的显著性水平,同样得出了不能拒绝原假设的结论。
而且minitab还算出,样本数据显示在0.01的显著性水平下原假设成立的假设均值下限是12.16,高于这个数值的假设均值都不会导致原假设被拒绝。
三、失业人员年龄与失业时间长短之间关系的分析
通过考察样本数据中的“失业年龄”和“失业时间”这两个变量的独立性,我们可以检验出失业人员的失业时间和年龄有没有关系。
为了得到独立性检验的数据,可以将样本数据中的年龄和失业时间,分段统计频数构造出列联表。
在失业人员的年龄和失业时间不相干(独立)的假设下,如果能够确定各分段的期望频数,就可以利用分布来确定观察频数和期望频数之间是否存在显著差异。
这个独立性检验的假设为:
首先利用excel软件处理样本数据,构造列联表。
观察表一的汇总数据,发现失业人口年龄的极值为20和59,现尝试将数据划分为20~29,30~39,40~49,50~59四个区段;失业时间的极值为1和39,尝试将数据划分为1~9,10~19,20~29,30~39四个区段,于是得到表二所示列联表。
表二样本数据分段方案
年龄
失业时间(周)
1-10 11-20 21-30 31-40 合计
20-29 10 8 18
30-39 5 5 1 11
40-49 2 5 3 2 12
50-59 3 1 5 9
合计17 21 5 7 50 独立性假设下,列联表中的期望频数公式:
检验要求所有类别的期望频数都大于或等于5。
观察到如表二分类方式有的类别的期望频数小于5,所以将每个失业人口每失业一周记一次频数,得到新的列联表,表三。
如果独立性假设为真,我们运用期望频数公式计算出期望频数,并将列联表中位于第i行和第j列的数值表示为,据此得到表四。
在表四中,我们看到每个类别的期望频数均大于5。
表三 费城失业人口年龄与失业时间样本数据(观察频数)
表四 费城失业人口年龄与失业时间期望频数
接下来用检验期望频数与观察频数的拟合优度。
如果原假设成立,期望频数应能与观察频数拟合,反之则拒绝原假设。
独立性检验统计量公式:
(其中为观察频数,为期望频数)
经计算,
的自由度为列联表中
求和项:Weeks
失业总周数 年龄 1-10 11-20 21-30 31-40 合计 20-29 60 112 172 30-39 34 71 23 128 40-49 10 83 73 71 237 50-59 43 22 175 240 合计
104
309
118
246
777
年龄 失业总周数
1-10 11-20 21-30 31-40 合计 20-29 23.02 68.40 26.12 54.46 172 30-39 17.13 50.90 19.44 40.53 128 40-49 31.72 94.25 35.99 75.03 237 50-59 32.12 95.44 36.45 75.98 240 合计
104
309
118
246
777
查分布表,自由度为9,对应上侧面积为0.01的值为21.666。
显然,越大,上侧面积越小;所以在0.01的显著性水平下,本次独立性检验的拒绝域是。
计算出来的检验统计量,得出结论拒绝原假设,认为在费城的失业人口中年龄与失业时间不独立,两者存在相关性。
我们也可以用minitab软件进行两个变量的独立性检验:按表三构造的列联表数据填入minitab,计算结果如下页显示,P-值=0.0000,同样得出了拒绝原假设,两个变量不独立的结论。
Minitab软件截图
卡方检验: C1, C2, C3, C4
在观测计数下方给出的是期望计数
在期望计数下方给出的是卡方贡献
C1 C2 C3 C4 合计
1 60 11
2 0 0 172
23.02 68.40 26.12 54.46
59.395 27.789 26.121 54.456
2 34 71 2
3 0 128
17.13 50.90 19.44 40.53
16.606 7.934 0.652 40.525
3 10 83 73 71 237
31.72 94.25 35.99 75.03
14.874 1.343 38.052 0.217
4 0 43 22 17
5 240
32.12 95.44 36.45 75.98
32.124 28.817 5.727 129.027
合计 104 309 118 246 777
卡方 = 483.659, DF = 9, P 值 = 0.000
根据上述分析结果得出判断,失业人员年龄与失业时间长短之间是存在关系的。
我们可以进一步计算样本数据的“失业人员年龄”和“失业时间”的协方差和相关系数来分析这两组变量的具体相关关系。
对于每个失业人员,都有他自己的年龄属性和失业时间属性。
所以“失业人员年龄”和“失业时间”两组变量是一一对应的。
我们把失业人员的年龄变量记为,失业时间变量记为;设费城失业人口的总体容量为N,失业人员的总体年龄均值记为,失业人员的总体失业时间均值记为。
那么失业人员关于年龄和失业时间的总体协方差公式为
实际上由于总体样本容量十分庞大难以计算,一般用样本协方差估计总体协方差。
相应的公式中总体均值用样本均值代替;总体容量也用样本方差的自由度n-1替换,可以得到样本协方差为
我们用minitab软件计算案例样本关于年龄和失业时间的协方差,结果如下:
其中协方差数值为78.1592;142.6939为年龄的样本方差;98.5392为失业时间的样本方差。
从协方差的树枝上我们能判断年龄和失业时间有着正的线性相关关系。
为了衡量这种相关度,我们需要计算、的样本相关系数。
用样本数据可以计算出年龄和失业时间的相关系数
样本的相关系数给出了总体相关系数的点估计量。
相关系数越接近-1或1表示越强的线性关系,而相关系数越接近0则表示线性关系越弱。
从总体相关系数的估计量为0.659看来,费城失业人口的年龄与失业时间有着较强的正线性相关。
下面利用excel绘出失业人口年龄与失业时间的散点图,可以直观地观察到这个结论。
(年龄,失业时间)散点图。