统计学报告(人口密度地域差异分析)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学

2010年中国各地域人口密度差异分析报告

单因素方差分析

张X

报告时间:2012/12/24

试用单因素方差分析方法分析中国地域是否对人口密度有影响

摘要:中国是一个人口大国,总人数在13亿以上,但其人口分部及其不均衡,东西南北地域的人口密度差距相当巨大。

单因素方差分析法作为统计学中的一种统计方法,其运用简单,不仅可以提高检验效率,同时由于它是将所有样本的信息结合在一起,也增加了分析的可靠性。

关键字:地域人口密度统计学单因素方差分析

方差分析(analysis of variance,ANOVA)就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。当方差分析中涉及一个分类型自变量时称为单因素方差分析(one-way analysis of variance).

单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响。

现在用单因素方差分析的方法分析中国地域是否对人口密度有影响。

数据来源:(2010年人口普查结果)

根据上表数据,开始单因素方差分析:

分析步骤

1.提出假设

与通常的统计推断问题一样,方差分析的任务也是先根据实际情况提出原假设H 0与备择假设H 1,然后寻找适当的检验统计量进行假设检验。

表1中的数据可以看成来自8个不同总体(每个水平对应一个总体)的样本值,将各个总体的均值依次记为μ1,μ2,μ3,μ4,μ5,μ6,μ7,μ8,则按题意需检验假设 Η0:μ1=μ2=μ3=μ4=μ5=μ6=μ7=μ8,地域对人口密度无显著影响;

Η1:μ1,μ2,μ3,μ4,μ5,μ6,μ7,μ8不全相等 ,地域对人口密度有显著影响。

2. 构造检验的统计量

(1)计算各样本的均值

假如从第i 个总体中抽取一个容量为1i 的简单随机样本,令i x 为第i 个总体样本的样本均值,则有

i

n j ij

i n x

x i

∑==

1

其中: k i ,...,2,1=

式中,

n i

为第i 个总体的样本量的第个观测值。例如根据上表1中的数据,分别计算

8个样本的均值为: 样本1的均值=+++=

6

6

3653.83301....2766.665721622.8417751i x 1051.168429

同理可得=2i x 343.1781935,=3i x 361.975811,=4i x 588.9122714,=5i x 70.73347669,

=6i x 167.4682317,=7i x 176.8737256,=8i x 7263.401151。

(2)计算全部观测值的总均值。

它是全部观测值的总和除以观测值的总个数,令总均值为x ,则公式为

n

x

n n

x

x k

i i

i j ij

k

i i

n ∑∑∑====

=

1

1

1

根据上表1中的数据我们可得出八个样本的总均值为

n

x

n n

x x k

i i

i j ij

k

i i n ∑∑∑=====

1

1

1=

34

7

640.460147114753.72882766.665721622.841775++⋯⋯++

=1036.49538 (3)计算各误差平方和

为构造检验计算量,在单因素方差分析中,需要计算三个误差平方和,即总平方和、组间平方和(因素平方和)、组内平方和(误差平方和或残差平方和)。

①总平方和SST ,它是全部观测值ij x 与总观测值x 的误差平方和,其计算是为

2

1

1)(∑∑

==-=i

n j ij

k

i x x

SST

则SST=(622.841775-1036.49538)2

+……+(640.4601477-1036.49538)2

=241608569.2 ②组间平方和SSA 。它是各组均值i x (k i ,...,2,1=)与总均值x 的误差平方和,反映各个样本之间的差异程度,因此又称为因素平方和。其计算公式为

21

)(x x n SSA k

i i i -=∑=

=-=∑=28

1

)(x x n SSA i i i 6*(1051.168429-1036.49538)2+…..+3*(7263.401151-1036.49538)2

= 131244353.6

③组内平方和SSE 。它是每个水平或组的各样本数据与其组均值的误差平方和,反映每个样本观测值的离散状况。该平方和反映了随机误差的大小,其计算公式为:

21

1

)(∑∑

==-=i

n j i ij

k

i x x

SSE

则SSE=

21

1

)(∑∑==-i

n j i ij

k i x x

=(622.841775-1051.168429)2+….+ (640.4601477-7263.401151)2

=110364215.7

上述三个平方和的关系为

=

-∑∑

==2

1

1

)(x x j

n j ij k

i 2

1

)(x x

n k

i i

i -∑=+21

1

)(∑∑

==-i

n j i ij k

i x x 即总平方和(SST )=组间平方和(SSA )+组内平方和(SSE )

从上面计算结果也可以证明这一点:241608569.2 = 131244353.6+110364215.7 (4)、计算统计量 SSA 的均方差:

1-k SSA ==

自由度组间平方和MSA ==1

-86

131244353.18749193.37

SSE 的均方差:

=-===

8

34

7110364215.k -n SSE 自由度组内平方和MSE 4244777.526

将上述MSA 与MSE 进行对比,即得到所需要的检验统计量F 。当0H 为真时,二者的比较服从分子自由度为1-k 、分母自由度为分布,即的F k n -

),(k -n 1-k F ~MSE

MSA

F =

根据本例计算,得:

===

6

4244777.527

18749193.3MSE MSA F 4.417002599

相关文档
最新文档