社会统计学2016年

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2016 年秋社会统计学形成性考核作业
形成性考核作业一(第 1章至第 3 章)
表 1 是某大学二年级 135 个同学的《社会统计学》课程的期末考试成绩,请将数据输入 SPSS软件,并( 1)对考试成绩进行排序和分组(40 分),( 2)制作频数分布表( 30分)并绘制频数分析统计图( 30 分)。

请注意分组时按照下列标准:
表 1 某专业二年级同学社会统计学期末考试成绩(百分制)
答:考试成绩按低至高排序如下表:
频数分布表
绘制频数分析统计图
形成性考核作业二(第 4章至第 6 章)
表 1 为某大学对 100 个学生进行了一周的上网时间调查,请用 SPSS 软件:
(1)计算学生上网时间的中心趋势测量各指标( 20 分)和离散趋势测量各指标( 30 分)。

(2)计算学生上网时间的标准分( Z 值)及其均值和标准差。

(20 分)
(3)假设学生上网时间服从正态分布,请计算一周上网时间超过
20 小时的学生所占比例。

( 30 分)
表 1 某专业一年级同学一周上网时间(小时)
1)计算学生上网时间的中心趋势测量各指标和离散趋势测量各指标
统计量
上网时间
2)计算学生上网时间的标准分( Z 值)及其均值和标准差
(3)假设学生上网时间服从正态分布,请计算一周上网时间超过 20 小时的学生所占比例。

形成性考核作业三(第 1 章至第 12章)
一、单项选择题(在各题的备选答案中,只有 1 项是正确的,请将正确答案的序号,填写在题中的括号内。

每小题 2 分,共 20分)
1.学校后勤集团想了解学校 22000 学生的每月生活费用,从中抽取 2200 名学生进行调查,以推断所有学生的每月生活费用水平。

这项研究的总体是( A )
A.22000 名学生
B. 2200名学生
C. 22000名学生的每月生活费用
D. 2200名学生的每月生活费用
2.从变量分类看,下列变量属于定序变量的是( C)
A.专业
B.性别
C.产品等级
D.收入
3.在频数分布表中,比率是指( D)
A.各组频数与上一组频数之比
B.各组频数与下一组频数之比
C.各组频数与总频数之比
D.不同小组的频数之比
4.某地区 2001-2010 年人口总量(单位:万人)分别为98,102, 103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据( D)
A.茎叶图
B.环形图
C.饼图
D.线图
5.根据一个样本均值求出的 90%的置信区间表明( C)
A .总体均值一定落入该区间内
B .总体均值有 90%的概率不会落入该区间内
C.总体均值有 90%的概率会落入该区间内
D .总体均值有 10%的概率会落入该区间内
6.判断下列哪一个不可能是相关系数( C)A.-0.89
B.0.34
C.1.32
D.0
7.期中考试中,某班级学生统计学平均成绩为分。

如果学生的成绩是正太分布,可以判断成绩在生大约占总体的( A )
A.95%
B.68%
C.89%
D.90%
8.正态分布中,σ值越小,则( A )
A.离散趋势越小
B.离散趋势越大
C.曲线越低平
D.变量值越分散
80 分,标准差为4
72分-88 分之间的
9.下面哪一项不是方差分析中的假定( D)
A .每个总体都服从正态分布
B.观察值是相互独立的
C.各总体的方差相等
D.各总体的方差等于 0
10.对消费的回归分析中,学历、年龄、户口、性别、收入都是因
变量,其中收入的回归系数为 0.8,这表明( A )
A.收入每增加 1 元,消费增加 0.8元
B.消费每增加 1 元,收入增加 0.8 元
C.收入与消费的相关系数为 0.8
D.收入对消费影响的显著性为 0.8
二、名词解释(每题 4分,共 20 分)
1.抽样单位与抽样框:抽样单位就是一次直接的抽样所使用的基本单位。

抽样框是指一次直接抽样时样本中所有抽样单位的名单。

2.均值:均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。

均值包含一组
数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。

因而,我们说均值是集中趋势最主要的测量值。

3.散点图:散点图是在坐标系中,用X 轴表示自变量x,用Y 轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。

散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。

4.抽样分布:抽样分布是指样本统计量的概率分布,它是在重复选取容量为n 的样本时,由每个样本计算出来的统计量数值的相对频数分布。

例如样本均值的分布、样本比例分布等。

5.虚无假设与替换假设:将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用H0表示。

如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,这就是替换假设,替换假设通常用H1表示。

上面例子中,虚无假设为:H0:μ=1800替换假设为:H 1:μ≠1800a。

三、简答题(每题 10 分,共 30 分)
1.等距分组和不等距分组有什么区别?请举例说明。

答:在对数据进行分组时,如果分组组距相等,就是等距分组,如:学生平均每天上网时间:组距设3,分成3-6 ,6-9 ,9-12 ,12-15 共4 个小组。

如果分组组距不相等,就是不等距分组。

如:人口分析,分婴幼儿组(0-6 ),少儿组(7-17 ),中青年组(18-59),老人组(60-130),组距不相等。

2.简述定类变量、定序变量和数值型变量集中趋势测量的方法。

答:定序变量是层次最低的变量,用众数作为其中心趋势的测量,定序变量主要使用中位数、四分位数作为集中趋势的测量,同时也可以使用众数作位测量值,但是中位数和四分位数利用序次关系,因而更多使用这两者,数值里数据(定距河定比数据)的集中趋势测量指标是平均数,同样数值型数据使用众数和中位数、四分位数作位中心趋势的测量,但是更主要是使用均值,因为均值利用所有数据信息。

3.如何对配对样本进行t 检验。

答:可运用以下2种方法对配对样本进行t 检验配对样本T 检验方法:配对样本检验主要是判断不同的处理或试验结果是否有差异。

配对样本T检验(Paired—Sample T test)用于检验两个相关的样本
(配对样本)是否来自具有相同均值的
总体,因此针对配对样本我们可以首先计算出两个样本每个对应变量间的差值,然后再检验其差值的均值是否为零,若均值接近于零(即在给定的置信区间内),说明两个样本均值在给定的置信水平上没有差异;若均值在给定置信区间以外,说明两个样本均值在给定的置信水平上有差异。

=
四、计算题(每题 15 分,共 30 分)
1.某大学针对某项政策的态度调查,随机抽取 300 名被调查者,
了解对政策的观点,调查结果见表 1所示。

( 15分)
表 1 对某项政策态度的调查结果
要求:
1)利用原始数据绘制包含百分比的二维表,并对绘制的列联表加以简要说明;
答:
赞同学生
68.0
教师
57.0
学校领导
16.0
合计
141.0
行百分比( %)48.2 40.4 11.3
列百分比( %)53.5 42.5 41.0
总百分比( %)22.7 19.0 5.3 47.0
反对34.0 41.0 10.0 85.0
行百分比( %)40.0 48.2 11.8
列百分比( %)26.8 30.6 25.6
总百分比( %)11.3 13.7 3.3 28.3
中立25.0 36.0 13.0 74.0
行百分比( %)33.8 48.6 17.6
列百分比( %)19.7 26.9 33.3
总百分比8.3 12.0 4.3 24.7
合计127.0 134.0 39.0 300.0
总百分比
( %)
42.3 44.7 13.0
简要说明:学生赞同人数所占行比例、列比例、总比例越
多,教师反对人数所占行比例、列比例、总比例与多,学校领导中立的列比例最大,教师中立的行百分比和总百分比越大。

2)并计算γ系数,并进行说明、
答:NS=68*(36+13+41+10)+57*(13+10)+25*
(41+10)+36*10
=6800+1311+1275+360
=9746
ND=16* (5+36+34+41)+57*(25+34)+13*(34+41)
+36*34
=2176+3363+975+1224
=7738
G=(NS-ND)/(NS+ND)
=(9746-7738)/(9746+7738)=2008/17484=11.5%
说明:可见学生、教师和学校领导对某项政策的态度成正相关关系。

2.某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。

收集了过去 12年的有关数据,通过分析得到:方程的截距为 363,回归系数为 1.42,回归平方和 SSR=1600,残差平方和 SSE=450。

要求:
(1)写出销售量 y与广告费用 x 之间的线性回归方程。

答: Y=363+1.42X
(2)假如明年计划投入广告费用为 25 万元,根据回归方程估计明年汽车销售量。

答:当 X=25 时
Y=363+1.42*25=398.5 (辆)
(3)计算判定系数,并解释它的意义。

答:判定系数:
R^2=SSR/SST=SSR/SSR+SSE=1600/(1600+450)=0.7805 表明在汽车销售的总变量差中,有 78.05%可以用货柜方程,说
明回归方程的拟合程度。

形成性考核作业四(第 1 章至第 12章)
一、单项选择题(在各题的备选答案中,只有 1 项是正确的,请将正确答案的序号,填写在题中的括号内。

每小题 2 分,共 20分)
1.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为( D)
A .简单随机抽样
B.系统抽样
C.整群抽样
D.分层抽样
2.在频数分布表中,某一小组中数据个数占总数据个数的比例称为(A)
A.频率
B.频数
C.频次
D.频谱
3.某专业共 8 名同学,他们的统计课成绩分别为 86、77、97、94、
82、90、 83、92,那么该班考试成绩的中位数是( D)
A.86
B.77
C.90
D.88
4.经验法则表明,当一组数据正太分布时,在平均数加减 2 个标
准差的范围之内大约有( C)
A.50%的数据
B.68%的数据
C.95%的数据
D.99%的数据
5.残差平方和( SSE)反映了 y 的总变差中( B)
A .由于 x 与 y 之间的线性关系引起的 y 的变化部分
B .除了 x 对 y 的现有影响之外的其他因素对 y 变差的影响
C.由于 x 与 y 之间的非线性关系引起的 y 的变化部分
D .由于 x 与 y 之间的函数关系引起的 y 的变化部分
6.某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适( A )
A .回归分析
B.方差分析
C.卡方检验
D.列联表分析
7.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为( B)
A.点估计
B.区间估计
C.有效估计
D.无偏估计
8.在假设检验中,虚无假设和备择假设( C)
A .都有可能成立
B.都不可能成立
C.有且只有一个成立
D.备择假设一定成立,虚无假设不一定成立
9.方差分析的目的是( D)
A.比较不同总体的方差是否相等
B.判断总体是否存在方差
C.分析各样本数据之间是否存在显著差异
D.研究各分类自变量对数值型因变量的影响是否显著
10.用于说明回归方程中拟合优度的统计量主要是(D)
A .相关系数
B.离散系数
C.回归系数
D.判定系数
二、名词解释(每题 4分,共 20 分)
1.概率抽样:概率抽样就是按照随机原则进行的抽样,总体中
每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。

包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。

2.普查:普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。

普查一般是一次,有统一的标准调查时点,普查具有信息全面完整地特点,可以为其它抽样调查提供数据,但是普查比较耗时费力,成本比较高,而且适用范围比
较不深入,只适合调查一些基本的、一般的社会现象。

3.置信水平:置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。

4.离散系数:离散系数是一组数据的标准差与该数据均值之比,也称为变异系数。

5.独立样本与配对样本:配对样本:是指一个样本中的数据与另一个样本中的数据相对应的两个样本。

独立样本:是指我们得到的样本总体之间是相互独立的。

三、简答题(每题 10 分,共 30 分)
1.按测度水平,变量可分为哪几类?举例说明。

答:按照侧度水平,变量可以分为定类变量、定序变量、定距变量和定比变量四类。

1)定类变量:当变量值的含义仅表示个体的不同类别,而
不能说明个体的大小、程度等其他特征时,这种变
量称为定类变量。

分类变量是最低层次的变量。


如性别可以分为男、女两类。

2)定序变量:当变量值的含义不仅表示个体的不同类别还
可以区分个体之间大小、程度等序次差异时,这种
变量称为定序变量。

受教育程度是定序变量,可以
分为文盲、小学、初中、高中、大专及以上等。

3)定距变量:当变量值不仅可以将个体区分为不同类型并
进行排序,而且可以确定不同类别之间的数量差别
和间隔差距时,这样的变量称为定距变量。

定距变
量具有测量单位,这些测量单位具有不变的相等区
间的标准,是个体之间的比较等具客观性。

智商、
温度等都是定距变量。

4)定必变量:除了上述三种变量的全部特征外,还可以计
算两
个变量之间的比值时,这样的标量称为定比变量。

定必变量是最高层次的变量。

在社会调查中,很多
情况下我们使用的都是定比变量,例如身高、年
龄、收入、一个地区的人口数、某产品的生产量
等。

2.举例简要说明社会研究过程。

答:一项系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过程;提出问题;形成假设;收集数据;分析数据;检验假设。

( 1)提出问题是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是什么。

( 2)研究问题往往是无法直接检验的,而是把研究问题形成假设才可以进行检验。

假设是对两个变量关系的
陈述,是对它们关系的尝试性回答。

假设中的变量
是相对具体的,是可以通过检验可测的。

( 3)收集数据是社会研究的关键步骤。

这一阶段要确定收集的变量、收集的方法、收集的总量等。

这一阶段
所需投入的人力、物力最多,遇到的问题也最多,
因而需要进行很好的组织和管理。

( 4)分析数据主要是对收集的原始数据进行系统的审核、整理、归类、统计和分析。

我们既要进行描述性统
计,说明数据的总体情况,又要进行推断性统计,
从收集的样本状况来推断研究总体的状况。

( 5)完成对数据的统计分析后,我们要根据对数据的分析来检验我们之前的假设和理论。

当结果支持我们的
假设时,我们对研究问题得到了解释;当结果不支
持我们的假设时,要回过头来修饰我们的问题和假
设,开始新的一轮检验。

3.一元线性回归模型中有哪些基本假定?
一般的,在作一元线性回归分析过程中,回归分析是建立一系列建设基础上的,这些假设为:
(1)、误差项是一个期望值为零的随机变量。

( 2)、对于所有的 X 值,误差项的方差都是相等的。

(3)、误差项是一个服从正态分布的随即变量,相互独立,其余自变量 X 不相关。

四、计算题(每题 15 分,共 30 分)
1.某行业管理局所属 40 个企业 2011年产品销售额数据如下所示
要求:
(1)对 2011年销售额按由低到高进行排序,求出众数、中位
数和
平均数。

答:销售额由低向高排列:87、88、91、95、97、100、103、
103、104

104

107、
108、
108

110

112、
113、
115

115、115

116

117
117、
118

119

119
120、
123

124、125

126

127、
129、
135

136

137、
138、
142

146、152;
众数:115;
中位数:(115+116)/2=115.5 ;
平均数:ⅹ=( ⅹ+ⅹ+ⅹ3+ⅹN)/N=(87+88+91+95+
+146+152)/40=4647/40=116.175
2)如果按照规定,销售额在 125 万元以上的为先进企业, 115 万-125 万之间的为良好企业, 105 万-115万
之间的为一般企业,105 万以下的为落后企业,请按先
进企业、良好企业、一般企业、落后企业进行分组,编
制频数分布表,并计算累积频数和累积频率。

2.某单位为研究其商品的广告费用( x )对其销售量( y)的影响,
收集了过去 12 年的有关数据。

通过分析得到以下结果:方差分析表
要求:
1)计算上面方差分析表中 A、B、C、D、E、F 处的值
A=1602708.6+40158.08=1642866.68(SS 回归+SS残
差);
B=1;
C=11-1=10(总计-B);
D=1602708.6/B=1602708.6;
E=40158.08/C=4015.808;
F=D/E=1602708./64015.808=399.10。

2) 商品销售量的变差中有多少是由广告费用的差异引起的?
答: R^2=SSR/SST=1602708.6/1642866.68=0.9756
3) 销售量与广告费用之间的相关系数是多少?
答:销售量与广告费用之间的相关系数。

相关文档
最新文档