最新社会统计学期末复习题与答案整理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

社会统计学期末复习训练
一、单项选择题(20=2×10)
1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样
本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。

此处800人是.样本
2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,
以推断所有家庭的年均收入水平。

这项研究的总体是 332.1户家庭的年均收入
3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,
以推断所有学生的每月生活费用水平。

这项研究的总体是 22000名学生的每月生活费用
4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。

此处5000户是样本5.从变量分类看,下列变量属于定序变量的是产品等级
6.下列变量属于数值型变量的是工资收入
7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的
机会入选样本,这样的抽样方式称为.简单随机抽样
8.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从
女生中抽取8名学生进行调查。

这种调查方法属于分层抽样
9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽
样的方式抽取子样本,这样的抽样方式称为分层抽样
10.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前
十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。

这种调查方法属于系统抽样
11.在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率
12.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率
13.在频数分布表中,频率是指各组频数与总频数之比
14.在频数分布表中,比率是指不同小组的频数之比
15.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图16.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据线图
17.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图
18.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19 19.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 89
20.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元21.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分
别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.2
22.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那
么该班考试成绩的中位数是88
23.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值
近似为5.5小时
24.对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数
25.对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数
26.离散系数的主要目的是比较多组数据的离散程度
27.两组数据的平均数不相等,但是标准差相等。

那么 平均数大的,离散程度小
28.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为700
29.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。

那么 二班学生体重的离散程度大
30.已知某单位平均月收入标准差为700元,离散系数为0.2,那么他们月收入的均值为3500
31. 正态分布中,σ值越小,则 离散趋势越小
32.已知某单位职工平均每月工资为3000元,标准差为500元。

如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的68%
33.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值比平均数低1.5个标准差
34.某班级学生期末英语考试平均成绩为75分,标准差为10分。

如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的68%
35.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有 95%的数据
36.期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。

如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的95%
37.如果一组数据中某个数值的标准分值为1.8,这表明该数值比平均数高出1.8个标准差
38.某班级学生期末统计学考试平均成绩为82分,标准差为5分。

如果已知这个班学生的考试分数服从正态分布,可以判断成绩在77-87之间的学生大约占全班学生的68%
39.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 68%的数据
40.用样本统计量的值直接作为总体参数的估计值,这种方法称为点估计
41.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为区间估计
42.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例(π)偏高。

如果要检验该说法是否正确,则假设形式应该是0H :π≥0.1;1H :π<0.1
43.某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例(π)偏高。

如果要检验该说法是否正确,则假设形式应该为0H :π≥0.13;1H :π<0.13
44.在假设检验中,不拒绝虚无假设意味着没有证据证明虚无假设是错误的
45.在假设检验中,虚无假设和备择假设有且只有一个成立
46.在假设检验中,如果所计算出的P 值越大,那么检验的结果 越不显著
47.在假设检验中,如果所计算出的P 值越小,那么检验的结果 越显著
48.根据一个具体的样本求出的总体均值90%的置信区间以90%的概率包含总体均值
49.根据一个样本均值求出的90%的置信区间表明总体均值有90%的概率会落入该区间内
50.根据一个具体的样本求出的总体均值95%的置信区间以95%的概率包含总体均值
51.用于说明回归方程中拟合优度的统计量主要是判定系数
52.两个定类变量之间的相关分析可以使用λ系数
53.判断下列哪一个不可能是相关系数1.2
54.判断下列哪一个不可能是相关系数1.32
55.如果收入与支出之间的线性相关系数为0.92,那么二者之间存在着高度相关
56.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着高度相关
57. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适回归58.在回归方程中,若回归系数等于0,这表明自变量x对因变量y的影响是不显著的59.对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明消费每增加1元,收入增加0.8元
60.在因变量的总离差平方和中,如果回归和所占的比例越大,则两变量之间相关程度越高61.回归平方和(SSR)反映y的总变差中由于x与y之间的线性关系引起的y的变化部分62.对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间相关程度越小
63.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间相关程度越大
64.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间相关程度越低
65.方差分析的目的是研究各分类自变量对数值型因变量的影响是否显著
66.下面哪一项不是方差分析中的假定各总体的方差等于0
67.下列哪种情况不适合用方差分析年龄对收入的影响
68.从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差分别为234,48.4
69.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为432,71
70.在方差分析中,某一水平下样本数据之间的误差称为组内误差
二、名词解释
1.离散变量与连续变量P10
(1)离散变量如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。

例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3…。

离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。

例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。

(2)连续变量
如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。

例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。

连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。

例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。

2.总体与样本 P11
总体是构成它的所有个体的集合,个体则是构成总体的最基本的单位。

样本就是从总体中按照一定方式抽取的一部分个体的集合。

例如,要从某省所有育龄妇女中抽取1000人进行调查进行调查,那么,该省所有育龄妇女就是研究总体,其中每一位育龄妇女就是个体,而抽取出的1000名育龄妇女就构成为了该总体的一个样本。

3.抽样单位与抽样框 P11
抽样单位就是一次直接的抽样所使用的基本单位。

抽样单位有时与构成总体的个体是相同的,有时是不同的。

例如对育龄妇女的调查,当直接抽取育龄妇女时,两者是相同的;当我们从总体中一次直接抽取户时,以抽中的户中的育龄妇女作为样本时,抽样单位(户)与个体(育龄妇女)就不相同了。

抽样框是指一次直接抽样时样本中所有抽样单位的名单。

例如,从某校中抽取200名学生进行就业观的调查,那么这所学校的所有学生的名单就是这次抽样的抽样框。

但是,当我们先抽取班级,以抽中班级中的所有学生作为样本时,这所学校所有班级的名单就是这次抽样的抽样框。

4.普查与抽样调查P12
(1)普查
普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。

例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。

(2)抽样调查
抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。

根据抽取样本的方法不同,抽样调查可以分为:概率抽样和非概率抽样。

5.普查P12
普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。

例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。

6.概率抽样 P13
概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。

包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。

7.众数P68
1、众数
众数是一组数据中出现频数最多的数值,用Mo表示。

例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。

8.中位数 P73
2、中位数
中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。

中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。

例如,在职工收入水平差异比较大的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。

9.均值 P78
4、均值
均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。

均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。

因而,我们说均值是集
中趋势最主要的测量值。

10.方差与标准差 P95
6、方差
方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。

与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。

7、标准差
标准差是方差的平方根,用于测量数值型数据离散趋势。

标准差克服了方差面临的夸大离散程度、不容易解释的问题。

与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。

在实际中,标准差使用更为普遍。

11.离散系数P100
8、离散系数
离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。

离散系数是测量数据离散程度的相对指标,通常用Vs适用于数值型数据离散程度的测量。

12.正态分布P103
1、正态分布
连续性随机变量中重要的分布是钟型概率分布,就是正态分布(normal distribution),也称为常态分布,是一种连续型随机变量的概率分布。

学生的身高、体重、成绩等都是正态分布常见的例子,很高、很矮的都比较少,多数处于正常身高;很胖、很瘦的也较少,多数是正常体重;成绩很高和很低的是少数,多数同学属于中等成绩。

13.参数与统计量P127,P128
4、参数与统计量
参数是研究者想要了解的总体的某种特征值。

通常情况下,我们关心的总体的参数主要有总体平均数(μ)、标准差(σ)、比例(π)等。

统计量是根据样本数据计算出来的一个量。

样本统计量主要有样本平均数(X)、样本
标准差(S )、样本比例(P )等。

与参数不同,统计量是根据样本数据计算出来的、有关样本的特征值,因而统计量是知道的、可以计算的,是估计总体参数的依据。

14.抽样分布 P129
5、抽样分布
抽样分布是指样本统计量的概率分布,它是在重复选取容量为n 的样本时,由每个样本计算出来的统计量数值的相对频数分布。

例如样本均值的分布、样本比例分布等。

15. 中心极限定理 P130
1、中心极限定理
中心极限定理具体内容为:不论总体分布是否服从正态分布,从均值为μ、方差为σ2的总体中,抽取容量为n 的随机样本,当n 充分大时(通常要求n ≥30),样本均值X 的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。

16.区间估计 P134
区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能
性大小。

也就是要在给定α值的前提下,去寻找两个统计量1ˆθ和2ˆθ,使其满足
上述不等式。

从而知道θ落在区间12ˆˆ(,)θθ内的概率为1α-,故也称
12ˆˆ(,)θθ为θ的区间估计。

17.置信水平 P135
置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。

18. 假设检验 P140
假设检验是首先对总体参数建立一个假设,然后根据样本信息区检验这一假设是否正确。

假设检验和参数估计都是建立在抽样分布的基础上。

例如,某品牌灯泡的寿命X 服从正态分布(μ,125),厂方说它的平均工作寿命是1800小时。

随机测试16次,得到的平均工作温度是1750度。

样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设检验要解决的问题。

19. 虚无假设与替换假设 P140 P141
将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用0H 表示。

如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,这就是替换假设,替换假设通常用1H 表示。

上面例子中,虚无假设为:
0H :μ=1800替换假设为:1H :μ≠1800a
20.二维表 P152
二维表
二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。

例如,对某单位职工学历进行分析,随机抽取262名进行调查,性别、学历二维表如下所示:
对某项政策态度的调查结果
21.误差减少比例 P158
1、误差减少比例
在预测变量Y 的值时,知道变量X 的值时所减少的误差(1E -2E )与总误差1E 的比值称为误差减少比例(proportional reduction of error ),简称PRE 。

取值范围为0~1,PRE 值越大,说明用变量X 去预测变量Y 是能够减少的误差所占的比例越大,即变量X 与变量Y 之间的相关性越大。

公式为:PRE=12
1E E E
例如,PRE=0.7,说明以变量X 预测变量Y 时能减少70%的误差,说明二者之间关系较强。

22.散点图 P165
散点图
散点图是在坐标系中,用X 轴表示自变量x ,用Y 轴表示因变量y ,而变量组(x ,y )则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。

散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。

23.相关系数 P170
相关系数就是对变量之间相关关系程度和方向的度量。

当研究两个变量之间的相关关系时我们称之为简单相关系数。

总体相关系数用ρ表示,样本相关系数一般用r 表示。

24.最小二乘法 P180
对于变量x 和y 的观察值,有多条直线可以描述,其中距离各观测值最近的一条直线对x 与y 之间的关系的描述与实际的误差最小。

最小二乘法是使因变
量的观察值与估计值之间的离差平方和达到最小来求参数0ˆβ合1ˆβ的方法,即使
得:
()()∑∑=--=-最小2102ˆˆˆi i n i x y y y ββ
25.独立样本与配对样本 P207,P203
独立样本
独立样本(independent sample )是指我们得到的样本总体之间是相互独立的。

比如我们要研究一个地区百姓的生活水平,要同时考察家庭的子女数x ,父母的教育水平y ,这就可以看做是独立样本。

两个样本容量
1n 和2n 都小于30,或其中一个小于30的两独立样本为独立小样本。

当总体标准差1σ和2σ未知时,独立小样本均值之差的检验采用t 检验。

配对样本
配对样本(matched sample )就是一个样本中的数据与另一个样本中的数据相对应的两个样本。

配对样本可以消除由于样本指定的不公平造成的差异。

在选择配对样本时,可以将两种同质对象分别接受两种不同的处理。

26. 组内均方 P218
组内误差的自由度为全部观察值个数减去因素水平个数,即n -k ,其中n 为全部观察值个数,k 为因素水平的个数。

SSE 的均方记作MSE ,称为组内均方。

其计算公式为: MSE=
=自由度组内平方和k
n SS -E
三、简答题
1.举例简要说明社会研究过程。

P4
系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过程:提出问题、形成假设、收集数据、分析数据、检验假设。

1、提出问题:是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是什么。

2、形成假设:研究问题往往是无法直接检验的,而是要把研究问题形成假设才可以进行检验。

也就是对两个变量间关系进行尝试性回答。

3、收集数据:是社会研究的关键步骤。

4、分析数据:对收集的原始数据进行系统的审核、整理、归类、统计和分析。

5、检验假设:完成对数据的统计分析后,我们要开始进行最后一步——根据对数据的分析来检验我们之前的假设和理论。

2.按测度水平,变量可分为哪几类?并举例说明。

P7
变量分类(按测度水平):
(1)定类变量
当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其它特征时,这种变量称为定类变量。

定类变量是最低层次的变量。

在社会调查中,定类变量有很多,如性别、婚姻状态、民族、地区、职业.等。

性别可以分为男、女两类,我们可以用1表示男性,用2表示女性。

民族可以分为汉族和少数民族,我们可以用1表示汉族,用2表示少数民族。

(2)定序变量
当变量值的含义不仅表示个体的不同类别,还可以区分个体之间大小、程度等序次差异时,这种变量称为定序变量。

社会调查中,受教育程度是定序变量,可以分为文盲、小学、初中、高中、大专及以上等;人们对某种制度的态度可以分为非常同意、同意、中立、不同意、非常不同意等。

我们也可以用不同的数值1、2、3等表示不同的类别,但是这时候1、2、3等是包含大小的比较意义的,例如,用“1”表示文盲,用“2”表示小学,用“3”表示初中,用“4”表示高中,用“5”表示大专及以上。

此处,数字1、2等不仅仅表示文化程度的分类,还表示文化程度的高低,1还代表最低的文化程度,2表示的文化程度要高于1,5表示最高的文化程度。

(3)定距变量
当变量值不仅可以将个体区分为不同类型并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这样的变量称为定距变量。

定距变量具有测量单位,这些测量单位具有不变的相等区间的标准,使个体之间的比较更具客观性。

智商、温度等都是定距变量。

定距变量的变量值是用数值表示的,同一度量单位之间我们可以准确的计算出个体之间的差值。

例如,地区甲的温度是0°,地区乙的温度是8°,则甲的温度比乙的温度低8°,而在定类和定序变量
中则不能这样。

在定距变量中,0的选取只是为了方便或习惯,0只表示一个数值,而不表示该现象不存在。

如地区乙的温度=0°,并不是说地区乙没有温度;一个人的智商=0,并不是说这个人没有智商。

(4)定比变量
除了上述三种变量的全部特征外,还可以计算两个变量值之间的比值时,这样的变量称为定比变量。

定比变量是最高层次的变量。

在社会调查中,很多情况下我们使用的都是定比变量,例如身高、年龄、收入、一个地区的人口数、某产品的生产量等。

定比变量的变量值也是用数值表示,但是与定距变量相比,两者的唯一区别是,定比变量有绝对零点,即定比变量中的“0”是有实际意义的数值。

例如,一个人的身高是0米,则表示这个人不存在;一个人的收入是0元,则表示这个人没有收入。

同样,由于定比变量中有绝对零点,除可以进行“=”或“≠”、“>”或“<”比较外,它还可以进行“+”、“-”、“×”、“÷”运算。

例如,职工甲每月收入是7500元,职工乙每月收入是2500元,我们可以说职工甲比职工乙每月多收入5000元,也可以说职工甲每月的收入是职工乙的3倍。

3.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。

(1)网络供应商的姓名定性变量
(2)每月的网络服务费定量变量连续变量
(3)每月上网时间定量变量连续变量
(4)上网的主要目的定性变量
(5)上周收到的电子邮件数量定量变量离散变量
(6)每月用于网上购物的金额定量变量连续变量
(7)上月网上购物的次数定量变量离散变量
(8)使用的电脑的品牌定性变量
(9)上网是否玩游戏定性变量
(10)电脑是否带有光盘刻录机定性变量
4.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。

(1)考研辅导班参加者的姓名定性变量
(2)家庭月消费定量变量连续变量
(3)温度定量变量连续变量
(4)上个月外出吃饭的次数定量变量离散变量
(5)产品等级定性变量
5.举例说明什么是自变量和因变量,二者之间是什么关系? P10
变量分类(按变量间关系)——自变量与因变量
两个变量之间,如果一个变量的变化能引起其他变量变化则称之为自变量,而将由于其他变量的变化而导致自身发生变化的变量称为因变量。

相关文档
最新文档