贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的搜集)【圣才出品】
贾俊平《统计学》配套题库 【课后习题】详解 第13章~第14章【圣才出品】
二、练习题
1.下表是 1991~2008 年我国小麦产量数据。
年份
小麦产量(万吨) 年份
1991
9595.3
2000
1992
10158.7
2001
1993
10639.0
2002
1994
9929.7
2003
1995
10220.7
2004
1996
11056.9Leabharlann 2005199712328.9
2006
1998
3 / 52
圣才电子书 十万种考研考证电子书、题库视频学习平台
移动平均值,然后再计算出各比值的季度(或月份)平均值。 (3)季节指数调整。由于各季节指数的平均数应等于 1 或 100%,若根据第 2 步计算
的季节比率的平均值不等于 1 时,则需要进行调整。具体方法是:将第(2)步计算的每个 季节比率的平均值除以它们的总平均值。
圣才电子书 十万种考研考证电子书、题库视频学习平台
第 13 章 时间序列分析和预测
一、思考题 1.简述时间序列的构成要素。 答:时间序列的构成要素分为 4 种,即趋势、季节性或季节变动、周期性或循环波动、 随机性或不规则波动。 (1)趋势是时间序列在长时期内呈现出来的某种持续向上或持续下降的变动,也称长 期趋势; (2)季节性也称季节变动,它是时间序列在一年内重复出现的周期性波动; (3)周期性也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或 振荡式变动; (4)随机性也称不规则波动,是指偶然性因素对时间序列产生影响,致使时间序列呈 现出某种随机波动。
2 / 52
圣才电子书 十万种考研考证电子书、题库视频学习平台
贾俊平《统计学》复习笔记课后习题详解及典型题详解(参数估计)【圣才出品】
∧
定义:点估计是用样本统计量θ的某个取值直接作为总体参数 θ 的估计值。 局限性:一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点 估计值无法给出估计的可靠性的度量,因此不能完全依赖于一个点估计值,而应围绕点估计 值构造总体参数的一个区间。 (2)区间估计 区间估计的基本思想:在点估计的基础上,给出总体参数估计的一个区间范围,该区间 通常由样本统计量加减估计误差得到。进行区间估计时,根据样本统计量的抽样分布能够对 样本统计量与总体参数的接近程度给出一个概率度量。 置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间。
著性水平表示区间估计的不可靠概率。置信度愈大(即估计的可靠性愈大),则置信区间相
应也愈大(即估计准确性愈小)。
3.评价估计量的标准
2 / 57
圣才电子书
(1)无偏性
十万种考研考证电子书、题库视频学习平台
指估计量抽样分布的数学期望等于被估计的总体参数。
∧
∧
∧
设总体参数为 θ,所选择的估计量为θ,若有 E(θ)=θ,则称θ为 θ 的无偏估计量。
1 / 57
圣才电子书 十万种考研考证电子书、题库视频学习平台
置信下限:置信区间的最小值。
置信上限:置信区间的最大值。
置信水平(也称为置信度或置信系数):将构造置信区间的步骤重复多次,置信区间中
包含总体参数真值的次数所占的比例。
∧
∧
区间估计的数学定义:若用两个统计量θ1(x1,x2,…,xn)和θ2(x1,x2,…,xn)
存在“可能包含”或“可能不包含”的问题。
③在实际问题中,进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的
贾俊平《统计学》配套题库 【课后习题】详解 第9章~第10章【圣才出品】
第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。
次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
贾俊平《统计学》课后习题及详解(统计量及其抽样分布)【圣才出品】
第6章 统计量及其抽样分布一、思考题1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设是从总体中抽取的容量为的一个样本,如果由此样本构造一个函数,不依赖于任何未知参数,则称函数是一个统计量。
(2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。
为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。
(3)统计量是样本的一个函数。
由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。
2.判断下列样本函数哪些是统计量?哪些不是统计量?12n X X X ,,…,X n 12()n T X X X ,,…,12()n T X X X ,,…,1121021210310410()/10min()T X X X T X X X T X T X μμσ=+++==-=-…,,…,()/答:统计量中不能含有未知参数,故、是统计量,、不是统计量。
3.什么是次序统计量?答:设是从总体中抽取的一个样本,称为第个次序统计量,它是样本满足如下条件的函数:每当样本得到一组观测值…,时,其由小到大的排序中,第个值就作为次序统计量的观测值,而称为次序统计量,其中和分别为最小和最大次序统计量。
4.什么是充分统计量?答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。
统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。
5.什么是自由度?答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。
贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】
第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。
可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
4.简述ϕ系数、c 系数、V 系数的各自特点。
答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。
它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。
贾俊平《统计学》(第5版)章节题库-第2章 数据的搜集【圣才出品】
第2章 数据的搜集一、单项选择题1.二手数据的特点是( )。
A.采集数据的成本低,但搜集比较困难B.采集数据的成本低,搜集比较容易C.数据缺乏可靠性D.不适合自己研究的需要【答案】B【解析】二手数据是指与研究相关的原信息已经存在,只是对原信息重新加工、整理,使之成为进行统计分析可以使用的数据。
二手数据具有搜集方便、数据采集快、采集成本低等优点,但是得到的数据往往缺乏相关性。
2.从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为( )。
A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样【答案】A【解析】分层抽样也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。
系统抽样也称等距抽样,先将总体各素,直至抽取n个元素组成一个样本。
整群抽样是指先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群总包含的所有元素进行观察。
3.从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止,这样的抽样方法称为( )。
A.重复抽样B.不重复抽样C.分层抽样D.整群抽样【答案】A【解析】重复抽样又称放回式抽样,是指每次从总体中抽取的样本单位,经检验之后又重新放回总体,参加下次抽样,这种抽样的特点是总体中每个样本单位被抽中的概率是相等的。
4.一个元素被抽中后不再放回总体,然后再从剩下的元素中抽取第二个元素,直到抽取”个元素为止,这样的抽样方法称为( )。
A.重复抽样B.不重复抽样C.分层抽样D.整群抽样【解析】不重复抽样亦称不放回抽样,是指每次从总体中抽取的样本单位,经检验之后不再放回总体,在下次抽样时不会再次抽到前面已抽中过的样品单位。
总体每经一次抽样,其样本单位数就减少一个,因此每个样品单位在各次抽样中被抽中的概率是不同的。
5.在抽样之前先将总体的元素划分为若干类,然后从各个类中抽取一定数量的元素组成一个样本,这样的抽样方式称为( )。
贾俊平《统计学》复习笔记课后习题详解及典型题详解 第9章~第10章【圣才出品】
第9章分类数据分析9.1复习笔记一、分类数据与χ2统计量1.分类数据按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据和顺序数据都是只能归于某一类别的非数字型数据,它们是对事物进行分类的结果,其结果均表现为类别,用文字来表述,不过顺序数据的类别是有序的;数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。
分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。
数值型数据可以转化为分类数据。
分类数据的结果是频数,χ2检验是对分类数据的频数进行分析的统计方法。
2.χ2统计量χ2统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。
若用f o 表示观察值频数,用f e 表示期望值频数,则χ2统计量可以写为:22()o e e f f f χ-=∑χ2检验:χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。
χ2检验主要用于拟合优度检验和独立性检验。
(1)χ2统计量的特征①χ2≥0,因为它是对平方值结果的汇总;②χ2统计量的分布与自由度有关;③χ2统计量描述了观察值与期望值的接近程度。
两者越接近,即f o-f e的绝对值越小,计算出的χ2值越小;反之,f o-f e的绝对值越大,计算出的χ2值也越大。
χ2检验正是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。
(2)χ2分布与自由度的密切关系自由度越小,χ2的分布就越向左边倾斜;随着自由度的增加,χ2分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,χ2分布将趋近于对称的正态分布。
(3)应用χ2检验统计量的注意事项①各组的理论频数f e不得小于总频数n;②总频数应较大,至少大于50;③如果某组理论频数小于5,可将相邻的若干组合并,直至理论频数大于5为止;④倘若有两个以上的单元,如果20%的单元期望频数f e小于5,则不能应用χ2检验。
贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的图表展示)【圣才出品】
②列联表和交叉表
由两个或两个以上变量交叉分类的频数分布表也称为列联表。
二维的列联表(两个变量交叉分类)也称为交叉表。
③比例(构成比)、百分比和比率
比例是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或
二、品质数据的整理与展示 1.分类数据的整理与图示 分类数据本身就是对事物的一种分类,为对数据及其特征有一个初步的了解,在整理时 首先列出所分的类别,然后计算出每一类别的频数、频率或比例、比率等,形成一张频数分 布表,最后根据需要选择适当的图形进行展示。 (1)频数与频数分布 ①频数与频数分布 频数又称为次数,是各组占有的单位个数,将总体所有单位按一定标志进行归类排列, 称为频数分布。频数(频率)愈大的组所对应的标志值,它对于总体标志平均水平所起的作 用也愈大;反之,频数(频率)愈小的组所对应的标志值对于总体标志平均水平所起的作用
总体)的构成或结构。将比例乘以 100 得到的结果称为百分比,用%表示。比率是样本(或
总体)中各不同类别数据之间的比值,其比值可能大于 1。
(2)分类数据的图示
统计图是统计数据直观的表现形式,可以将复杂的数据用生动的图形表现出来,因而绘
制并使用好统计图就成为统计分析的基本功。常见的分类数据展示图形有条形图、帕累托图、
三、数值型数据的整理与展示 1.数据分组
4 / 52
圣才电子书 十万种考研考证电子书、题库视频学习平台
(1)数据分组的概念和目的 数据分组是根据统计研究的需要,为了观察数据的分布特征,将原始数据按照某种标准 划分成不同的组别,分组后的数据称为分组数据。经分组后再计算出各组中数据出现的频数, 就形成了一张频数分布表。在分组时,如果按照性别、质量等级等定性指标分组,称为按品 质标志分组;如果按照数量或数值等定量指标分组,称为按数量标志分组。 (2)数据分组的方法 ①单变量值分组:把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量 值较少的情况下使用; ②组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。 在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。适用于连续变量或变 量值较多的情况。 (3)分组和编制频数分布表的具体步骤 ①确定组数 一般情况下,一组数据所分的组数不应少于 5 组且不多于 15 组,即 5≤K≤15。实际应 用时,可根据数据的多少和特点及分析的要求来确定组数。 ②确定各组的组距 组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数 来确定,即组距=(最大值-最小值)÷组数。 注意:为便于计算,组距宜取 5 或 10 的倍数,而且第一组的下限应低于最小变量值, 最后一组的上限应高于最大变量值。 ③根据分组整理成频数分布表 (4)组距分组的注意事项
统计学(第七版贾俊平)第七章期末复习笔记(详细附例题详解及公式)
统计学(第七版贾俊平)第七章期末复习笔记(详细附例题详解及公式)第七章7.1估计量与估计值估计⽅法:(1)点估计:据估计、最⼤似然法、最⼩⼆乘法(2)区间估计置信⽔平:(1- α),α为总体参数未在区间内的⽐例;常⽤的置信⽔平:99%(α=0.01),95%(α=0.05),90%(α=0.10)评价估计量的标准:⽆偏性 有效性 ⼀致性7.2 ⼀个总体参数的区间估计7.2.1总体均值的区间估计:题型:(1)总体服从正态分布,⽅差已知 (⼤、⼩样本) ;(2)总体服从正态分布,⽅差未知 (⼤样本);(3)⾮正态分布,⼤样本例⼀:(1)总体服从正态分布,且⽅差已知(⼤、⼩样本)例⼆:(3)⾮正态分布,⼤样本(n>=30)题型:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)例三:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)总结:7.2.2 总体⽐例的区间估计题型:总体服从⼆项分布,可由正态分布来近似(只讨论⼤样本)例四:7.2.3 总体⽅差的区间估计题型:估计⼀个总体的⽅差或标准差(只讨论正态总体)例五:⼩结:7.3 两个总体参数的区间估计7.3.1 两个总体均值之差的区间估计(2)⾮正态分布,但两个总体都是⼤样本;例⼀:(3)例⼀:(1)例⼆: (2)题型:(1)两个匹配的⼤样本;(2)两个匹配的⼩样本例⼀:(2)7.3.2 两个总体⽐例之差的区间估计题型:两个总体服从⼆项分布,样本独⽴例⼀:7.3.3 两个总体⽅差⽐的区间估计题型:求两个总体的⽅差⽐例⼀:7.4 样本量的确定7.4.1 估计总体均值时的样本量的确定例⼀:7.4.2 估计总体⽐例时的样本量的确定例⼀:。
贾俊平《统计学》章节题库(数据的图表展示)详解【圣才出品】
表各变量值出现癿频数。条形图是用来反映分类数据癿,反映数值型数据一般用直方图;散 点图反映两个变量间癿关系;线图主要用来反映现象随时间变化癿特征。
7.一名研究人员希望通过图形来说明 4 月份以来北京地区二手房租金每天癿变化,如 下哪个图形最合适?( )[中央财经大学 2011 研]
10.统计分组癿核心问题是( )。[西安交大 2006 研] A.选择分组方法 B.确定组数 C.选择分组标志 D.确定组中值 【答案】C
5 / 33
圣才电子书 十万种考研考证电子书、题库视频学习平台
【解析】分组标志作为现象总体被划分为各个丌同性质癿组癿标准或根据,选择癿正确 不否,关系到能否正确地反映总体癿性质特征、实现统计研究癿目癿。
1 / 33
圣才电子书 十万种考研考证电子书、题库视频学习平台
一类别,但这些类别是无序癿,故属亍分类数据。
3.用亍显示时间序列数值型数据,以反映事物发展变化癿规律和趋势癿图是( )。 [重庆大学 2013 研]
A.直方图 B.箱线图 C.茎叴图 D.线图 【答案】D 【解析】如果数值型数据是在丌同时间上取得癿,即时间序列数据,则可以绘制线图。 线图主要用亍反映现象随时间变化癿特征。
圣才电子书 十万种考研考证电子书、题库视频学习平台
第 3 章 数据的图表展示
一、单项选择题
1.下面哪个图形保留了原始数据癿信息?( )[对外经济贸易大学 2015 研] A.直方图 B.茎叴图 C.条形图 D.箱线图 【答案】B 【解析】茎叴图是保留幵反映原始数据分布癿图形,它由茎和叴两部分构成,其图形是 由数字组成癿。ACD 三项都需要对原始数据迚行处理,求得一些测度值乊后再作出图形。
【解析】直方图、饼图描述癿数值型数据是分组数据,而茎叴图描述癿是未分组癿数值 型数据,点图描述癿是两个变量乊间癿关系。茎叴图保留了原始数据癿信息,可以计算其分 位数。
贾俊平《统计学》(第7版)考点归纳和课后习题详解(含考研真题)-第四章至第六章【圣才出品】
第4章数据的概括性度量4.1考点归纳【知识框架】【考点提示】(1)集中趋势、离散趋势的度量指标,包括每个指标的含义、计算公式、特点、意义、适用范围(选择题、简答题、计算题考点);(2)众数、中位数和平均数三个指标的特点和应用场合,偏态分布下三个指标的关系(选择题、简答题、计算题考点);(3)分布形状的测度指标:偏态系数和峰态系数的数值含义(选择题、简答题考点)。
(4)标准分数的计算公式及应用(选择题、简答题、计算题考点);(5)经验法则、切比雪夫不等式的具体应用(选择题考点)。
【核心考点】考点一:集中趋势的度量表4-1集中趋势度量指标【注意】不同偏态程度的分布中集中趋势度量指标的关系:①对称分布中,众数、中位数和平均数相等;②左偏分布中,数据存在极小值,拉动平均数向极小值一方靠,而众数和中位数不受极值的影响,有_x<M e<M o;③右偏分布中,数据存在极大值,必然拉动平均数向极大值一方靠,因此M o<M e<_x。
【知识拓展】不同的教材分位数的计算公式不同,除了表中的计算公式,一种比较精确的计算公式:下四分位数Q L的位置=(n+1)/4,上四分位数Q U的位置=(3n+1)/4。
【真题精选】假定标志值所对应的权数都缩小1/10,则算术平均数()。
[浙江财经大学2019研]A.不变B.无法判断C.缩小百分之一D.扩大十倍【答案】A【解析】假设标志值为x,其对应的权数为f,则算术平均数为_x=∑xf/∑f;若各权数都缩小1/10,则新的算术平均数为110110xf xf x x f f '===∑∑∑∑考点二:离散程度的度量数据的离散程度反映了各变量值远离其中心值的程度,离散程度越小,代表性就越好。
表4-2离散程度的度量指标【注意】①表中方差和标准差的计算公式均为样本数据的方差和标准差。
若为总体数据,则分母应为n。
②标准差系数,也称变异系数或离散系数。
③表中平均差、样本方差、样本标准差仅给出了未分组数据的计算公式,分组数据的计算公式实质是等于未分组数据的计算公式,会运用即可。
贾俊平《统计学》(第7版)考点归纳和课后习题详解(含考研真题)-第九章至第十一章【圣才出品】
第9章分类数据分析9.1考点归纳【知识框架】【考点提示】(1)χ2统计量的计算公式及应用(计算题考点);(2)拟合优度检验(一个分类变量)和独立性检验(两个分类变量)(简答题、计算题考点);(3)列联表中的相关测量:三个系数的计算公式、特点及应用(选择题、简答题、计算题考点)。
【核心考点】考点一:χ2统计量(1)χ2统计量计算公式22()o e ef f f χ-=∑f o 表示观察值频数,用f e 表示期望值频数。
(2)χ2统计量的特征①χ2≥0;②χ2统计量的分布与自由度有关;③χ2统计量描述了观察值与期望值的接近程度。
(3)χ2分布与自由度的关系χ2分布随着自由度的增加而向右倾斜,且逐渐趋近于对称的正态分布。
考点二:列联表中的相关测量表9-1列联表的测量指标【真题精选】当列联表中的两个变量相互独立时,计算的相关系数c()。
[中国海洋大学2018研]A.等于1B.大于1C.等于0D.小于0【答案】C【解析】两个随机变量独立,则这两个随机变量不相关,反之不成立。
9.2课后习题详解一、思考题1.简述列联表的构造与列联表的分布。
答:(1)列联表的构造:列联表是将两个以上的变量进行交叉分类的频数分布表。
(2)列联表的分布:列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:(1)构造列联表:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2(2)提出检验问题根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
(3)进行检验建立假设:H0:次品类型与厂家生产是独立的;H1:次品类型与厂家生产不是独立的。
贾俊平《统计学》复习笔记课后习题详解及典型题详解(时间序列分析和预测)【圣才出品】
第13章时间序列分析和预测13.1 复习笔记一、时间序列及其分解1.时间序列(1)概念:时间序列是同一现象在不同时间上的相继观察值排列而成的序列,也称动态数列或时间数列。
(2)时间序列的两要素任何一个时间序列都具有两个基本要素:一是统计指标所属的时间,也称为时间变量;二是统计指标在特定时间的具体指标值。
(3)研究时间序列的目的①在编制时间序列的基础上,可以计算平均发展水平,进行动态水平分析;②可以计算各种速度指标,进行速度分析;③利用相关的数学模型,对现象的变动进行趋势分析。
2.时间序列的类型(1)平稳序列它是基本上不存在趋势的序列。
这类序列中的各观察值基本上都在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,其波动可以看成是随机的。
(2)非平稳序列它是包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能含有几种成分,因此非平稳序列可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。
3.时间序列的4种成分(1)趋势(T)也称长期趋势,它是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动。
时间序列中的趋势可以是线性的,也可以是非线性的。
(2)季节性(S)也称季节变动,它是时间序列在一年内重复出现的周期性波动。
季节性中的“季节”一词是广义的,它不仅仅是指一年中的四季,其实是指任何一种周期性的变化。
(3)周期性(C)也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。
(4)随机性(I)也称不规则波动,它是时间序列中除去趋势、周期性和季节性之后的偶然性波动。
4.时间序列的分解模型将时间序列分解成长期趋势、季节变动、周期变动和随机变动四个因素后,可以认为时间序列Y t是这四个因素的函数,即Y t=f(T t,S t,C t,I t),其中较常用的是加法模型和乘法模型,其表现形式为:加法模型:Y t=T t+S t+C t+I t乘法模型:Y t=T t×S t×C t×I t注意:时间序列组合模型中包含了四种因素,这是时间序列的完备模式,但是并不是在每个时间序列中这四种因素都同时存在。
贾俊平《统计学》(第5版)课后习题-第2章 数据的搜集【圣才出品】
第2章 数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?答:(1)如果与研究内容有关的原信息已经存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据,即二手资料。
(2)在使用二手资料前,对二手资料进行评估是必要的。
对二手资料进行评估应考虑如下一些内容:①资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。
②为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。
③数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据,其解释力和说服力都是不同的。
如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。
数据的质量来源于数据的生产过程。
④什么时候搜集的?对于过时的数据,其说服力自然受到质疑。
另外,使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
答:(1)由于非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。
非概率样本的特点是操作简便、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。
概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所需要的样本量。
当然,概率抽样的技术含量更高,无论抽选样本和对调查数据进行分析,都要求有较高的统计学专业知识,调查的成本也比非概率抽样的调查成本高。
(2)非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试,如产品包装测试、广告测试等,这时不需要将调查结果投影到总体的情况。
贾俊平《统计学》(第7版)考研真题与典型题详解-第2章 数据的搜集【圣才出品】
第2章数据的搜集一、单项选择题1.为了解大学生的消费状况,一学生社团通过微信朋友圈投放调查问卷,并邀请收到问卷的同学在自己的朋友圈内分享问卷。
关于这种调查方式,以下说法正确的是()。
[中央财经大学2018研]A.使用的抽样方式是简单随机抽样B.使用的抽样方式是配额抽样C.使用的抽样方式是非概率抽样D.这种调查不是抽样调查【答案】C【解析】非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
题中的调查方式属于非概率抽样中的滚雪球抽样。
2.为了快速了解北京居民对空气污染问题的态度,最适合的数据收集方式是()。
[中央财经大学2018研]A.面访B.电话调查C.邮寄问卷D.座谈会【答案】B【解析】电话调查是指调查人员通过打电话的方式向被调查者实施调查。
电话调查的最大特点是速度快,能够在很短的时间内完成调查。
而面访、邮寄问卷、座谈会的调查周期都比较长。
3.某居民小区为了解住户对物业服务的看法,准备采取抽样调查方式搜集数据。
物业管理部门利用最初的居民户登记名单进行抽样,但现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户。
由此造成的误差属于()。
[中央财经大学2018研] A.随机误差B.抽样框误差C.计量误差D.无回答误差【答案】B【解析】抽样框误差是指由于抽样框的不完善性造成的统计推断错误。
在概率抽样中需要根据抽样框抽取样本。
一个好的抽样框应该是:抽样框中的单位和研究总体中的单位有一一对应的关系。
现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户,这时,抽样框中的单位与研究总体的单位就不存在一一对应的关系,使用这样的抽样框抽取样本就会出现抽样框误差。
4.为了调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名学生进行调查,这种调查方法是()。
[山东大学2017研;对外经济贸易大学2017研]A.简单随机抽样B.整群抽样C.系统抽样D.分层抽样【答案】C【解析】系统抽样是将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
贾俊平《统计学》(第7版)考点归纳和课后习题详解(含考研真题)(第12章多元线性回归)【圣才出品】
贾俊平《统计学》(第7版)考点归纳和课后习题详解(含考研真题)(第12章多元线性回归)【圣才出品】第12章多元线性回归12.1 考点归纳【知识框架】【考点提⽰】(1)多元线性回归模型,包括回归模型的基本假定(简答题考点),最⼩⼆乘估计(选择题、计算题考点);(2)回归模型的拟合优度评价(简答题、计算题考点);(3)显著性检验(计算题考点);(4)多重共线性的含义、产⽣的问题、判别及处理⽅式(简答题考点)。
【核⼼考点】考点⼀:多元线性回归模型1.回归模型假定(1)E (ε)=0;(2)D (ε)=σ2;(3)()2cov ,0i j i j i j σεε?==?≠?2.参数的最⼩⼆乘估计使残差平⽅和Q =∑(y i -y ∧i )2=∑(y ∧i =β∧0-β∧1x 1-β∧2x 2-…-β∧k x k )2达到最⼩的β∧0,β∧1,β∧2,…,β∧k 。
由此可以得到求解β∧0,β∧1,β∧2,…,β∧k 的标准⽅程组为:00?0?00,1,2,,i i ββi ββQ βQ i k β==??===???多元线性回归的最⼩⼆乘估计是最优线性⽆偏估计。
考点⼆:回归⽅程的拟合优度表12-1 多元线性回归⽅程的评价【提⽰】实际应⽤中,采⽤调整的判定系数来评价多元回归⽅程的拟合优度。
【真题精选】多元线性回归模型的调整的多重判定系数取值范围在0⾄1之间。
[对外经济贸易⼤学2018研]【答案】√【解析】多重判定系数R2=SSR/SST是多元回归中的回归平⽅和占总平⽅和的⽐例,它是度量多元回归⽅程拟合程度的⼀个统计量,反映了在因变量y的变差中被估计的回归⽅程所解释的⽐例,取值为0~1。
调整的多重判定系数R a2与多重判定系数R2不同之处在于:R a2同时考虑了样本量n和模型中⾃变量的个数k的影响,这就使得R a2的值永远⼩于R2,⽽且R a2的值不会由于模型中⾃变量个数的增加⽽越来越接近1,因此R a2的取值也为0~1。
贾俊平《统计学》考研真题(含复试)与典型习题详解(数据的搜集)【圣才出品】
第2章数据的搜集一、单项选择题1.为了调查某校学生的购书费用支出,从各年级的学生中分别抽取100名学生,组成样本进行调查,这种抽样方法属于()。
[浙江工商大学2011研]A.简单随机抽样B.分层抽样C.系统抽样D.整群抽样【答案】B【解析】简单随机抽样就是即使从包括N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的入样概率是相等的;分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计;系统随机抽样也称为机械随机抽样或等距离随机抽样。
它是先将总体中各单位按一定的顺序排列,然后每隔一定的距离抽取一个单位构成样本;整群抽样又称聚类抽样,是将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
2.为调查在中国的省会城市和4个直辖市的居民年收入,需要从这些城市的居民中抽取一个样本,你认为以下四种抽样方式哪一种会得到更有代表性的样本?( )。
[中山大学2011研]A.简单随机抽样B.整群抽样C.系统随机抽样D.分层随机抽样【答案】D【解析】在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合在一起使用;整群抽样又称聚类抽样,是将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查;系统随机抽样也称为机械随机抽样或等距离随机抽样。
它是先将总体中各单位按一定的顺序排列,然后每隔一定的距离抽取一个单位构成样本;分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,分层抽样在实践中得到了广泛的应用。
3.某政府机构想尽快了解社会公众对其出台的一项政策的态度,最恰当的数据搜集方式是( )。
[中央财经大学2011研]A.面访B.深度访谈C.计算机辅助电话调查D.邮寄调查【答案】C【解析】面访即调查者直接走访被调查者,当面听取被调查者的意见。
贾俊平《统计学》复习笔记课后习题详解及典型题详解 第11章~第12章【圣才出品】
圣才电子书 十万种考研考证电子书、题库视频学习平台
4 / 97
圣才电子书 十万种考研考证电子书、题库视频学习平台
图 11-1 不同形态的散点图
(4)相关系数
通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态作出大致的描
有所差异。样本相关系数是总体相关系数的一致估计量。样本相关系数记为 r,其计算公式
为:
r
n xy x y
n x2 ( x)2 n y2 ( y)2
按照上述计算公式计算的相关系数也称为线性相关系数,或 Pearson 相关系数。 ②相关系数的性质 a.r 的取值范围在-1~+1 之间,即-1≤r≤1。若 0<r≤1,表明 x 与 y 之间存在正 线性相关关系;若-1≤r<0,表明 x 与 y 之间存在负线性相关关系;若 r=+1,表明 x 与
5 / 97
圣才电子书 十万种考研考证电子书、题库视频学习平台
y 之间为完全正线性相关关系;若 r=-1,表明 x 与 y 之间为完全负线性相关关系。可见当 |r|=1 时,y 的取值完全依赖于 x,二者之间即为函数关系;当 r=0 时,说明 y 的取值与 x 无关,即二者之间不存在线性相关关系。|r|→1 说明两个变量之间的线性关系越强;|r|→0 说明两个变量之间的线性关系越弱。
b.r 具有对称性。x 与 r 之间的相关系数 rxy 和 y 与 x 之间的相关系数 ryx 相等,即 rxy =ryx。
c.r 数值大小与 x 和 y 的原点及尺度无关。改变 x 和 y 的数据原点及计量尺度,并不 改变 r 的数值大小。
述,但不能准确反映变量之间的关系强度。需要计算相关系数来准确度量两个变量之间的关
系强度。
贾俊平《统计学》(第7版)考点归纳和课后习题详解(含考研真题)-第一章至第三章【圣才出品】
第1章导论1.1考点归纳【知识框架】【考点提示】(1)统计学的目的(选择题考点);(2)描述统计和推断统计的区分、参数估计和假设检验的区分(选择题考点);(3)统计数据类型、分类、各自特点及其具体应用(选择题、简答题考点)(非常重要);(4)统计学中的基本概念(选择题、简答题考点)。
【核心考点】考点一:统计数据的类型(见表1-1)表1-1统计数据的类型【注意】①分类数据和顺序数据说明的是事物的品质特征,其结果均表现为类别,因而也统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,因此也称为定量数据或数量数据。
②对不同类型的数据采用不同的统计方法来处理和分析。
对分类数据可以计算出各类别的频率,而数值型数据则可以进行数学运算。
【真题精选】1.在对数据进行汇总时,往往将男性用“1”来表示,女性用“0”来表示,所以将性别视为数值型变量。
[对外经济贸易大学2018研]【答案】×【解析】数值型变量是说明事物数字特征的一个名称,其取值是数值型数据,数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值;分类变量是说明事物类别的一个名称,其取值是分类数据,分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
性别是分类变量,为便于统计处理,对于分类变量可以用数字代码来表示各个类别。
2.下列数据不属于时间序列数据的是()。
[四川大学2016研]A.1990~2014年我国每年进出口总额B.2014年某品牌手机在中国各个省市的销售量C.成都市2014年每个月的PM2.5月平均浓度D.某股票在2015年1月的日收盘价【答案】B【解析】时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况。
本题中B项是在相同的时间点、不同的空间上获得的数据,属于截面数据。
考点二:统计中的基本概念1.总体和样本(1)总体、个体(2)样本、样本量2.参数和统计量(1)参数:用于描述总体特征,是未知的常数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2章数据的搜集
2.1 复习笔记
一、数据的来源
1.数据的直接来源
数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。
它们的不同之处在于:
(1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。
(2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的;
(3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。
2.数据的间接来源
(1)间接来源的数据(二手资料)
如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。
(2)二手资料的优点
搜集方便;数据采集快;采集成本低。
(3)二手资料的作用
分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。
(4)二手资料的局限性
针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。
(5)对二手资料进行评估的内容
①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力;
②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的;
③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。
如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。
数据的质量来源于数据的产生过程;
④什么时候搜集的?过时的数据的说服力会受到质疑。
(6)使用二手数据的注意事项
使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
二、调查方法
1.概率抽样和非概率抽样
(1)概率抽样
概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
①概率抽样的特点
a.抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观
上有意识地抽取调查单位,使每个单位都有一定的机会被抽中;
b.每个单位被抽中的概率是已知的,或是可以计算出来的;
c.当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
②概率抽样的优点
概率抽样最主要的优点是可以依据调查结果,计算估计量误差,从而得到对总体目标量进行推断的可靠程度。
还可以按照要求的精确度,计算必要的样本单位数目。
这些为统计估计结果的评估提供了有力的依据。
③概率抽样与等概率抽样的区别
概率抽样是指总体中的每个单位都有一定的非零概率被抽中,单位之间被抽中的概率可以相等,也可以不等。
等概率抽样是指总体中的每个单位都以相等的非零概率被抽中,如果单位之间被抽中的概率不等,则称为不等概率抽样。
④概率抽样的方式
a.简单随机抽样
抽样框:抽样框通常包括所有总体单位的信息,它不仅提供了备选单位的名单以供抽选,还是计算各个单位入样概率的依据。
简单随机抽样:也称为纯随机抽样,指从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位的入样概率是相等的。
简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。
特点:简单、直观,在抽样框完整时,可以直接从中抽取样本,由于每个单位被选中概率相同,能比较方便的用样本统计量对目标量进行估计及计算估计量误差。
局限性:第一,它要求将包含所有总体单位的名单作为抽样框,当总体单位个数N很
大时,很难构造这样的抽样框;第二,根据这种方法抽出的单位很分散,给实施调查增加了困难;第三,没有利用其他辅助信息以提高估计的效率。
b.分层抽样
概念:分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。
优点:第一,保证样本中含有总体各种特征的抽样单位,样本的结构与总体的结构相近,有效地提高估计的精度;第二,在一定条件下使组织实施调查更加方便(当层的划分是按行业或行政区划进行时);第三,在对总体参数进行估计的同时,也可以对各层的目标量进行估计等等。
缺点:整体差异不明显时不适用,在使用时需要与其他抽样方法综合使用。
c.整群抽样
概念:将总体中若干个单位合并为组,这样的组称为群。
抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。
优点:与简单随机抽样相比,整群抽样的优点在于简化了编制抽样框的工作量,并且调查的地点相对集中,减少调查费用,易于调查实施。
缺点:整群抽样的主要缺点是估计的精度较差。
在样本量相同的情况下,整群抽样的抽样误差通常比较大,所以要得到与简单随机抽样相同的精度,需要增加基本调查单位。
d.系统抽样
概念:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先制定好的规则确定其他样本单位,这种抽样方法称为系统抽样。
优点:操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提
高估计的精度。
缺点:对估计量方差的估计比较困难。
e.多阶段抽样
概念:采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。
因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样,将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。
优点:具有整群抽样的优点。
第一,样本相对集中,减少调查费用;第二,不需要包含所有低阶段抽样单位的抽样框;第三,由于实行了再抽样,使调查单位在更广泛的范围内展开。
适用范围:在较大规模的抽样调查中,多阶段抽样是经常被采用的方法。
(2)非概率抽样
非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
表2-1 非概率抽样的方式
抽样方式
(3)概率抽样与非概率抽样的比较
①概率抽样是依据随机原则抽选样本,样本统计量的理论分布存在,而非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的。
②概率抽样可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,而非概率抽样无法做到这些。
③概率抽样适合调查目的在于掌握研究对象总体的数量特征的调查,而非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备。
④概率抽样的技术含量高,要求有较高的统计学专业知识,调查的成本比较高,而非概率抽样操作简便,时效快,成本低,对抽样中的统计专业技术要求不是很高。
2.搜集数据的基本方法
样本单位确定之后,对这些单位实施调查,即从样本单位那里得到所需要的数据,可以采用不同的方法,搜集数据的基本方法有以下几种。