中级经济师经济基础(四统计)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二十三章统计与统计数据
1、统计学是关于收集、整理、分析数据和从数据中得出结论的科学。

统计学有两个分支：描述统计和推断统计。

描述统计是研究数据收集、整理和描述的统计学方法。

内容包括如何取得所需要的数据，如何用图表或数学方法对数据进行整理和展示，如何描述数据的一般性特征。

推断统计是研究如何利用样本数据来推断总体的统计学方法，内容包括参数估计和假设检验两大类。

参数估计是利用样本信息推断总体特征；假设检验是利用样本信息判断对总体的假设是否成立。

统计学是帮助我们认识周围世界的工具，描述统计和推断统计可以一起发挥作用，具体使用哪种方法取决于要解决的问题。

2、变量：是研究对象的属性或特征，它是相对于常数而言的。

常数只有一个固定取值，而变量可以有两个或更多个可能的取值。

当变量的取值是数量是，该变量被称为定量变量或数量变量。

例如企业销售额、注册员工数量等。

当变量的取值表现为类别时则被称为分类变量，比如企业所属行业。

（定性变量）
当变量的取值表现为类别且具有一定顺序时被称为顺序变量，比如员工受教育水平。

（定性变量）3、数据是对变量进行测量、观测的结果。

数据根据需要可以是数值、文字或者图像等形式。

分类变量的观测结果称为分类数据，表现为类别，一般用文字来表述，也可以用数值代码表示；数值型数据是对定量变量的观测结果，其取值表现为具体的表示大小或多少数值。

4、统计数据，按其收集方法，可以分为观测数据（通过直接调查或测量而收集到的数据，是在没有对事物施加任何人为控制因素的条件下得到的，几乎所有与社会经济现象有关的统计数据，如GDP、CPI、房价等）和实验数据（通过在实验中控制实验对象以及其所处的实验环境收集到的数据）。

5、统计数据的来源（2种）：①直接的调查和科学实验，称为直接数据或一手数据；一手数据的来源调查或观察、实验，在社会经济领域，统计调查是获得数据的主要方法，也是获得一手数据的重要方式。

②别人的调查或实验的数据，称为间接数据或二手数据。

6、统计调查是按照预定的目的和任务，运用科学的统计调查方法，有计划有组织地搜集数据信息资料的过程。

特征（2个）：调查是一种有计划、有方法、有程序的活动；调查的结果表现为搜集到的数据。

统计调查的分类（2个）：①按调查对象的范围不同，分为全面调查和非全面调查。

全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查，包括全面统计报表和普查。

非全面调查是对调查对象中的一部分单位进行调查，包括非全面统计报表、抽样调查、重点调查和典型调查等。

②按调查登记的时间是否连续，分为连续调查和不连续调查。

连续调查是为了观察总体现象在一定时期内（通常是一年内）的数量变化，它要求随着调查对象的发展变化，连续地进行调查登记。

不连续调查是间隔一个相当长的时间（通常是一年以上）所做的调查，一般是为了对总体现象在一定时点上的状态进行研究。

7、统计调查的方式（5个）：
①统计报表：是我国目前搜集统计数据的一种重要方式。

是按照国家有关法规的规定，自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。

统计报表要以一定的原始数据为基础，按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。

种类（2种）：⑴全面统计报表要求调查对象中的每一个单位都填报；⑵非全面统计报表只要求调查对象中的一部分单位填报。

②普查：是为某一特定目的而专门组织的一次性全面调查，如人口普查、经济普查、农业普查等。

特点（4个）：⑴普查通常是一次性的或周期性的，经济普查每10年2次，在尾数3、8的年份实施；人口普查逢“0”的年份进行；农业普查逢“6”的年份进行。

⑵普查一般需要规定统一的标准调查时间，以避免调查数据的重复或遗漏，保证普查结果的准确性。

第五和第六次人口普查的标准时间为11月1日0时，农业普查的标准时间为1月1日0时。

⑶普查的数据一般比较准确，规范化程度也较高，因此他可以为抽样调查或其他调查提供基本依据；⑷普查的使用范围比较窄，职能调查一些最基本及特定的现象。

③抽样调查：是从调查对象的总体中抽取一部分单位作为样本进行调查，并根据样本调查结果来推断总体数量特征的一种非全面调查。

特点（4个）：经济性；时效性强，适应面广；准确性高。

上，有意识地选择若干具有典型意义的或有代表性的单位进行的调查。

作用（2个）：弥补全面调查的不足；在一定条件下可以验证全面调查数据的真实性。

优点：灵活机动、通过少数典型单位即可深入翔实的统计资料。

缺点：受主观认识的影响。

第二十四章描述统计
1、对于数据分布特征的测度主要分（3个方面）：①分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度；②分布的离散程度，反映各数据之间的差异程度，也能反映中心值对数据的代表程度；③分布的偏态，反映数据分布的不对称性。

对于两个定量变量之间的相关分析，经常采用的描述方法是散点图和相关系数统计数量。

2、集中趋势：是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。

集中趋势的测度也就是寻找数据水平的代表值或中心值。

①均值：也叫作平均数，就是数据组中所有数值的总和除以该组数字的个数。

均值是集中趋势最主要的测度值，它是一组数据的重心所在，解释了一组数据的平均水平。

它主要适用于数据型诗句，但不适用分类和顺序数据。

②中位数：是把一组数据按从小到大或从大到小的顺序进行排列，位置居中的数值，如果为偶数的话，是居中两位数值的平均值。

中位数是一个位置代表值，主要用于顺序数据和数值型数据，但不适用于分类数据。

③众数：是指一组数据中出现次数（频数）最多的变量值。

众数适用于描述分类数据和顺序数据的集中趋势。

而在定量数据中，可能出现多众数和无众数的情况，因此众数不适于描述定量数据的集中位置。

均值、中位数和众数的比较及适用范围。

①均值适于定量变量。

优点：能够充分利用数据的全部信息，均值大小受到每个观测值的营销，比较稳定；缺点：易受极端值的影响，如果观测值种有明显的极端值，则均值的代表性比较差。

②中位数不适于分类变量，适于顺序变量和定量变量，特别是分布不对称的数据。

优点：不受极端值的影响；缺点：没有充分利用数据的全部信息，稳定性差于均值，优于众数。

③众数不适用于定量变量，主要适用于分类和顺序变量。

优点：不受极端值影响，尤其是分布明显呈偏态时，众数的代表性更好。

缺点：没有充分利用数据的全部信息，确定稳定性，而且可能不唯一。

3、离散程度：反映的是数据之间的差异程度。

集中趋势的测度值是对数据水平的一个概括性的度量，它对一组数据的代表程度，取决于该组数据的离散水平。

数据的离散程度越大，集中趋势的测度值对该组数据的代表性就越差，离散程度越小，其代表性越好。

①方差：是数据组中各数值与其均值离差平方的平均数，它能较好的反应出数据的离散程度，是实际中应用最广泛的离散程度测度值。

方差越小，说明数据值与均值的平均距离越小，均值的代表性越好。

②标准差，用来测度数据的离散程度，标准差即方差的平方根，对于样本数据。

标准差不仅能度量数值与均值的平均距离，还与原始数据具有相同的计量单位。

标准差与方差计算比较简单，又具有比较好的数学性质，是应用最广泛的统计离散程度的测度方法。

方差与标准差只适用于数值型数据。

③离散系数：也称为变异系数或标准差系数，即标准差与均值的比值，主要用于不同类别数据离散程度的比较，记为CV。

CV＝标准差的大小不仅与数据的测度单位有关，也与观测值的均值大小有关，不
能直接用标准差比较不同变量的离散程度。

离散系数消除了测度单位和观测值水平不同的影响，因为可以直接用来比较变量的离散程度。

4、偏度：是指数据分布的偏斜方向和程度，描述的是数据分布对称程度。

偏态系数：是测度数据分布偏度的统计量。

SK＝
偏态系数取决于离差三次方的平均数与标准差三次方的比值。

如果偏态系数＝0，则说明数据的分布是对称的；如果偏态系数为正值，说明分布为右偏，取值0-0.5之间轻度右偏，取值0.5-1之间中度右偏，＞1严重右偏；如果偏态系数为负值，说明分布左偏，（-0.5）-0之间轻度左偏，（-0.5）-（-1）之间中中度左偏，＜（-1）严重左偏。

偏态系数的绝对值越大，说明数据分布的偏斜程度越大。

5、标准分数：在统计上，均值和标准差不同时，不同变量的数值是不能比较的。

标准分数可以给出数值
距离均值的相对位置，计算方法是用数值减去均值所得的差除以标准差，计算公式：＝标准分数也称为Z分数，是统计上常用的一种标准化方法。

6、变量间的相关关系（3种）：
个变量之间的关系介于完全相关和不相关之间。

②按相关的方向可分为正相关和负相关。

⑴正相关：当一个变量的取值由小变大，另一个变量的取值也相应由小变大；⑵负相关：当一个变量的取值由小变大，而另一个变量的取值相反的由大变小。

③按相关的形式可分为线性相关和非线性相关。

⑴线性相关：是指两个相关变量之间的关系大致呈现为线性关系；⑵非线性相关：是指两个相关变量之间，并不表现为直线的关系，而是近似于某种曲线方程的关系。

7、散点图：两个变量间的关系可以用散点图来展示。

在散点图种，每个点代表一个观测值，横纵坐标值分别代表两个变量相应的观测值。

8、相关系数：是度量两个变量间相关关系的统计量。

Pearson相关系数（最常用）：度量的是两个变量间的线性相关关系。

Pearson相关系数的取值范围在+1和-1之间，即-1≤r≤1。

若0＜r≤1，正线性相关关系；
若-1≤r＜0，则负线性相关关系；
若r＝1，完全正线性相关；
若r＝-1，完全负线性相关；
若r＝0，不存在线性相关关系，并不是没有任何关系。

若＝1，变量Y的取值完全依赖于X。

第二十五章抽样调查
1、抽样调查（使用频率最高）：是指按照某种原则和程序，从总体中抽取一部分单位，通过对这一部分单位进行调查得到的信息，以达到对总体情况的了解，或者对总体的有关参数进行估计。

（3个概念）：①总体与样本：总体即调查对象的主体，样本是总体的一部分，它由从总体中按一定原则或程序抽出的部分个体所组成；
②总体参数与样本统计量：总体参数是我们所关心变量的数字特征，它是根据总体中所有的单位的数值计算的，也可以说是总体指标值，它是未知的常数，常用的有总体总量、总体均值、总体比例、总体方差等；样本统计量是根据样本中各单位的数值计算的，是对总体参数的估计，因此也称为估计量，是一个随机变量，它取决于样本设计和正好被选入样本的单元特定组合，常用的有样本均值、样本比例、样本方差等。

③抽样框：是供抽样所用的所有抽样单元的名单，是抽样总体的具体表现，常用的有名录框（企业名录、电话簿、人员名册）、一张地图或其他适当形式。

2、抽样的类别（2种）：
①概率抽样：也称随机抽样，是指依据随机原则，按照某种事先设计的程序，从总体中抽取部分单元的方法。

特点：⑴按一定的概率以随机原则抽取样本；⑵总体中每个单元被抽中的概率是已知的或者是可以计算出来的；⑶当采用样本对总体参数进行估计时，要考虑到每个样本单元被抽中的概率；
②非概率抽样：又称为非随机抽样，是调查者根据自己的方便或主观判断抽取样本的方法，其主要特征是抽取样本时并不是依据随机原则。

方法：⑴判断抽样；⑵方便抽样；⑶自愿样本；⑷配额抽样。

3、抽样调查的步骤（5个）：①确定调查问题；②调查方案设计；③实施调查过程；④数据处理分析；⑤撰写调查报告。

4、抽样调查中的误差：样本估计值和总体参数真值之间的差异称为误差。

误差种类（2种）：
①抽样误差：是由于抽样的随机性造成的，用样本统计量估计总体参数时出现的误差；
②非抽样误差：是指除抽样误差以外，由其他原因引起的样本统计量与总体真值之间的差异。

产生原因（3种）：⑴抽样框误差：由于抽样框不完善造成的；⑵无回答误差：现场调查中由于各种原因，调查人员没有能够从被调查者那里得到所需要的数据，如被调查者不在家、因病无法接受调查、拒绝接受调查等；⑶计量误差：是指由于调查所获得的数据与其真值之间不一致造成的误差，如对问题理解偏误、记忆不清、提供虚假数字等。

5、基本概率抽样的方法（5种）：
①简单随机抽样：最基本的随机抽样方法。

（2种）：⑴有放回简单随机抽样：是指从总体中随机抽出一个样本单位，记录观测结果后，将其放回到总体中去，再抽取第二个，如此类推，一直到抽满为止；⑵不放回简单抽样：从总体中逐个随机地抽取单元并不放回，每次都在所有尚未被抽入样本的单元中等概率抽取下一个单元，直到抽满为止。

适用条件：⑴抽样框汇总没有更多可以利用的辅助信息；⑵调查对象分布的范围不广阔；⑶个体之间的差异不是很大。

②分层抽样：指先按照某种规则把总体分为不同的层，然后在不同的层内独立、随机地抽取样本。

如果每层种的抽样都是简单随机抽样，则成为分成随机抽样。

优点（3个）：⑴不仅可以估计总体参数，同事也可以估计各层的参数；⑵便于抽样工作的组织；⑶每次都要抽取不定的样本单位，这样样本在总体中分布比较均匀，可以降低抽样误差。

应用条件：抽样框种有足够的辅助信息，能够将总体单位按某种标准划分到各层之中，实现同一层内，各单位之间的差异尽可能地小，不同层之间各单位的差异尽可能地大。

③系统抽样：指现将总体中的所有单元按照一定顺序排列，在规定范围内随机抽取一个初始单元，然后按实现规定的规则抽取其他样本单元。

最简单的系统抽样是等距抽样。

优点：操作简便；对抽样框的要求也比较简单。

缺点：方差估计比较复杂，这就给计算抽样误差带来一定困难。

排列，精度一般比简单随机抽样的精度高。

④整群抽样：是将总体中所有的基本单位按照一定规则划分为互不重叠的群，抽样时直接抽取群，对抽中的群调查其全部的基本单位，对没有抽中的则不进行调查。

优点：实施调查方便，可以节省费用和时间；抽样框编制得以简化，抽样时只需要群的抽样框，而不要求全部基本单位的抽样框。

缺点：由于抽取的样本单位比较集中，群内各单位之间存在相似性，差异比较小，而群与群之间的差别往往比较大，使得误差比较大。

⑤多阶段抽样：在大规模抽样调查中，一次抽取到最终样本单位很难实现，需要经过二个或二个以上阶段才能抽到最终样本单位。

必要性：首先，在大范围抽样调查中，往往没有包括所有总体单位的抽样框，或者编制这样的抽样框十分款男；其次，因为多阶段抽样是在中选单位中在抽选，这样就使样本的分布相对集中，从而可以节省调查中的人力和财力。

多阶段抽样设计比较复杂，所以抽样误差计算也比较复杂。

6、估计量的性质：在不同的抽样方法下，统一估计量也会有不同的估计效果。

估计量的常用选择标准（3个）：①估计量的无偏性：对于不放回简单随机抽样，所有可能的样本均值取值的平均值总是等于总体均值；②估计量的有效性；由于方差是度量分布密集或离散情况的重要指标，估计量方差常用于描述抽样误差，估计量方差越大，效率越低，抽样误差越大；③估计量的一致性：也称为一致估计量，指随着样本量的增大，估计量的值稳定于与总体参数的真值。

7、抽样误差的估计：抽样误差与总体分布有关，总体单位值之间的差异越大，即总体方差越大，抽样误差就越大；抽样误差与样本量n有关，在其他条件相同的情况下，样本量越大，
7、样本量的影响因素（5个）：①调查的精度：精度越高，误差越小，需要的样本量越大；②总体的离散程度：离散程度越大，样本量越大；③总体的规模：对大规模没有影响，对小规模来说：总体规模越大，样本量越大；④无回答情况：无回答减少了有效样本量；⑤经费的制约：样本量是调查经费与调查精度之间的某种折中和平衡。

第二十六章回归分析
1、回归分析：：就是根据相关关系的具体形态，选择一个合适的数学模型，来近似地表达便变量间的依赖关系。

相关分析需要依靠回归分析来表明现象数量相关的具体形式，而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。

相关分析研究变量之间相关的方向和相关的程度，不能指出变量间的相互关系的具体形式，也无法从一个变量的变化来推测另一个变量的变化情况。

回归分析则是研究变量之间相互关系的具体形式，它对具有相关关系的变量之间的数量联系进行测定，确定一个相关的数学方程式，根据这个数学方程式可以从已知量来推测未知量，从而为估算和预测提供了一个重要的方法。

进行回归分析时，先确定自变量和因变量。

2、根据自变量的多少可以分为一元回归模型和多元回归模型；根据回归模型是否线性分为线性回归模型和非线性回归模型。

一元线性回归模型：是描述两个变量之间相关关系的最简单的回归模型。

Y＝+Y+
一元线性回归方程：E（Y）＝+Y
3、最小二乘法：就是使得因变量的观测值与估计值之间的离差（又称残差）平方和最小来估计参数和
的方法.
4、回归模型的拟合效果分析：一般情况下，在使用估计的回归方程之前，需要对模型进行检验：①结合经济理论和经验分析回归系数的经济含义是否合理；②分析估计的模型对数据的拟合效果如何；③对模型进行假设检验。

决定系数（一元线性回归模型拟合效果的测度方法）：也称为，可以测度回归直线对样本数据的拟合程度，取值在0到1之间。

决定系数越高，模型的拟合效果就越好。

＝1，说明回归直线可以解释因变量的所有变化；＝0，说明回归直线无法解释因变量的变化，因变量的变化与自变量无关。

5、模型预测：回归分析的一个重要应用就是预测，即利用估计的回归模型预估因变量数值。

第二十七章时间序列分析
1、时间序列：也称动态序列，是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列。

时间序列的构成（2个因素）：一个是被研究现象所属时间；一个是反映该现象一定时间条件下数量特征的指标值。

时间序列按照其构成要素中统计指标值的表现形式（3种类型）：绝对数时间序列；相对数时间序列；平均数时间序列。

绝对数时间序列是有绝对数指标值按时间先后顺序排列后形成序列。

（2种）时期序列：每一指标值反映现象在一段时期内发展的结果，即“过程总量”；时点序列：每一指标值反映现象在一定时点上的瞬间水平。

相对数时间序列和平均数时间序列是由绝对数时间序列派生出来的。

2、发展水平：是时间序列中对应于具体时间的指标数值。

也就是说，在绝对数时间序列中，发展水平就是绝对数；在相对数和平均数时间序列中，发展水平表现为相对数或平均数。

根据各期指标值在计算动态分析指标时的作用来划分，又可以分为基期水平和报告期水平。

基期水平是作为对比的基础时期的水平；报告期水平则是所要反映与研究的那一时期的水平。

3、平均发展水平：也称序时平均数或动态平均数，是对时间序列中各时期发展水平计算的平均数，它可以概括性描述现象在一段时期内所得到的一般水平。

时间序列类型不同，计算方法也不同。

①绝对数时间序列序时平均数的计算：⑴由时期序列计算序时平均数：＝
＝
⑵由时点序列计算序时平均数：连续时点,逐日登记：＝
＝
连续时点，变动登记：＝＝
间断时点，等时间间隔：＝
间断时点，不等时间间隔：＝
②相对数或平均数时间序列序时平均数的计算。

相对数或平均数通常是由两个绝对数对比形成的。

必须分别求出分子指标和分母指标时间序列的序时平均数，然后在进行对比。

＝
4、增长量：是报告期发展水平与基期发展水平之差，反映报告期比基期增加（减少）的绝对数量。

增长量＝报告期水平 - 基期水平 ①逐期增长量：是报告期水平与前一期水平之差，＝
②累计增长量：是报告期水平与某一固定一期水平之差，＝
＝（）
5、平均增长量：是时间序列中逐期增长量的序时平均数，它表明现象在一定时段内平均每期增加（减少）
的数量。

＝（）
＝
6、发展速度：事宜相对数形式表示的两个不同时期发展水平的比值，表明报告期水平已发展到基期水平的几分之几或若干倍。

发展速度＝
报告期水平基期水平
①定基发展速度是报告期水平与某一固定时期水平的比值。

＝
定基发展速度和环比发展速度的数量依存关系（2种）： ①定基发展速度等于相应时期内各环比发展速度的连乘积：
＝
②两个相邻时期定基发展速度的比率等于相应时期的环比发展速度：
＝
7、增长速度：是报告期增长量与基期水平的比值。

表明报告期水平比基期增长（或降低）了若干倍（或百分之几）。

增长速度＝
报告期增长量基期水平
①定基增长速度（增长量为累计增长量）：＝
＝ -1 ②环比增长速度（增长量为逐期增长量）：＝
＝ -1
发展速度与增长速度是对社会经济现象进行动态分析的基本指标，应用中要注意的问题是：定基增长速度与环比增长速度不能像定基发展速度与环比发展速度那样互相推算，因为定基增长速度不等于相应时期内各环比增长速度的连乘积；两个相邻的定期增长速度的比率也不等于相应时期的环比增长速度。

定基增长速度与环比增长速度之间的推算，必须通过定基发展速度与环比发展速度才能进行。

8、平均发展速度（反映现象在一定时期内逐期发展变化的一般程度）与平均增长速度（反映现象在一定时期内逐期增长（降低）变化的一般程度）：是两个非常重要的平均速度指标。

平均增长速度是通过它与平均发展速度之间的数量关系求得：平均增长速度＝平均发展速度-1
9、速度分析与应用：当时间序列中的指标值出现0或负数时，不宜计算速度；速度指标的数值与基数的大小有密切关系，“增长1%的绝对值”是进行这一分析的指标。

他反映同样的增长速度，在不同时间条件下所包含的绝对水平。

增长1%的绝对值＝
逐期增长量
环比增长速度
＝
＝
10、平滑预测法：平滑法的目的就是“消除”时间序列的不规则成分所引起的随机波动，包括移动平均法
和指数平滑法；适用于平稳时间序列的预测。

移动平均法：使用时间数列中最近k 期数据值的平均数作为下一期的预测值。

指数平滑法：是利用过去时间序列值的加权平均数作为预测值，即使得第t+1期的预测值等于第t 期的世纪观察值与第t 期的预测值的加权平均值。

特点：观测值离预测时期越久远，其权重也变得越小，呈现出指数下降，因而称为指数平滑。

＝ +（1- ）平滑系数（即权重），取值范围为0＜＜1。