统计学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章
第三节统计学的基本分科
一、描述统计学和推断统计学
描述统计学是关于已有数据分类组织、汇总显示、定量概述、分析解释的统计方法论。

主要目标:一是约简数据,二是发现和概括数据的有用信息。

推断统计学是指根据样本推断总体或根据已知推测未知的统计方法论。

主要目标:一是通过样本数据估计总体未知状况或检验总体某种假设,二是根据推断总体目的设计适当抽样或试验方法,获得有效样本。

二、理论统计学和应用统计学
理论统计学指统计学的数学原理或统计方法的数学理论(数理统计学)。

应用统计学指特定领域数据的统计处理方法和统计分析方法。

7.简述变量分组的种类及应用条件。

答:变量分组包括单项式分组和组距式分组。

离散变量变动幅度小,分组可以选择单项式分组。

如果离散变量的变动幅度较大,分组应该选择组距式分组。

而对于连续变量只能用组距式分组。

11.简述抽样推断的概念及特点?
答:抽样推断是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的统计分析方法。

特点:(1)是由部分推算整体的一种认识方法论(2)建立在随机取样的基础上(3)运用概率估计的方法(4)抽样推断的误差可以事先计算并加以控制。

第四节统计学的几个基本概念
一、总体、单位与样本
统计总体(statistical population)是指根据统计研究目的确定的具有某种共同性质的对象全体。

组成总体的每一不可分割的事物或实体为该总体的个体或单位,从总体中选出的部分单位组成该总体的一个样本(sample),样本中的个体(单位)称样品。

二、变量
同类事物可定性区别和定量确定的某种属性或特征称为变量(variable),特定事物属性或特征表现就是值(value )或变量值,不同事物有不同的值。

简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。

分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。

系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。

整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,随后再对抽中的各个群中所包含的所有元素进行观察。

抽样误差:是由于抽样的随机性引起的样本结果与总体真值之间的误差。

单项式分布:是一个变量值作为一个组别的分布。

适合于离散型变量(定性变量和离散定量变量)。

次数分布:列举出变量的所有值并数出不同值的次数(frequency)。

为对比分析不同分布,用频率分布消除总次数影响。

组距式分布:是将变量值依次划分为若干区间,一个区间内的变量值为一组的分布。

适合于所有定量变量。

众数(Mode)——分布中次数最多的变量值,简记为Mo
中位数(Median)——处于分布中点位次的变量值,简记为Me
均数或均值(Mean)——已知变量值的算术平均值,反映平均每个变量值(数字)的数值大小
全距(range),又称极差,是变量的最大值与最小值之差。

变异:同类事物的属性差异称为变异。

变异表现为变量值的差别,即分布的离中趋势或散布状
标准差(Standard Deviation)是离差的均方根,说明每一个变量值与均值的平均差异(距离),是统计学中最重要的变异指标。

离散系数(Coefficient of Variation)表明变异的相对程度
方差:是离差的均方(MS, Mean of Squares)或标准差的平方
茎叶图是一种结合分组方法、直方图技术展示原始数据的数值图示法。

基本的箱线图(或Box-and-whisker plot)是用一组数据的最小值、下四分位数、中位数、上四分位数、最大值绘制的由一个箱形和两条尾线表现分布特征的统计图。

估计标准误差:是因变量各实际值与其估计值(回归值)之间的平均差异程度
抽样分布:统计量的概率分布。

即抽取容量相同的所有可能样本后,统计量的所有可能值形成的分布。

研究两个问题:(1)统计量服从什么形式的分布?(2)统计量的数字特征?
两种研究方法:(1)求精确分布(小样本方法):在确定样本容量下,直接由总体分布导出统计量确切概率分布。

(2)求渐进分布(大样本方法):在样本容量无限增大条件下,推导统计量极限分布或近似分布。

参数估计:用来估计未知参数θ的统计量ˆ 称为参数θ的估计量。

估计量在特定样本上的观测值称为估计值。

统计量:用来描述样本特征的概括性数字度量。

统计假设.简称假设,指对总体未知状况的某种陈述。

检验假设:简称检验,指根据样本信息对假设真伪作出判断的过程或方法,本质上是依据一定规则作决策。

原假设:是研究者想收集证据予以反对的假设。

备择假设:是研究者想收集证据予以支持的假设。

第一类错误:当原假设为真时,作出拒绝原假设所犯的错误,其概率为@。

第二类错误:当原假设为假时,作出接受原假设所犯的错误,其概率为2。

显著性水平:假设检验中犯第一类错误的概率被称为显著性水平。

显著性水平是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率和风险。

P值:P值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。

在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。

因素(fector),因子——可能对试验结果产生显著影响的可控研究要素或条件。

方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响单因素方差分析——只考虑一个因素的方差分析。

多因素方差分析——考虑两个或两个以上因素。

水平(level) ,处理——因素在试验中的状态个数称为分类水平(class level) 。

函数关系:是事物确定性、肯定性因果关系的数量表现。

相关关系:是事物非确定性、随机性联系的数量表现。

是变量之间客观存在,但关系值不严密、不稳定的相互依存关系。

组内误差(SSE)是指每个水平或组的个样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况.
组间误差(SSA)是指各组平均值i与总平均值的误差平方和,反映各样本均值之间的差异程度。

交互作用是指几个因素搭配在一起会对因变量产生一种新的效应的作用。

相关分析是一种分析几个变量之间是否存在关系以及它们的关系如何的统计方法。

回归模型:对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。

描述因变量y 如何依赖于自变量x 和误差项的方程称为回归模型。

所谓最小二乘估计(LSE ,Least Squares Estimation )就是指求得的估计量0ˆβ、1
ˆβ是使估计误差平方和(SSE ,Sum of Squares for Error )最小的估计量
估计误差的均方根(Root MSE )也称回归估计标准误(standard error),说明平均估计误差的大小:
RootMSE =
回归平方和占总离差平方和的比重称为决定系数 (coefficient of determination),记作R 2
时间序列:是指按相等间隔时间次序收集的同一现象的一系列观测
长期趋势(Long Tendency )——受事物发展惯性或内在驱动因素影响,时间序列在一段较长时期内表现出的持续向上、向下或水平变动的态势,简称趋势(trend)。

季节变动(Seasonal Fluctuations )——受气候、传统、制度等因素影响,间隔小于一年的时间序列表现出的有固定周期的重复性波动。

循环波动(Cyclical Fluctuations )——受成长性规律、外部环境等因素影响,时间序列表现出的没有固定周期的波浪形或振荡式变动。

通常一个循环的时间长度在一年以上,且周期长短不一,难以识别。

不规则变动(Irregular Variations )——受不可控突然事件和随机因素影响,时间序列表现出的偶然性变动。

不规则变动存在于所有时间序列,并且总与其他因素交织在一起。

(发展速度 增长速度)略
简单平均——时间序列平滑值是过去已有数据的简单平均值
一次移动平均——时间序列平滑值总是最近 N 项数据的平均值,称为移动平均(the Moving Average )。

移动项数 N 也称移动窗口(window)宽度
一次指数平滑——时间序列平滑值是过去已有数据以指数幂为权数的加权平均值。

传统分解就是把一个时间序列“拆散”为trend 、cycle 、seasonal 、irregular 四个组件。

由于循环波动没有固定周期不易首先分离,趋势和循环常被联合为trend-cycle 成分。

四分位数:也称四分位点,他是一组数据排序后处于25%和75%位置上的值。

四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。

相关系数:是根据样本数据计算的,度量两个变量之间线性关系强度的统计量。

统计量:用来描述样本特征的概括性数字度量。

独立样本:如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立
匹配样本:一个样本中的数据与另一个样本中的数据相对应。

自由度:独立变量的个数
中心极限定理:设从均值为m ,方差为s 2的一个任意总体中抽取容量为n 的样本,当n 充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布
估计量(参数估计):用于估计总体参数的随机变量
估计值:估计参数时计算出来的统计量的具体值
点估计:用样本统计量的某个取值直接作为总体参数的估计值。

区间估计:是在点估计的基础上,给出总体参数的一个置信区间。

置信区间:由样本统计量所构造的总体参数的估计区间
置信水平:也称为置信系数,它是将构造置信区间的步骤重复多次后,置信区间中包含总体参数真值的次数所占的比率。

假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。

单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号<或>的假设检验。

拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合
临界值:根据给定的显著性水平确定的拒绝域的边界值。

相关关系:变量之间存在的不确定的数量关系。

相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。

3统计学的类型和不同类型的特点
统计数据;按所采用的计量尺度不同分;
(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;
(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。

它也是有类别的,但这些类别是有序的。

(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。

统计数据;按统计数据都收集方法分;
观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。

实验数据:在实验中控制实验对象而收集到的数据。

统计数据;按被描述的现象与实践的关系分;
截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。

时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据
一组数据的分布特征可以从哪几个方面进行测度?
数据分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或集中的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。

简述众数、中位数和平均数的特点和应用场合?
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。

众数只有在数据量较多时才有意义,数据量较少时不宜使用。

主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受极端值的影响。

当数据的分布偏斜较大时,使用中位数也许不错。

主要适合作为顺序数据的集中趋势测度值。

平均数对数值型数据计算的,而且利用了全部数据信息,在实际应用中最广泛。

当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。

但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。

为什么要计算离散系数?
方差和标准差是反映数据分散程度的绝对值,一方面其数值大小受原变量值本身水平高低的影响,也就是与变量的平均数大小有关;另一方面,它们与原变量的计量单位相同,采用不同计量单位的变量值,其离散程度的测度值也就不同。

因此,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

比较概率抽样和非概率抽样的特点,指出各自适用情况
概率抽样:抽样时按一定的概率以随机原则抽取样本。

每个单位别抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。

技术含量和成本都比较高。

如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置信区间,就使用概率抽样。

非概率抽样:操作简单,时效快,成本低,而且对于抽样中的统计学专业技术要求不是很高。

它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。

它同样使用市场调查中的概念测试(不需要调查结果投影到总体的情况)。

相关文档
最新文档