时间序列分析方法概论.pptx

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• “遗失数据”的现象是经常发生的,在中国,经济体 制和核算体系都处于转轨之中。在出现“遗失数据” 时,如果样本容量足够大,样本点之间的联系并不紧 密的情况下,可以将“遗失数据”所在的样本点整个 去掉
• 如果样本容量有限,或者样本点之间的联系紧密,去 掉某个样本点会影响模型的估计质量,则要采取特定 的技术将“遗失数据”补上
查资料。
样本数据的质量
• 完整性(不能有遗失数据,必要时,采用插值技术补 上)
• 准确性(准确真实且数据口径方面也符合建模要求)
• 可比性(将范围口径和价格口径调整一致)
• 一致性——同质性(样本与母体一致),用31个省市 的数据作为全国总量模型的数据就违反了一致性
完整性
• 指模型中包含的所有变量都必须得到相同容量的样本 观测值。这既是模型参数估计的需要,也是经济现象 本身应该具有的特征
可比性
• 是通常所说的数据口径问题
• 得到的经济统计数据,一般可比性较差,其原因在于 统计范围口径的变化和价格口径的变化,必须进行处 理后才能用于模型参数的估计
• 计量经济学方法,是从样本数据中寻找经济活动本身 客观存在的规律性,如果数据是不可比的,得到的规 律性就难以反映实际
• 不同的研究者研究同一个经济现象,采用同样的变量 和数学形式,选择的样本点也相同,但可能得到相差 甚远的结果。原因在于样本数据的可比性
时间数列的编制原则
• 基本原则是保证可比性,主要包括:
̶ 时 间 上可 比 ̶ 总体范围可比 ̶ 计算口径可比 ̶ 经济内容可比
一致性
• 指母体与样本的一致性
• 违反一致性的情况经常会发生
– 用企业的数据作为行业生产函数模型的样本数据, 用人均收人与消费的数据作为总量消费函数模型的 样本数据,用31个省份的数据作为全国总量模型的 样本数据,等等。
• 形式上由现象所属的时间和现象在不同时间上的观察值 两部分组成
• 时间序列的时间是变化的。常用的时间间隔有:年、季 度、月、周、日
• 时间序列数据通常存在季节变动和序列相关——自相关 (误差的协方差不等于0,即前期误差与后期误差之间 存在相关)
采纳时间序列数据的注意事项
• 样本区间内经济行为的一致性,例如80年代后期以来 为供大于求(居民收入和出口额),80年代中期以前 为供不应求(资本、劳动等)
• 截面数据的时间是凝固的。
• 截面数据中大多存在异方差,必须点间的同质性(样本与母体的一致性),截面数据很 难用于总量估计。
• 截面数据一般存在误差项的异方差
虚拟变量数据的定义
• 虚拟变量是只取1或0之一的一个变量,一般用以表示 定性变量,例如政策变量、条件变量等。
时间序列定义
• 一个时间序列时一时间顺序生成的观测值的集合
– 若该集合是连续的,这层次时间序列为连续型时间序列 – 若该集合是离散的,这层次时间序列为离散型时间序列
• 本课程所讨论的时间序列,是离散型时间序列,其观测值 按固定时间间隔采样
• 设yt是时间序列在时刻(或时期)t 的观测值,当在 t =
准确性
• 准确性有两方面含义:
– 所得到的数据必须准确反映它所描述的经济因素的 状态,即统计数据或调查数据本身是准确的;
– 必须是模型研究中所准确需要的,即满足模型对变 量口径的要求;
– 在生产函数模型中,作为解释变量的资本、劳动等必须是投入到生 产过程中的、对产出量起作用的那部分生产要素,以劳动为例,应 该是投入到生产过程中的、对产出量起作用的那部分劳动者。于是, 在收集样本数据时,就应该收集生产性职工人数,而不能以全体职 工人数作为样本数据,尽管全体职工人数在统计上是很准确的,但 其中有相当一部分与生产过程无关,不是模型所需要的
时间序列分析方法
基本概念
教学大纲
• 时间序列的基本概念 • 时间序列数据的数值标度 • 时间序列的分解 • 时间序列的实例
时间序列的基本概念
什么是数据
• 数据是一种信息,这种信息如以量的标志显现出来, 就称其为数据。数据是一定条件下客体在量的方面的 综合表现。在开始一项研究工作时,最基本的工作之 一,就是收集数据。
1, 2, 3, 4, 5, 6, 7, …… ,n 采样时,得到时间序列:
y1, y2, y3 , y4 , y5 , y6 , …… , yn
定义
• 时间数列——又称为动态数列。
– 把反映某一现象发展变化的一系列指标数值 按时间先后顺序排列起来所形成的数列。
• 截面数据(Cross section data),是一批发生在同 一时间截面上的数据
• 虚拟变量数据(Dummy variable data),也称为 二进制数据,一般取0或1。虚拟变量经常被用在计量 经济学模型中,以表征政策、条件等因素
时间序列数据
• 时间序列数据又俗称为纵向数据。同一现象在不同时间 上的相继观察值排列而成的数列
• 样本点之间数据具有可比性,价值形态出现的数据往 往是不可比的,应当消除物价因素的影响
• 样本观察值过于集中,不能反映经济变量间的结构关 系,应增大观测区间
• 时间序列误差项间往往存在序列相关(自相关)
截面数据
• 截面数据又俗称横向数据,是一批发生在同一时间截 面上的调查数据。研究某个时点上的变化情况。例如, 工业普查数据、人口普查数据、家计调查数据等。
• 数据按其本义来说是定量的(计数或计量)的。但在 实际应用中,它们可以是定量的,也可以是定性的, 或者是两者的结合。随着人类认识客体技术的提高与 认识层次的深化,数据的外延还在不断的扩大。
样本数据
常用的样本数据有三类:
• 时间序列数据(Time series data),是一批按照时 间先后顺序排列的统计数据
• 虚拟变量组合起来可以表征多种状态。
• 使用的虚拟变量的个数=欲表征的状态数,3种状态只 用2个虚拟变量,若3状态采用3个虚拟变量,将造成 多重共线。
用虚拟变量表示定性数据
性别 D 男0 女1
卫生等级 D1 D2 不清洁 1 0 清 洁0 1 最清洁 1 1
面板数据(Panel Data)
• 面板数据是时间序列数据与截面数据的合成体。 • 例如,1978-1999年我国各省市城镇居民消费结构的调
相关文档
最新文档