实证会计研究3有关会计的一些模型第三次讲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• “本文选择上市公司中的制造业为本研究的样本 。我们按照以下标准对原始样本进行筛选 :(1 )剔除 B 股或H 股上市公司,这些公司面临境 内外双重监管环境,与其它上市公司不同 ;(2 )剔除 2001-2008 年曾被 ST 和P T 的样本 ;(3)剔除资产负债率超过 100% 的样本; (4)剔除总资产回报率在(-50%,50%)之 外的,被认为是经营异常的样本 ;(5)剔除企 业家简历介绍缺失或者不详细的样本。最终,我 们的样本期为 2001-2008 年中国制造业 A 股 上市公司,截面企业数量为 592,观测值 为 4415 的非平衡面板数据集。”
• 多元线性回归
– 多元线性回归方程模型为:
–
yi=b0+b1x1i+b2x2i+…+bnxni+ei
– b0是常数项,是各自变量都等于0时,因变量 的估计值。
– bre1g,rebs2s,io…n c,oebffni是cie偏nt回)归,系其数统(计p学er意tia义l 是在其 它所有自变量不变的情况下,某一自变量每变 化一个单位,因变量平均变化的单位数
– ei是残差 – 回归系数的统计学意义是:自变量每变化一个
单位,因变量平均变化的单位数
回归直线的性质
拟合值与残差不相关
自变量与残差不相关
平均数相等
注意:这里的残差与 随机扰动项不是一个 概念。随机扰动项是 总体的残差。
残差和=0
– 残差要求: – (1)不相关 – (2)同方差 – (3)正态性
• 模型如下: • TA/At-1=a*(1/At-1)+b*(△ REV- △
REC/At-1)+c*(PPE/At-1)+e • 注:e为残差项,1/At-1、 △ REV- △ REC/At-1
– 因变量(dependent variable)
• 待解释变量
– 自变量(independent variable)
• 解释变量(需要研究的变量) • 控制变量(根据现有文献需进行控制的变量)
• 一元线性回归
• 直线回归方程的模型:yi=a+bxi+ei – 其中:
– a是截距
– b是回归系数(regression coefficient)(回归直 线的斜率)
二、数据或指标的类型与设计
• 绝对数指标体系 – 对数化的问题 – 如:企业的规模 • 总资产对数、总收入对数等
• 相对数指标体系 – 比例结构指标 • 某子类数据占总类数据的比例 • 如:流动资产/总资产、可变现资产/总资产等 – 比较指标 • 三大财务报表之间不同经济意义的项目的比例 • 如:ROA、ROE等 – 横向指标体系 • 某个公司同同行业平均水平的比较 • 某个行业同整个样本的平均水平的比较
489
5
1982 5294.7
…
525
…
…
…
…
…
24 2001 97314.8 12762 7
25 2002 104790. 12845 中国的GDP、人口和人均6GDP的数据3
7651 8184
表 上市公司的投资与股票账面价值:N=100,T=4
面板数据,若面板数据中丢失了若干个观测值,则为非平衡面板
• 虚拟变量做为解释变量引入模型有两种基本方式 :加法方式和乘法方式。
• 1、加法方式
• Y=a+b1X1+b2X2+e • X2是哑变量,国有企业为1,民营企业为0
• Y=a+b1X1+e
• Y=a+b1X1+b2+e • 假定b2>0,则两个函数有相同的斜率,但有不
同的截距。意即,国营、民营的企业管理层平均 薪金(Y)对业绩(X1)的变化率是一样的,但 两者的平均薪金水平相差b2。
特殊变量——哑变量(dummy)
• wk.baidu.com多变量是可以定量度量的,如:收入、ROE等 。
• 但也有一些影响经济变量的因素无法定量度量, 如:行业、年份、是不是国有企业……
• 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化”。
• 这种“量化”通常是通过引入“虚拟变量”来完成的 。根据这些因素的属性类型,构造只取“0”或“1” 的人工变量,通常称为虚拟变量(dummy variables)或哑变量。
• 资产规模对数 Lnasset
数据的整理和指标的设计
• 数据整理需注意的问题 – 先设计一个数据整理的大致计划 – 整理过程中,要保留最初数据库和每个关键变 动数据库 – 整理过程需要耐心和细心 – 掌握使用软件完成最终的整理要求 – 注意预选较多的指标
• 指标的设计问题 – 注意指标计算公式的意义和符号问题 – 注意指标设计时的现实可获得性 – 读年报原文的好处 – 仔细阅读数据库说明书的好处
时间按频率可以有天、星期、 月、季度、年等。
在时间序列数据中,时间趋势 和周期性比较重要(季节性数 据)
Obsno Year
1
1978
gdp 3624.1
popul a
96259
gdppc 379
2
1979 5038.2
…
417
3
1980 4517.8 98705 460
4
1981 4862.4
….
• 2、信贷政策与企业资本结构—来自中国上市公司 的经验证据 伍中信 张娅 张雯 会计研究 2013(3 )
• “本文研究时间跨度设定为 2001 -2010 年,选 取沪深 A股上市公司作为研究对象,并做了如下筛 选: ( 1) 剔除金融类行业的上市公司; ( 2) 剔除 ST 和 ST* 上市公司; ( 3)剔除在任何样本期内观 测数据缺失的上市公司; ( 4) 剔除在任何样本期内 出现负债率 <0 或者 >1 的上市公司。得到一个 包含了 846 家上市公司的平衡面板数据。资本结 构变量和控制变量的数据均来自国泰安数据库中上 市企业数据板块,信贷政策变量数据来自中央人民 银行网站公布的年度数据统计。”
– OLS目的是使残差最小
应计项目盈余管理模型
• 1、总应计:
• (1)TAt=EBEIt-CFOt (现金流量表法) • Collina and Hribar(2001)
• EBElt是在第t年非正常项目调整前的利润,CFOt则 是在第t年的经营现金流量。
• (2)TAt= △ CAt- △ CASHt- △ CLt+ △ STDt-DEPt (资产负债表法)
54.3 520 0
Obsno观察值号、city城市编号、year年份、crime 犯罪数、pop城市人口数、police城市警察数。
面板数据和混合截面数据
• 面板数据分析(pannal data)与混合截面数据 (pool data)是有本质区别的:
• 混合数据是不同的时间追踪不同的人,样本是随 机抽取的。方法是用虚拟变量和解释变量的乘积 (交互项)来考察解释变量的作用是否在某期发 生了变化。
混合截面数据(Pooled Cross Sections)
即有截面数据的特征 ,又有时间序列数据 的特征。
obsn City o
1
1
Year Crim Pop e
1989 5
35
polic e
440
2
1
1990 8
35.9 471
2
3
2
4
2
1990 1
6.51 75
…. …. …
…. …
…
299 150 1989 25 300 150
• 数据整理(stata软件)
– 数据结构变换 – 数据合并(sas/stata:merge;append
) – 计算新变量 – ……
一、确定样本数据类型
• 1.Cross-sectional Data (截面数据) – 单一年度的多家公司年报数据 – 某一时点的多家公司交易数据
• 2.Time serial Data (时间序列数据) – 个股交易量数据 – 某家公司多年的年报数据
些上市公司5年的统计,混合截面数据,OLS回归
• 非平衡面板? • xtreg,fe等价于reg+dummy variable
例子
• 1、企业家政治关联、竞争战略选择与企业价值 • ——基于上市公司动态面板数据的实证研究 • 李 健 陈传明 孙俊华 南开管理评论 2012(6)
• 被解释变量——企业价值 (Value),采用 Tobin’sQ 进行测量。
• 修正 Jones 模型则认为管理当局可以完全操纵 赊销产生主营业务收入,因此估计非可操控应计 利润时应扣除应收账款的影响。
• 考虑业绩影响的模型是在修正 Jones 模型的基 础上加入业绩变量,以控制公司异常业绩的影响 。
例1-盈余管理之琼斯模型
• 如何用STATA计算修正截面的Jones盈余管理的模 型,运用不同行业不同年份的数据对模型进行普通最 小二乘法OLS回归
• 3.Panel Data (面板数据) – 多家公司相同时间跨度的交易数据 – 多家公司相同年度跨度的年报数据
• 4. Pooled Data (混合数据) – 多家公司不同年度的年报数据
截面数据(cross-sectional data)
是在给定时间的样本构 成的数据。即发生在 同一时间截面上的调 查数据。因为在不同 的截面上,受到个体 的影响,用绝对数时 往往容易产生异方差 ,要用相对数。
• △ CAt表示流动资产的变化; △ CASHt表示现金 及其等价物的变化; △ CLt表示流动负债的变化; △ STDt短期借款的变化和DEPt表示折旧和摊销费 用。
• 2、Jones模型、修正Jones模型与考虑业绩影 响的修正Jones模型 分行业分年度回归
• Jones 模型认为管理当局不能操纵主营业务收入 和固定资产,因此可以根据主营业务收入变化和 固定资产原值来估计非可操控应计利润。
时间序列数据(Time series data)
是一批按时间先后顺序排列的 统计数据。
时间序列数据的例子:股票价 格、货币供应量、消费价格指 数(CPI)、GDP等。
在时间序列数据中,后一期的 数据往往会与前一期的数据有 很大的相关关系,这是因为影 响今期的因素,有时会同样影 响下一期。比如GDP等。
• 面板数据是不同的时间追踪相同的人,是非随机 抽样。方法有DID(双重差分),FE,RE。如 果非观测效应(不随时间改变的变量)与解释变 量不相关,用随机效应模型;相关,则用DID, FE。
• panel主要针对同一组个体连续若干年搜集的数据 ;pool可以是不同组个体若干年的整理。
• 比如相同的上市公司连续5年的数据,面板数据 • 比如,每年都有新的公司加入和老的公司退出,这
实证会计研究3有关会计的 一些模型第三次讲
第五节 财务与金融数据库
经验数据核心步骤
• 数据收集与整理 • 模型设计 • 描述性统计 • 多元回归分析(与稳健性检验)
注: 一篇经验研究论文的数据 描述性统计表 一些多元回归分析表
数据的收集与整理
• 数据的收集
– 数据库:CSMAR;CCER;WIND – 手工收集:年报;年鉴;网络资源
Obsn ROE SALE ZF
GY
o
1
0.03 0.11 0.20
1
2
0.024 0.12 0.22
1
3
0.13 0.11 0.34
0
4
0.04 0.08 0.44
0
5
0.053 0.12 0.70
0
…
…
…
…
…
525 0.115 0.16 0.58
0
526 0.035 0.14 0.52
1
2013年526家公司的截面数据,包括ROE、SALE 、ZCFCL、是否GY
• 3、公司治理对上市公司审计意见类型影响的研 究——基于 2007-2011 年中国民营上市公司 的面板数据 刘霄仑 郝臣 褚玉萍 审计研究 2012 (5)
• (1)模型被解释变量:审计意见类型
• 非标准审计意见,op 赋值为 1;当审计意见为 标准无保留意见时,op 取值为 0
• (2)控制变量:公司规模情况
• 可以通过传统的回归检验,对b2的统计显著性进行检验,以判 断国有、民营企业管理层的平均薪金水平是否有显著差异。
年薪Y
2 0
国有企业 民营企业
业绩X
虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:每一定性变量所需的虚 拟变量个数要比该定性变量的类别数少1,即如果有m个定性 变量,只在模型中引入m-1个虚拟变量。否则会陷入所谓的“ 虚拟变量陷阱”,产生完全共线性。
例:已知冷饮的销售量Y除受k种定量变量Xk的影响外,还 受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只 需引入三个虚拟变量即可。
例:文化程度分为小学、初中、高中、大学、研究生,引入 ?个虚拟变量?
C1
C2
C3
001
1
0
0
002
0
1
0
003
0
0
1
004
0
1
0
……
三、基本模型
• 模型中的变量