实证会计研究授课人:牟韶红第五节财务与金融数据库经验数据核心步骤•数据收集与整理•模型设计•描述性统计•多元回归分析(与稳健性检验)注:一篇经验研究论文的数据描述性统计表一些多元回归分析表数据的收集与整理•数据的收集–数据库:CSMAR;CCER;WIND–手工收集:年报;年鉴;网络资源•数据整理(stata软件)–数据结构变换–数据合并(sas/stata:merge;append)–计算新变量–……一、确定样本数据类型•1.Cross-sectionalData(截面数据)–单一年度的多家公司年报数据–某一时点的多家公司交易数据•2.TimeserialData(时间序列数据)–个股交易量数据–某家公司多年的年报数据•3.PanelData(面板数据)–多家公司相同时间跨度的交易数据–多家公司相同年度跨度的年报数据•4.PooledData(混合数据)–多家公司不同年度的年报数据截面数据(cross-sectionaldata)是在给定时间的样本构成的数据。即发生在同一时间截面上的调查数据。因为在不同的截面上,受到个体的影响,用绝对数时往往容易产生异方差,要用相对数。ObsnoROESALEZFGY10.030.110.20120.0240.120.22130.130.110.34040.040.080.44050.0530.120.700……………5250.1150.160.5805260.0350.140.5212013年526家公司的截面数据,包括ROE、SALE、ZCFCL、是否GY时间序列数据(Timeseriesdata)是一批按时间先后顺序排列的统计数据。时间序列数据的例子:股票价格、货币供应量、消费价格指数(CPI)、GDP等。在时间序列数据中,后一期的数据往往会与前一期的数据有很大的相关关系,这是因为影响今期的因素,有时会同样影响下一期。比如GDP等。时间按频率可以有天、星期、月、季度、年等。在时间序列数据中,时间趋势和周期性比较重要(季节性数据)ObsnoYeargdppopulagdppc119783624.196259379219795038.2…417319804517.898705460419814862.4….489519825294.7…525……………24200197314.81276277651252002104790.61284538184中国的GDP、人口和人均GDP的数据表上市公司的投资与股票账面价值:N=100,T=4面板数据,若面板数据中丢失了若干个观测值,则为非平衡面板混合截面数据(PooledCrossSections)即有截面数据的特征,又有时间序列数据的特征。obsnoCityYearCrimePoppolice111989535440211990835.924713242199016.5175….….…….……29915019892554.30520300150Obsno观察值号、city城市编号、year年份、crime犯罪数、pop城市人口数、police城市警察数。面板数据和混合截面数据•面板数据分析(pannaldata)与混合截面数据(pooldata)是有本质区别的:•混合数据是不同的时间追踪不同的人,样本是随机抽取的。方法是用虚拟变量和解释变量的乘积(交互项)来考察解释变量的作用是否在某期发生了变化。•面板数据是不同的时间追踪相同的人,是非随机抽样。方法有DID(双重差分),FE,RE。如果非观测效应(不随时间改变的变量)与解释变量不相关,用随机效应模型;相关,则用DID,FE。•panel主要针对同一组个体连续若干年搜集的数据;pool可以是不同组个体若干年的整理。•比如相同的上市公司连续5年的数据,面板数据•比如,每年都有新的公司加入和老的公司退出,这些上市公司5年的统计,混合截面数据,OLS回归•非平衡面板?•xtreg,fe等价于reg+dummyvariable例子•1、企业家政治关联、竞争战略选择与企业价值•——基于上市公司动态面板数据的实证研究•李健陈传明孙俊华南开管理评论2012(6)•被解释变量——企业价值(Value),采用Tobin’sQ进行测量。•“本文选择上市公司中的制造业为本研究的样本。我们按照以下标准对原始样本进行筛选:(1)剔除B股或H股上市公司,这些公司面临境内外双重监管环境,与其它上市公司不同;(2)剔除2001-2008年曾被ST和PT的样本;(3)剔除资产负债率超过100%的样本;(4)剔除总资产回报率在(-50%,50%)之外的,被认为是经营异常的样本;(5)剔除企业家简历介绍缺失或者不详细的样本。最终,我们的样本期为2001-2008年中国制造业A股上市公司,截面企业数量为592,观测值为4415的非平衡面板数据集。”•2、信贷政策与企业资本结构—来自中国上市公司的经验证据伍中信张娅张雯会计研究2013(3)•“本文研究时间跨度设定为2001-2010年,选取沪深A股上市公司作为研究对象,并做了如下筛选:(1)剔除金融类行业的上市公司;(2)剔除ST和ST*上市公司;(3)剔除在任何样本期内观测数据缺失的上市公司;(4)剔除在任何样本期内出现负债率<0或者>1的上市公司。得到一个包含了846家上市公司的平衡面板数据。资本结构变量和控制变量的数据均来自国泰安数据库中上市企业数据板块,信贷政策变量数据来自中央人民银行网站公布的年度数据统计。”二、数据或指标的类型与设计•绝对数指标体系–对数化的问题–如:企业的规模•总资产对数、总收入对数等•相对数指标体系–比例结构指标•某子类数据占总类数据的比例•如:流动资产/总资产、可变现资产/总资产等–比较指标•三大财务报表之间不同经济意义的项目的比例•如:ROA、ROE等–横向指标体系•某个公司同同行业平均水平的比较•某个行业同整个样本的平均水平的比较•3、公司治理对上市公司审计意见类型影响的研究——基于2007-2011年中国民营上市公司的面板数据刘霄仑郝臣褚玉萍审计研究2012(5)•(1)模型被解释变量:审计意见类型•非标准审计意见,op赋值为1;当审计意见为标准无保留意见时,op取值为0•(2)控制变量:公司规模情况•资产规模对数Lnasset数据的整理和指标的设计•数据整理需注意的问题–先设计一个数据整理的大致计划–整理过程中,要保留最初数据库和每个关键变动数据库–整理过程需要耐心和细心–掌握使用软件完成最终的整理要求–注意预选较多的指标•指标的设计问题–注意指标计算公式的意义和符号问题–注意指标设计时的现实可获得性–读年报原文的好处–仔细阅读数据库说明书的好处特殊变量——哑变量(dummy)•许多变量是可以定量度量的,如:收入、ROE等。•但也有一些影响经济变量的因素无法定量度量,如:行业、年份、是不是国有企业……•为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。•这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummyvariables)或哑变量。•虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。•1、加法方式•Y=a+b1X1+b2X2+e•X2是哑变量,国有企业为1,民营企业为0•Y=a+b1X1+e•Y=a+b1X1+b2+e•假定b20,则两个函数有相同的斜率,但有不同的截距。意即,国营、民营的企业管理层平均薪金(Y)对业绩(X1)的变化率是一样的,但两者的平均薪金水平相差b2。•可以通过传统的回归检验,对b2的统计显著性进行检验,以判断国有、民营企业管理层的平均薪金水平是否有显著差异。02年薪Y国有企业民营企业业绩X虚拟变量的设置原则虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个定性变量,只在模型中引入m-1个虚拟变量。否则会陷入所谓的“虚拟变量陷阱”,产生完全共线性。例:已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可。例:文化程度分为小学、初中、高中、大学、研究生,引入?个虚拟变量?C1C2C3001100002010003001004010……三、基本模型•模型中的变量–因变量(dependentvariable)•待解释变量–自变量(independentvariable)•解释变量(需要研究的变量)•控制变量(根据现有文献需进行控制的变量)•一元线性回归•直线回归方程的模型:yi=a+bxi+ei–其中:–a是截距–b是回归系数(regressioncoefficient)(回归直线的斜率)–ei是残差–回归系数的统计学意义是:自变量每变化一个单位,因变量平均变化的单位数2019/9/23回归直线的性质uxuyyiiiiibaˆˆˆˆˆ残差和=0平均数相等拟合值与残差不相关自变量与残差不相关注意:这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。2019/9/23–残差要求:–(1)不相关–(2)同方差–(3)正态性•多元线性回归–多元线性回归方程模型为:–yi=b0+b1x1i+b2x2i+…+bnxni+ei–b0是常数项,是各自变量都等于0时,因变量的估计值。–b1,b2,…,bn是偏回归系数(pertialregressioncoefficient),其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,因变量平均变化的单位数–OLS目的是使残差最小应计项目盈余管理模型•1、总应计:•(1)TAt=EBEIt-CFOt(现金流量表法)•CollinaandHribar(2001)•EBElt是在第t年非正常项目调整前的利润,CFOt则是在第t年的经营现金流量。•(2)TAt=△CAt-△CASHt-△CLt+△STDt-DEPt(资产负债表法)•△CAt表示流动资产的变化;△CASHt表示现金及其等价物的变化;△CLt表示流动负债的变化;△STDt短期借款的变化和DEPt表示折旧和摊销费用。•2、Jones模型、修正Jones模型与考虑业绩影响的修正Jones模型分行业分年度回归•Jones模型认为管理当局不能操纵主营业务收入和固定资产,因此可以根据主营业务收入变化和固定资产原值来估计非可操控应计利润。•修正Jones模型则认为管理当局可以完全操纵赊销产生主营业务收入,因此估计非可操控应计利润时应扣除应收账款的影响。•考虑业绩影响的模型是在修正Jones模型的基础上加入业绩变量,以控制公司异常业绩的影响。例1-盈余管理之琼斯模型•如何用STATA计算修正截面的Jones盈余管理的模型,运用不同行业不同年份的数据对模型进行普通最小二乘法OLS回归•模型如下:•TA/At-1=a*(1/At-1)+b*(△REV-△REC/At-1)+c*(PPE/At-1)+e•注:e为残差项,1/At-1、△REV-△REC/At-1为2006-2010年的数据,PPE/At-1为2007-2010年的数据。•NDA/At-1=a*(1/At-1)+b*(△REV-△REC/At-1)+c*(PPE/At-1)•NDAt表示在时间t经过总资产调整的非操纵性应计部分•DA=TA-NDA•TA:为净利润-经营性净现金流量,公司j在t年的应计项目总额,因为经营性盈余=经营活动产生的现金净流量+总应计•△REV:公司j在t年的收入与t-1年收入的差额•△REC:公司j在t年的应收账款与t-1年应收账款的差额•PPE:公司j在t年的固定资产净额•At-1:公司j在t-1年资产总额•E:反映除与以外的参差项目对所带来的影响•琼斯模型主要认为公司主营业务收入的变动会带来营运资本变动导致企业应计利润的变动,固定资产会产生折旧从而带来应计利润的减少,因此Jones模型用销售收入增量(△REV)以及固定资产原值(PPE)作为自变量,建立总应计的多元线性回归方程