统计方法在税收分析中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

目录第一节统计学概述——知识准备一、统计学的定义二、数据处理(一)统计数据的类型(二)数据预处理的基本步骤三、统计推断的基本原理介绍(一)几个基本概念(二)区间估计(三)假设检验四、相关分析与方差分析(一)相关分析与偏相关分析(二)方差分析第二节税收收入运行的统计学分析一、税收收入运行的经济性(一)描述统计量(二)相关性分析(三)税收随GDP增长的弹性二、税收收入的内在增长趋势(一)税收收入运行随时间变动的趋势(二)税收增长率分析三、税收收入运行的季节性四、其他常用税收分析方法2(一)税源质量的效能位差分析(二)同业税负分析第三节多元统计分析方法一、聚类分析(一)定义(二)聚类的基本步骤(三)实例:部分国家税收加社保负担率聚类分析二、主成分分析法和因子分析法(一)主成分分析法(二)因子分析法第四节回归分析一、基本原理(一)一元回归模型(二)多元回归模型二、模型的基本假设和特殊情况处理(一)古典回归模型的假设(二)模型的检验统计量(三)几种特殊情况及处理方法第五节指数一、加权综合指数(一)拉氏价格指数(二)帕氏价格指数(三)加权平均指数二、常用价格指数3(一)消费者物价指数的定义(二)消费者物价指数的作用三、多指标综合评价指数的构建第六节常用统计分析软件简介——SPSS和EVIEWS应用实例一、描述统计量二、相关性分析三、图表演示四、回归分析五、预测六、时序模型——季节性差分附:EXCEL软件数据分析功能的应用第一节数据整理第二节图表功能一、柱形图二、散点图三、折线图第三节分析功能一、抽样二、描述统计三、相关系数四、回归五、移动平均参考书目4第一节统计学概述——知识准备一、统计学的定义统计学是收集、处理、分析、解释数据并从数据中得出结论的科学,在多个科学领域有着日益重要的地位。统计学分为描述统计、推断统计、理论统计和应用统计。统计学是与数据打交道的学科,包括数据收集、数据处理和数据分析。数据收集也就是取得统计数据,这是一切统计分析的立足点;数据处理是将数据用图表等形式展示出来,是数据特征的直观反映;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论,这是对数据的精细加工,数据分析的方法宜适当,应能说明问题。数据分析所用的方法可分为描述统计和推断统计。描述统计是指用图形、表格和数值方法来汇总数据的统计学。目的在于描述数据的统计特征,找出数据的基本规律。推断统计是指以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理方法。二、数据处理(一)统计数据的类型1、定性数据和定量数据5分类数据是指归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为文字表述的类别。例如,人口按性别分为男、女两类。顺序数据是只能归于某一有序类别的非数字型数据,如考试成绩分为优、良、及格、不及格等。数值型数据是按数字尺度测量的观测值,其结果为具体数值。分类和顺序数据统称为定性数据或品质数据;数值型数据可称为定量数据或数量数据。2、截面数据和时间序列数据横截面数据:在同一时刻或几乎同一时点所收集到的数据。如:多个企业当年利润总额、实缴税收、税负水平等。时间序列数据:在若干个连续时点内所收集到的数据。如:2000年-2005年每年福建省地方税收收入等。区分数据类型十分重要,因为对不同类型的数据应用不同的统计方法来处理。比如:对分类数据我们通常计算出各组频数或频率,计算其众数和异众比率,进行列联表分析和2x检验等;对于顺序数据可以计算其中位数和四分位差,计算等级相关系数;对于数值型数据可以用更多的统计方法进行分析,计算各种统计量、进行参数估计和检验等。对于横截面数据可以计算集中度和离散度、进行聚类和主成分分析等;对于时间序列数据可以计算时间趋势,建立预测模型进行预测等。(二)数据预处理的基本步骤61、数据收集数据收集是一切统计工作的基础,搜集数据的方法有多种,可以采用统计报表、典型调查、重点调查或抽样调查。(1)统计报表制度指按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度。优点:能保证统计资料的全面性和连续性,能保证统计资料的统一性和及时性,能满足各级部门对统计资料的需要。缺点:统计报表过多会增加基层负担,有可能由于虚报瞒报而影响统计资料质量。如:月度税收会统报表等。(2)普查指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查优点:可以为抽样调查提供抽样框,可以收集统计报表所不能提供的反映重大国情国力的基本统计信息。缺点:由于需要大量的人力、物力和财力,不宜经常进行。如:经济普查、税源普查等。(3)重点调查为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式优点:能以较少的投入和较快的速度取得总体基本情况及变动趋势7的资料。缺点:只适用于客观存在着重点单位的情况。如:重点税源监控等。(4)典型调查在对调查对象有一定了解的基础上,有意识地选择少数典型单位进行调查的一种非全面调查组织方式。优点:一定条件下能估计总体指标数值,可以补充全面调查的不足,可以用来研究新生事物。缺点:不能确定推断的把握程度,无法计算和控制推断误差。如:税源典型性个案分析。(5)抽样调查按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。优点:按随机原则抽取样本单位,目的是推断总体的数量特征,抽样误差可以事先计算并控制。能用较少的人力、物力和时间达到全面调查的目的,调查资料的准确性较高、受人为干扰的可能性较小。应用较广,为统计调查的发展方向。2、数据整理:数据整理是指将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程。(1)数据审核:从完整性和准确性两方面审核数据。(2)数据筛选:当数据中的错误不能予以纠正,或者有些数据不8符合调查的要求而又无法弥补时,需要对数据进行筛选。(3)缺失数据处理:在样本数据中,可能出现部分数据点缺失或个别数据点异常波动的情况,几种处理不完备数据集的方法:(3.1)删除元组(3.2)数据补齐——平均值填充、众数填充。(3.3)回归——基于完整的数据集,建立回归方程模型,将已知属性值带入方程来求未知属性值。(4)数据排序:指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势。也对进一步数据重新归类或分组提供方便。(5)数据分组:数据分组是根据统计研究需要,将原始数据按照某种标准划分成不同组别,分组后的数据称为分组数据。其目的在于观察数据的特征。(5.1)几个基本概念频数:落在各类别中的数据个数。组距:一个组上下限间的差。组中值:每一组中上下限值的中间值。开口组组中值=上(下)限+(-)邻组组距/2极差:一组数据最大值和最小值之间的差,也称全距。众数0:一组数据中出现次数最多的变量值,用于测度分类数据的集中趋势。中位数e:指一组数据排序后处于中间位置上的变量。9设一组数据为nxxx,,,21,按从小到大排序后为)()2()1(,,,nxxx,则中位数为:为偶数为奇数nxxnxnnne,,)1(21)(2221平均数:是集中趋势的主要测度值A、简单平均数nxniix1B、加权平均数nfniiix1,其中ifn,即样本量。C、几何平均数nininnxxxxG121(5.2)常用分组方法——组距分组将变量值的一个区间作为一组,适合于连续变量和变量值较多的情况,分组区间需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组。分组步骤:确定组数:根据Sturges提出的经验公式得组数K为:)lg(322.31nK,n为样本数。计算组距:组距=极差/分组数确定组限,编制频数分布表。10三、统计推断的基本原理介绍(一)几个基本概念1、概率与概率分布(1)概率:随机试验或观察中,某种事件或结果(随机事件)出现的可能性,称为概率。基本性质:非负性0≤P(A)≤1,即事件发生的概率介于0和1之间。正则性P(Ω)=1,即所有事件发生的概率之和恒为1。(2)概率分布:如果有某种形式能够表现出随机变量的取值及其概率,则称这种形式为随机变量的概率分布。连续型随机变量的概率分布,其中为密度函数。2、集中度和离散度(1)样本均值:为样本中各观测值的平均数。miimiiiniiffxxnxx111或,ix为样本观测值,if为频数。n为自由度,为样本数据-1。(2)离散度指标(2.1)样本方差:}{bXaPxxfad)(b)(xf11miiimiiniifxxfsxxns12121221111或,ix为样本观测值,if为频数。(2.2)样本标准差s:为样本方差的平方根。(2.3)离散系数:为一组数据的标准差与其相应平均数的比。xs注意:方差和标准差均是反映数据分散程度的绝对值,而离散系数是测度数据离散程度的相对统计量,消除量纲的影响,可直接用于不同样本间离散程度的比较。(2.4)偏斜度:反映以平均值为中心的不对称程度,正偏斜度表示不对称部分的分布更趋向正值,负偏斜度表示不对称部分的分布更趋向负值。在EXCEL中用SKEW()函数求值。(2.5)峰度表述分布的尖端程度,其中代表正态分布的为常峰态。正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。在EXCEL中用KURT()函数求值。3、抽样与抽样分布(1)抽样(1.1)定义抽样即从总体中按一定原则抽取样本。优点:以样本特征推断总体,简单,方便。主要的抽样方法有:简单随机抽样,分层抽样,整群抽样、系统抽样,多阶段抽样。12(1.2)抽样平均误差指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差。MiixXxM121抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差可以控制但不可避免。(1.3)影响抽样误差的因素:A、总体各单位的差异程度(即标准差的大小):标准差越大,抽样误差越大;B、样本单位数的多少:样本单位数越大,抽样误差越小;C、抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;D、抽样组织方式:简单随机抽样的误差最大。(2)几个主要的抽样分布(2.1)正态分布N(2,)标准正态分布变换通过上述公式可将一般正态分布转化为标准正态分布N(0,1),再通过查标准正态分布即可求得X的概率。中心极限定理:设X1,X2,…,Xn是n个相互独立同分布的随机变量。在一定条件下,它们的样本均值服从正态分布,即:)/,(~2nNX。根据中心极限定理,独立同分布的样本,在大样本的情况下,近似222)(21)(xexp)(x)()()(abbXaPxz13服从正态分布,可以用正态分布的特征来研究样本特征。(2.2)t分布)~t(nnsμXt1,此为自由度为n-1的t分布。应用:当抽样的样本容量为小样本(n30)时,抽样分布即为t分布。t分布与正态分布一样是单峰偶函数,但t分布的尾部更厚,即方差更大一些。(2.3)2分布)1(~)1(2222nns样本方差除以总体方差的n-1倍的分布是自由度为n-1的2分布。应用:2分布在研究样本方差分布特征和信度区间等方面有重要的价值。(2.4)F分布为)m(2,为)n(2,与独立,记n/m/F,则F服从参数为m和n的F分布,记为F(m,n)。性质:当F为F(m,n),则1/F为F(n,m)。当T为t(n),则2T为F(1,n)应用:可用于检验线性回归模型的显著性和异方差。(a)正态分布(b)偏态分布正偏(右偏)负偏(左偏)14(二)区间估计区间估计指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围;其中,被推断的总体指标的下限与上限所包括的区间称为置信区间,估计的可靠程度也称为置信度。一个正态总体的区间估计设总体∽N(2,a),n,,,21为的样本,现讨论2,a的区

1 / 86
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功