第一章数据描述性分析宁波大学商学院数据分析的基本内容数据描述性分析非参数方法回归分析主成分分析判别分析聚类分析时间序列分析Bayes统计分析SAS软件介绍-Colin随着信息技术的迅速发展-特别是数据仓库技术的广泛应用,企业拥有的数据量急剧呈几何级数增大,在这大量的数据信息中,隐藏着企业运作的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取企业决策所需知识,帮助企业进行迅速有效的运筹决策。SAS软件介绍-Colin美国SAS软件研究所(SASInstituteInc.)创建于1976年。27年来,SAS软件研究所一直致力于为金融、医药研发、保险、电信、制造、政府以及科研教育等部门,在SAS的数据仓库,统计分析、联机分析处理系统,数据挖掘,Intranet和各种瘦客户端的核心产品和技术之上,为各种企业提供客户关系管理、信贷风险分析和管理、企业综合风险管理、数据仓库、协作式商务智能、企业均衡记分卡(BalancedScoreCard)、电子商务智能、供应关系管理、财务分析和报告、人力资源管理和其它各种商务智能和决策支持系统(DSS)的解决方案。SAS软件在数据处理与统计分析领域,SAS系统已成为国际上流行标准企业管理软件。美国《财富》杂志评选的500家最大公司中的90%以上的企业都在应用SAS软件。在北美,SAS广泛地被用于所有的金融公司,医药研发机构和政府调查和监管部门。特别是在加拿大的金融中心-多伦多,每年更是需要大量熟练掌握和运用SAS的科技人员。SAS软件SAS是一个庞大的系统,它多个功能模块组成,每个模块分别完成不同的功能。由于SAS最初是为专业统计人员设计的(这一点和SPSS已恰恰相反),因此使用上以编程为主,初学者掌握较为困难。SAS软件SAS公司统计分析的强大优势和完美的数据挖掘产品,可以帮助用户:CustomerSegmentation-识别最有利润的客户群,并揭示其中的特征CreditRiskManagement-通过准确的信用评分提高客户的利润率BalancedScorecard-企业均衡计分管理FraudDetection-欺诈检测CustomerRetention-客户流失管理CrossSelling-组合销售以及其他需要预测和规则发现的应用等等SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机工作人员提供一种易学易用、完整可靠的软件系统。SAS语言本身是一种非过程语言(第四代语言),类似于C语言,且综合了各种高级语言的功能和灵活的格式,将数据处理和统计分析融合于一体。SAS系统的启动和退出启动1双击桌面图标2执行开始菜单中程序菜单项程序编辑窗口,F5输出窗口,F7日志窗口,F6显示管理系统的基本窗口在程序编辑窗口中,你可以1输入、编辑和提交程序语句2打开以前储存的程序3将程序存入文件显示管理系统的基本窗口在日志窗口中,你可以看到你提交的程序执行过程中系统产生的一些信息在输出窗口中,你可以浏览当前的SAS程序产生的输出结果SAS模块SAS8.2的完整版本包含以下数十个模块。BASE,GRAPH,ETS,FSP,AF,OR,IML,SHARE,QC,STAT,INSIGHT,ANALYST,ASSIST,CONNECT,CPE,LAB,EIS,WAREHOUSE,PCFileFormats,GIS,SPECTRAVIEW,SHARE*NET,R/3,OnlineTutor:SASProgramming,MDDBServer,ITServiceVisionClient,IntrNetComputeServices,EnterpriseReporter,MDDBServercommonproducts,EnterpriseMiner,AppDevStudio,IntegrationTechnologies等常用的模块有base,graph,stat,insight,assist,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。SAS系统的启动和退出退出1选择关闭按钮;2执行菜单命令【File】→【Exit...】;3在命令框执行BYE或ENDSAS命令数据描述性分析数据分析研究的对象是数据,它们是个观测值:如果这个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。1nnnn,,,,,21nxxxn均值、方差等数字特征一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值:即是的平均数:均值表示数据的集中位置。(matlabmean函数)n,,,,21nxxxn,,,,21nxxxniixnx11均值、方差等数字特征2方差、标准差与变异系数方差是描述数据取值分散性的一个度量,其量纲是数据量纲的平方。标准差niixxns122)(11niixxnss122)(11均值、方差等数字特征变异系数:刻画数据相对分散性的度量CV=校正平方和CSS=未校平方和USS=(%)100xsniixx12)(niix12均值、方差等数字特征3偏度与峰度偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩K阶中心矩nikikxnv111)(1ikikxxnnu均值、方差等数字特征偏度其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。3321331)2)(1()()2)(1(snnunxxsnnngniis偏度频数频数频数偏向左0对称=0偏向右0均值、方差等数字特征峰度当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。)3)(2()1(3)3)(2)(1()1()3)(2()1(3)()3)(2)(1()1(244221442nnnsnnnunnnnnxxsnnnnngnii总体的数据特征设观测数据是由总体X中取出的样本,总体的分布函数是F。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度刻画。连续分布中最重要的是正态分布,它的概率密度及分布函数分别为)(x,iixXPp.,2,1i)(xf)(x)(x总体的数据特征具有正态分布的总体成为正态总体。222)(exp21)(xxxdttx)()(总体的数据特征与样本数字特征对应的是总体的数字特征总体均值总体方差总体标准差总体变异系数)(xE)(2XVar)(XVar总体的数据特征总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度)(kkXEkkxE)(331G3442G偏度为正的概率密度偏度为负的概率密度f(x)f(x)xx总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。细尾,峰度为负正态分布,总体峰度为0粗尾,峰度为正总体数字特征和样本数字特征根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有x22ssCVkkvkku11gG22gG总体数字特征和样本数字特征当观测数据是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据是等可能性的,即为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征--让数据本身说话。,,,,21nxxxixn1nxXPi1.,,2,1niSAS系统基本操作及基本概念数据集(dataset)和库统计学的操作都是针对数据的,SAS中容纳数据的文件称为数据集,数据集又包含在不同的库(暂且理解为数据库吧)中。SAS中的库分为永久性和临时性两种。顾名思义,存在于永久库中的数据集是永久存在的(只要你不去删除它),临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念,最简单的理解就是一个目录,一个存放数据集的目录。SAS系统基本操作及基本概念SAS程序概述SAS程序包括多个步骤和一些控制语句,一般情况下均包括数据步和过程步,一个或多个、数据步或过程步,它们之间任何形式的组合均可成为一段SAS程序,只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。SAS系统基本操作及基本概念SAS程序概述SAS程序的语句一般以关键字开始,以一个分号结束,一条语句可占多行SAS语句对字母的大小写不敏感,你可以根据个人习惯决定字母的大写或小写。一个SAS语句有两个重要特征:1它通常由SAS关键词(keyword)开始2它总是以分号;结束SAS语句是自由格式的,也就是说1它们可以在任一列开始和结束2一个语句可以由几行组成3几个语句可以在同一行内SAS语句中的词(words)之间用空格或特殊符号分隔。SAS程序概述库名(库标记)的定义为了保存数据和方便操作起见,我习惯于指定自己的库名及其路径(目录),因为SAS系统中已有的永久库(SASUSER)无论库名还是其对应的路径都太过繁琐,使用太不方便。程序中用到的数据,都可以永久的保存于该路径下,保证以后可以重复使用。指定库名的语句为全程语句,其格式如下:Libname库名‘路径’;例如我们指定的库名为“a”,路径为:“e:\data\”,SAS语句如下:libnamea‘e:\data\’;SAS程序概述数据步SAS的数据步以data语句开始,用于创建和处理数据集。Data语句以关键字“data”开始,格式如下:data数据集名;例如:dataa.case;将创建在库a中名为case的SAS数据集,语句执行后你可在与库a对应的目录下看到刚刚建立的数据集文件case。Data语句所指定的数据集,一般都是以“库名.数据集名”的格式出现的,也可以单独的“数据集名”出现,此时的数据集系统默认为是临时库中的数据集,退出系统后将会被删除。data语句有两个重要的功能,标志数据步的开始和命名将要创建的SAS数据集。除data语句外,数据步一般情况下还包括infile语句、input语句以及datalines语句等。在不同的数据输入方式下对于它们的使用方式也不一样。SAS程序概述SAS程序有两种常见的数据输入方式,即从外部文件读入和直接输入两种方式。(1)外部文件读入方式数据若已经包含在某个外部文件(文本文件或数据文件)中,可用此方法输入数据到数据集文件中。在以上介绍的data语句后,写入以下语句:infile‘外部文件的所在位置及名称’选项;input变量名1变量名2…变量名n;infile语句用于从外部文件读入数据,必须出现在input语句之前。它的功能是指定一个包含原始数据的外部文件。input语句用于向系统表明如何读入每一条数据记录。它的主要功能有:读入由语句指定的数据列,为相应的数据域定义变量名,确定变量的读入模式。变量的命名最多8个字符长,第一个字符必须是字母或者下划线,不能有空格。特殊字符(如$,@,#)也不允许在SAS名中使用。合法变量名如:AA1abcnameagetotal…SAS系统保留的特殊变量名,以下划线开始和结尾。如:_N_和_ERROR_等。例libnamea‘e:\data\’;dataa.student;infile‘e:\data\student.txt’;inputnameheightweight;以上程序将目录“e:\data\”下的文本文件“student.txt”中的数据输入数据集student中,该数据集存放于目录“e:\data\