SAS与数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SAS与数据挖掘徐东/计算数学SAS(STATISTICALANALYSISSYSTEM)SAS的基本组成部分•SAS数据库模块•SAS分析模块•SAS开发呈现工具•分布处理以及数据仓库SAS完成的主要任务•数据访问•数据管理•数据分析•数据呈现SAS的核心模块•BASESAS•数据管理工具•SAS编程语言•数据分析和报表工具SAS程序dataweight_club;inputIdNumber1-4Name$6-24Team$StartWeightEndWeight;Loss=StartWeight-EndWeight;datalines;1023DavidShawred189165y1049AmeliaSerranoyellow145124y1219AlanNancered210192y1246RaviSinhayellow194177y1078AshleyMcKnightred127118y;run;procprintdata=weight_club;title'HealthClubData';run;proctabulatedata=weight_club;classteam;varStartWeightEndWeightLoss;tableteam,mean*(StartWeightEndWeightLoss);title'MeanStartingWeight,EndingWeight,';title2'andWeightLoss';run;SAS程序SAS程序的输出SAS程序的日志SAS数据分析的一般过程数据集的来源原始数据已有SAS数据集SAS数据集SAS数据集•观测•变量•数据值简单的数据集被试编号性别测验1测验2作业等级10M8084A7M8589A4F9086B20M8285B25F9494A14F8884CSAS数据集•观测被试编号性别测验1测验2作业等级10M8084A7M8589A4F9086B20M8285B25F9494A14F8884CSAS数据集•变量被试编号性别测验1测验2作业等级10M8084A7M8589A4F9086B20M8285B25F9494A14F8884CSAS数据集•变量名•SUBJECTGENDEREXAM1EAXM2HW_GRADE•必须符合SAS标识符命名规则被试编号性别测验1测验2作业等级10M8084A7M8589A4F9086B20M8285B25F9494A14F8884CSAS标识符命名规则•以字母或下划线(_)开头•不超过32个字符(字母、下划线或数字)•不能使用空栺或特殊字符(如逗号、分号等)通过DATASTEP创建SAS数据集•定义数据和创建SAS数据集•指明数据的内容•变量在数据列中的位置•变量的名称•如何从已有变量中创建新变量•其他……通过DATASTEP创建SAS数据集原始数据SAS代码被试编号性别测验1测验2作业等级10M8084A7M8589A4F9086B20M8285B25F9494A14F8884Cdatase002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;run;通过DATASTEP创建SAS数据集DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•data语句创建目标数据集DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•input语句读取数据DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•数值变量DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•文本变量($)DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•datalines语句标志内置数据行的开始DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•内置数据行放置原始数据DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•分号标志内置数据行的结束DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;通过DATASTEP创建SAS数据集•datastepDATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;RUN;SAS语句的基本语法规则•SAS语句以(英文)分号结尾•SAS语句不区分大小写•SAS语句中的单词以空栺或特殊字符分隔SAS程序的组成•DATASTEP•定义数据和创建SAS数据集•PROCSTEP•指明分析数据所采用的方法并对相关参数进行设置•系统设置•设置环境参数SAS程序•procstep完成指定的分析任务DATAse002;INPUTSUBJECTGENDER$EXAM1EXAM2HW_GRADE$;DATALINES;10M8084A7M8589A4F9086B20M8285B25F9494A14F8884C;run;PROCMEANSdata=se002;RUN;DATASTEP•读取外部数据的三种基本方式•Listinput•Columninput•FormattedinputListinput•数据项之间以空栺分隔datascores;inputName$Test_1Test_2Test_3;datalines;Bill18797103Carlos1567674Monique99102129;Columninput•数据项按列右对齐datascores;inputName$1-7Test_19-11Test_213-15Test_317-19;datalines;Bill18797103Carlos1567674Monique99102129;Formattedinput•数据项以特定栺式保存datatotal_sales;inputDatemmddyy10.+2Amountcomma5.;datalines;09/05/20001,38210/19/20001,23511/30/20002,391;input的使用方式由外部数据的栺式决定•数据的排列方式•字符串中是否包含空栺•数字数据中是否包含非数字符号•是否有时间值或日期值•一行数据是否包含多条观测•一条观测是否被分成多行保存DATASTEP•读取外部数据的三种基本方式•Listinput•Columninput•Formattedinput•可以混合使用DATASTEPDATASTEP数据形式说明•同一行中的各数据项之间均以若干空栺分隔•每行保存一个样本的数据168144M23278202M3436299F37461101F45DATASTEP:listinputDATAse003;INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;168144M23278202M3436299F37461101F45;DATASTEP:listinput•内置数据DATAse003;INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;168144M23278202M3436299F37461101F45;DATASTEP:listinput•input语句中的变量顺序必须与数据项的顺序一致DATAse003;INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;168144M23278202M3436299F37461101F45;DATASTEP:listinput•文本变量DATAse003;INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;168144M23278202M3436299F37461101F45;DATASTEP数值数据•数字•缺失值•点号文本数据•字符•数字•特殊字符•#/&•缺失值•空栺DATASTEP数据形式说明•第二条观测中的身高值缺失168144M232202M3436299F37461101F45DATASTEP:listinput•错误DATAse004;INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;168144M232202M3436299F37461101F45;DATASTEP数据形式说明•使用点号表示该项数据缺失168144M232.202M3436299F37461101F45DATASTEP:listinput•正确DATAse005;INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;168144M232.202M3436299F37461101F45;DATASTEP数据形式说明•同一行中的各数据项之间均以若干分号分隔1,68,144,M,232,78,202,M,343,62,99,F,374,61,101,F,45DATASTEP:listinputDATASE006;INFILEDATALINESDLM=',';INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;1,68,144,M,232,78,202,M,343,62,99,F,374,61,101,F,45;DATASTEP:listinput•infile语句•指定数据来源以及数据存储规范DATASE006;INFILEDATALINESDLM=',';INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;1,68,144,M,232,78,202,M,343,62,99,F,374,61,101,F,45;DATASTEP:listinput•infiledatalines•通过datalines对内置数据行的读取方式进行控制DATASE006;INFILEDATALINESDLM=',';INPUTIDHEIGHTWEIGHTGENDER$AGE;DATALINES;1,68,144,M,232,78,202,M,343,62,99,F,374,61,101,F,4

1 / 106
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功