SAS数据分析应用实例及相关程序SAS数据分析应用实例及相关程序正态性检验及T检验【例1】已知玉米单交种群105的平均穗重为300g。喷药后,随机抽取9个果穗,其穗重分别为:308,305,311,298,315,300,321,294,320g。问喷药后与喷药前的果穗平均重量之间的差别是否具有统计学意义?2.配对T检验【例2】对血小板活化模型大鼠以ASA进行实验性治疗,以血浆TXB2(ng/L)为指标,其结果如表2-1,试进行统计分析。表2-1大鼠血小板活化模型ASA治疗前后血浆TXB2的变化(ng/L)大鼠号血浆TXB2(ng/L)给药前给药后12501842226205101761763.秩和检验【例3】探讨正己烷职业接触人群生化指标特征,用气相色谱法检测受检者尿液2,5-己二酮浓度(mg/L),为该人群的健康监护寻找动态观察依据。正己烷职业接触组(A组)为广州市印刷行业彩印操作位作业人员64人,其均在同一个大的车间轮班工作,工作强度相当;对照组(B组)选同厂其他车间工人53人。两组人员除接触正己烷因素不同外,生活水平、生活习惯、劳动强度、吸烟、饮酒情况基本相同。问两组间尿液中2,5-己二酮浓度(mg/L)平均含量之间的差别是否有统计学意义?数据如下所示。正己烷职业接触组:2.89、1.85、2.27、2.07、1.62、1.77、2.53、2.02、2.07、2.07、1.93、3.01、1.93、1.88、1.55、1.36、2.23、2.55、1.73、2.65、1.95、2.45、1.41、2.46、2.38、1.55、2.16、2.01、1.37、2.16、2.00、2.07、2.57、2.11、2.37、1.39、2.18、2.33、1.46、2.16、2.03、2.96、2.21、2.00、2.58、2.19、2.41、1.68、1.93、1.93、1.93、1.87、1.74、2.70、1.83、2.17、2.52、2.09、2.28、1.65、1.19、1.58、0.89、1.65对照组:0.27、0.36、0.26、0.16、0.49、0.58、0.16、0.45、0.22、0.25、0.66、0.05、0.31、0.12、0.51、0.30、0.37、0.14、0.28、0.33、0.36、0.51、0.37、0.36、0.47、0.34、0.72、0.39、0.55、0.17、0.27、0.33、0.30、0.26、0.50、0.17、0.22、0.18、0.17、0.62、0.27、0.26、0.34、0.17、0.61、0.42、0.39、0.28、0.36、0.43、0.24、0.15、0.194.两独立正态总体的检验【例4】一个小麦新品种经过6代选育,从第5代(A组)中抽出10株,株高为:66、65、66、68、62、65、63、66、68、62(cm),又从第6代(B组)中抽出10株,株高为:64、61、57、65、65、63、62、63、64、60(cm),问株高性状是否已经达到稳定?5.单因素K(K≥3)水平方差分析【例5】从津丰小麦4个品系中分别随机抽取10株,测量其株高(cm),数据如下所示,问不同品系津丰小麦的平均株高之间的差别是否具有统计学意义?品系0-3-1:63、65、64、65、61、68、65、65、63、64品系0-3-2:56、54、58、57、57、57、60、59、63、62品系0-3-3:61、61、67、62、62、60、67、66、63、65品系0-3-4:53、58、60、56、55、60、59、61、60、596.双因素无重复试验的方差分析【例6】某医生欲研究回心草各单体成分对试验性心肌缺血血流动力学的影响,选取健康新西兰家兔若干只,体重(2.0±0.3)kg,雌雄不计,将其随机分成9组:胡椒碱高剂量组(100nmol/L)、胡椒碱中剂量组(10nmol/L)、胡椒碱低剂量组(1nmol/L)、胡椒酸甲酯高剂量组(100nmol/L)、胡椒酸甲酯中剂量组(10nmol/L)、胡椒酸甲酯低剂量组(1nmol/L)、咖啡酸甲酯高剂量组(100nmol/L)、咖啡酸甲酯中剂量组(10nmol/L)、咖啡酸甲酯低剂量组(1nmol/L)。所有家兔处死后,造缺血缺氧的离体心脏模型,给以各试验组相应种类及浓度的药物进行试验,记录各组试验家兔血流动力学指标的平均值,结果见表4-2。试分析回心草的不同单体成分及给药剂量对冠脉流量的影响之间的差别是否有统计学意义?表4-2回心草各成分对缺学缺氧后兔离体心脏血流动力学的影响单体成分冠脉流量(x,ml)剂量:高剂量中剂量低剂量胡椒碱8.408.477.73胡椒酸甲酯9.937.538.03咖啡酸甲酯10.736.479.477.正交设计一元定量方差分析【例7】某研究者欲确定氧化葡萄糖的最优制备条件,采用正交试验考察PH值、反应温度、搅拌速度3个试验因素的影响,因素水平见表4-10,以生成物的醛基含量和反应时间为参考指标进行综合评分,评分越高说明氧化葡萄糖制备效率越高。试验设计及试验结果见表4-11,请进行适当的统计分析。表4-10因素水平表因素水平反应液pH值(A)搅拌速度(r﹒min-1)(B)反应温度(℃)(C)13.610004224.512003836.1150025表4-11正交试验设计及试验结果试验号1(A)2(B)34(C)醛基含量(mmol/g)反应时评分间(h)111118.90.916.9212227.51.313.7313337.05.79.6421236.76.86.6522317.23.810.6623126.55.47.6731326.310.81.8832136.112.10.1933216.27.45.0注:评分=醛基含量×2-反应时间8.协方差分析【例8】某研究者欲研究三种饲料对动物体重增长的影响,按照某些重要非试验因素将36只大白鼠均分成12个配伍组,再将每个配伍组中的3只大白鼠随机分入三个饲料组,各组进食量与所增体重的测定结果见表4-18,试分析三种饲料对大鼠增重效果间的差别是否有统计学意义。表4-18三组白鼠的进食量X(g)与所增体重Y(g)的试验结果配伍组进食量(g)与所增体重(g)饲料1:XY饲料2:XY饲料3:XY1256.927.0260.332.0544.7160.32271.641.7271.147.1481.296.13210.225.0214.736.7418.9114.64300.152.0300.165.0556.6134.85262.214.5269.739.0394.576.36304.448.8307.537.9426.672.87272.448.0278.951.5416.199.48248.29.5256.226.7549.9133.79242.837.0240.841.0580.5147.010342.956.5340.761.3608.3165.811356.976.0356.3102.1559.6169.812198.29.2199.28.1371.954.39.有交互效应的方差分析【例9】某研究者欲研究IL-11药对5.5Gy照射小鼠骨髓造血细胞周期(G0/G1期)的影响,选取45只小鼠并将其完全随机地均分成3组,每组15只,分别在5.5Gy剂量照射前给IL-11药、照射后给IL-11药和照射对照(即不给IL-11药)。每一组中的15只小鼠随机等分成3组,分别在照后6h、12h、24h三个时间点上处死,测量其骨髓造血细胞周期(G0/G1期)。试验结果见表4-6,请进行相应的统计分析。10.比例检验【例10】为了调查某工厂产品生产合格率的情况,共对该工厂随机抽取1000件产品进行检验,发现其中978件合格,22件不合格。已知业内相同产品的生产合格率为98%,问该工厂产品合格率是否低于业内平均水平?11.一致性检验【例11】两家评审机构(A和B)对同一组评价项目的评审结果如表7-1所示,问两家评审机构的评价结果是否一致。12.独立性检验【例12】某研究随机抽取了某大学四年级学生124人,调查大学英语六级通过情况,结果见表7-3,问该大学男生和女生英语六级通过率有无差别?13.列联表分析【例13】某研究为了比较三所大学大一新生中党员比例,从三所大学中随机抽取部分学生进行比较,得到表07-8数据,试分析三所大学新生中党员的比例差别有无统计学意义?14.简单线性回归【例14】土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐累积,抑制植物生长。如下表所示,分别为每千克土壤中NaCl的含量(X),植物单位叶面积干物重量(Y),试进行简单线性回归分析。15.多重线性回归【例15】有研究认为血清中低密度脂蛋白增高是引起动脉硬化的一个重要原因,现测量了30名被怀疑患有动脉硬化的就诊患者的载脂蛋白AⅠ、载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白中的胆固醇含量,资料见表13-1,试分析四种载脂蛋白对低密度脂蛋白中胆固醇含量的影响。16.主成分回归分析17主成分分析【例17】不同国家和地区的女子田径记录数据列于表29-1中。试对其进行主成分分析,并对主成分进行解释,把不同国家和地区按它们在第一主成分上的得分排序。18探索性因子分析【例18】50个白人男性申请警察局职位的体检数据(Gunst和Mason(1980)),指标括:1、身高(单位:厘米)(height);2、体重(单位:千克)(weight);3、肩宽(单位:米)(shldr);4、骨盆宽(单位:厘米)(pelvic);5、最小胸围(单位:厘米)(chest);6、腿皮褶厚度(单位:毫米)(thigh);7、静息脉率(pulse);8、引体向上次数(chnup);9、大肺活量(单位:公升)(breath);10、踏板跑步休息5分钟后脉率(recvr);11、最大踏板度(speed);12、体脂(fat)(资料来源:DallasE.Johnson.AppliedMultivariateMethodsforDataAnalysts)。其数据结构如表30-1所示。19.典型相关分析【例19】想要研究19~22岁汉族男性学生的身体形态学指标与功能指标之间的关系,调查得到的具体数据见表34-1,试用典型相关分析方法对该资料进行分析。20变量聚类【例20】为研究人脑老化的严重成度,有人测定了不同年龄的60名正常男性10项有关指标,数据见表35-1。各变量的含义如下:AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。21样品聚类【例21】有一项对美国39座城市空气污染情况的调查数据,在这39个城市中,对每个城市检测了二氧化硫(SO2)、平均气温(temperature)、20人以上的手工企业(factories)、人口数(population)、平均风速(windspeed)、平均降雨量(rain)、每年平均降雨天数(rainydays)7项指标,其中二氧化硫(SO2)是结果变量,其余的六个变量为原因变量,即对二氧化硫(SO2)有影响的因素。数据见表36-1,试对这39个城市的空气污染程度按原因变量进行分类。22.判别分析【例22】从心电图的5个不同指标中对健康人(C=1)、硬化症患者(C=2)和冠心病患者(C=3)的数据(见cl.dbf).试进行判别分析。23时间序列分析——指数平滑分析【例23】某药品公司自1990年以来生产的某种抗生素的出厂数量时间序列如表20-1所示,试用指数平滑法预测2006~2010年该药的出厂数量,并计算模型参数、预测值及其置信区间。24.时间序列——ARIMA模型【例24】为了对某区级医院体检中心1970-2005年的收入序列(连续性变量)进行预测(数据详见表20-2),选用