EXCEL在描述性统计中的应用执教者:涂春景能力部分本节学习目标:1.掌握EXCEL描述性统计工具的应用如:求平均数、标准差、方差、最大值、标准误差等2.掌握直方图工具在描述性统计的应用3.掌握散点图工具在描述性统计的应用4.掌握数据透视表工具在描述性统计的应用5.掌握排位与百分比工具在描述性统计的应用1.如何描述刘翔成绩数据特征值?2.如何用EXCEL求这些特征值?3.如何用EXCEL图表描述这些数据?4.如何用EXCEL预测刘翔未来2年成绩?复习1:样本特征值概念1、什么是样本特征值描述样本特征的值就是特征值。主要包括集中位置量数和离中位置量数。2、集中位置量数主要有:中位数、众数、平均数等离中位置量数主要有:全距、方差、标准差、标准误等(1).方差(2).标准差12nxxS)(13.116复习题1、求2007年刘翔各次成绩平均值。点击复习2:求单个样本特征值选单元格0.13348复习2:求单个样本特征值点击复习题2、求2006年各次成绩的标准差。选中新授1:用描述性统计工具综合求样本特征值问题1:综合求2007年刘翔各次成绩的基本特征值点击置信度是一种由样本推断总体特征的参数估计实践操作1:用EXCEL描述性统计工具求刘翔2004年度各成绩的各项特征值。2004年度刘翔成绩(秒):13.2、13.06、13.4、13.25、13.11、13.06、13.27、13.26、13.18、12.91。新授2:画直方图问题2:画出刘翔2001—2010年国内外比赛成绩频率直方图新授2:画直方图画出刘翔2001—2010年所有国内外比赛成绩频率直方图新授2:画直方图画出刘翔2001—2010年所有国内外比赛成绩频率直方图直方图05101520253012.8712.9713.0713.1713.2713.3713.4713.5713.6713.77其他接收频率频率实践操作3:画出以下60名男生纵跳成绩直方图实践操作2:画出60名男生纵跳成绩频率直方图样本容量增大时频率分布直方图频率组距频率组距ab若数据无限增多且组距无限缩小,那么频率分布直方图的顶边缩小乃至形成一条光滑的曲线,我们称此曲线为概率密度曲线.总体在区间内取值的概率),(ba概率密度曲线概率密度曲线的形状特征.“中间高,两头低,左右对称”正态分布总体密度曲线问题3:画刘翔成绩散点图并预测未2年平均成绩刘翔2001-2010年110m平均成绩(秒)分别为:散点图是观察两个变量之间关系程度最为直观的工具之一,利用Excel的图表向导,可以非常方便创建并且改进一个散点图,也可以在一个图表中同时显示两个以上变量之间的散点图,并能对数列进行预测。散点图进行线性回归分析回归分析预测:1、定义:由一个或一组非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型及所进行的统计分析,称为回归分析2、求回归方程:(图表向导法)新授3:画散点图描述数列及预测新授3:画散点图描述数列及预测步骤:图表向导——散点图——图表源数据——图表选项——确定新授3:画散点图描述数列及预测预测步骤:散点——添加趋势线——选择类型与选项——确定——预测新授3:画散点图描述数列及预测博尔特教练惊爆博尔特极限9.52s科学家预测若保持9.61速度,则还能冲刺9.55实践操作3:趋势预测百米记录9.29.49.69.81010.210.410.610.81912年7月1917年7月1922年7月1927年7月1932年7月1937年7月1942年7月1947年7月1952年7月1957年7月1962年7月1967年7月1972年7月1977年7月1982年7月1987年7月1992年7月1997年7月2002年7月2007年7月百米记录人类百米极限是多少?实践操作3:求奥运会100米冠军成绩散点图,并预测2012年奥运会100米成绩。最近十届奥运会100m冠军成绩(秒)20届21届22届23届24届25届26届27届28届29届10.1410.0610.259.999.929.969.849.879.859.69小结:请列举本节课你所学到的知识点?你个人对本节课知识还有哪些困惑?实践能力作业:1、就EXCEL对课本P19第4题,综合求其特征值,同时画出其直方图。2、上网收集近十届奥运会某一游泳项目冠军成绩,画出散点图,并预测该项目2012年伦敦奥运会冠军成绩电子版作业发到邮箱:121130586@qq.com新授四、数据透视表工具(一)简介:数据透视表是Excel中强有力的数据列表分析工具。它不仅可以用来作单变量数据的次数分布或总和分析,还可以用来作双变量数据的交叉频数分析、总和分析和其它统计量的分析。(二)操作步骤:如图附-5所示,表中列出学生两门功课评定结果,图附-5可按如下步骤建立交叉频数表:1.选中图附-5中表格中有数据的任一单元格,然后选择“数据”菜单的“数据透视表”子菜单,进入数据透视表向导。2.选择“MicrosoftExcel数据清单或数据库”为数据源。单击“下一步”。3.选择待分析的数据的区域,一般情况下Excel会自动根据当前单元格确定待分析数据区域,因此你只要直接单击“下一步”按扭即可。4.确定数据透视表的结构,在此例中,要建立的是一个交叉频数表,分别按语文和数学的成绩对学生的人数进行交叉频数分析,因此可按图附-6将三个按扭“学号”、“语文”、“数学”分别拖放到表格的指定部位,并且双击“求和项:学号”,将其改为记数项,结果如图附-6所示,然后单击“下一步”按扭。5.选择数据透视表的显示位置之后,单击“完成按扭”,可出现如图附-7所示的数据透视表。图附-6(三)结果说明:如图附-7的结果所示,数据透视表可以作为一个交叉频数分析工具。完成数据透视表之后,可按需要修改数据表的显示格式。例如,如果想要把表格中的频数替换成为百分比数。可以用鼠标右击频数的任一单元格,选择“字段”子菜单,单击“选项”按扭,将“数据显示方式”替换成为“占总和的百分比”,然后单击“确定”按扭即可。按同样方式,可将数据透视表修改成为其它不同样式。图附-7新授五、排位与百分比工具(一)简介:此分析工具可以产生一个数据列表,在其中罗列给定数据集中各个数值的大小次序排位和相应的百分比排位。用来分析数据集中各数值间的相互位置关系。(二)操作步骤:1.用鼠标点击表中待分析数据的任一单元格。2.选择“工具”菜单的“数据分析”子菜单,用鼠标双击数据分析工具中的“排位与百分比”选项。3.填写完“排位与百分比”对话框,单击“确定”按扭即可。(三)结果说明:输出的结果可分为四列,第一列“点”是数值原来的存放位置,第二列是相应的数值,第三列是数值的排序号,第四列是数值的百分比排位,它的计算方法是:小于该数值的数值个数/(数值总个数-1)。二、动态分析预测回归分析预测刘翔110米栏一元回归分析图y=-0.0542x+121.78R2=0.83011313.113.213.313.413.5200020022004200620082010年度成绩(秒)系列1二、动态分析预测回归分析预测实践操作3:请用回归方程预测刘翔2008年奥运会成绩刘翔2001-2007各年度最好成绩分别为:13.32、13.12、13.19、12.91、13.05、12.88、12.92二、动态分析预测回归分析预测二、动态分析预测回归分析预测刘翔110米栏一元回归分析图y=-0.0542x+121.78R2=0.83011313.113.213.313.413.5200020022004200620082010年度成绩(秒)系列1二、假设检验1、什么是假设检验?二、画频率分布直方图问题:请给刘翔6.1参数估计的基本内容参数估计就是要从样本出发去构造一个统计量作为总体中某未知参数的一个估计量。包括点估计和区间估计两种。若总体X的分布函数形式已知,但它的一个或多个参数未知,则由总体X的一个样本估计总体未知参数的值的问题就是参数的点估计问题。要求由样本构造一个以较大的概率包含真实参数的一个范围或区间,这种带有概率的区间称为置信区间,通过构造一个置信区间对未知参数进行估计的方法称为区间估计。返回首页利用Excel计算总体均值的置信区间例1:为了考查井冈山大学体育学院05级学生身高情况,先从男生中随机抽取9名学生,测得其身高(cm)分别为170、175、172、168、165、178、180、176、177。求:以95%的置信度估计井冈山大学体育学院05级学生男生的平均身高。总体均值区间估计的基本内容设是总体X的一个样本,X~N(μ,σ2),求总体均值μ的置信区间。1.总体方差σ2已知,求μ的置信区间构造总体均值μ的置信区间为:2.总体方差σ2未知,求μ的置信区间构造均值μ的置信区间为:nSxnSx22,nstxnstx22,返回本节实践操作1:请动手操作求刘翔2005年度各成绩的标准差2005年度刘翔成绩(秒):13.59、13.23、13.12、13.06、13.11、13.21、13.06、13.05、13.24、13.08、13.12、13.32、13.05、13.08、13.1、13.21。一、求样本特征值在95%的置信度下,本班男生身高的置信区间为(168.5063658,176.4936342)。计算结果如图5-1所示。问题2、求2006年刘翔各次成绩标准差。16417517016316816117717316518115517816416117417717516817016917416417618118116717816816915917416717117617217415918015417317017117417217118516417216316716817017417216918216716517217118515717416416817316617216117816217217916116017516916917516115515618218284):cm从某中学男生中随机抽取出名,测量身高,数据如下(单位:上述数据的分布有怎样的特点?频率分布直方图数学情景区间号区间频数频率累积频率频率/组距1153.5~157.550.05950.05950.0152157.5~161.580.09520.15470.0243161.5~165.5100.11900.27380.0304165.5~169.5150.17860.45340.0455169.5~173.5180.21430.66670.0546173.5~1775180.17860.84520.0457177.5~181.580.09520.94050.0248181.5~185.550.059510.015第二步:列出频率分布表xy频率/组距中间高,两头低,左右大致对称第三步:作出频率分布直方图频率组距产品尺寸(mm)ab若数据无限增多且组距无限缩小,那么频率分布直方图的顶边缩小乃至形成一条光滑的曲线,我们称此曲线为概率密度曲线.总体在区间内取值的概率),(ba概率密度曲线概率密度曲线的形状特征.“中间高,两头低,左右对称”知识点一:正态密度曲线频率组距产品尺寸(mm)ab若数据无限增多且组距无限缩小,那么频率分布直方图的顶边缩小乃至形成一条光滑的曲线,我们称此曲线为概率密度曲线.总体在区间内取值的概率),(ba概率密度曲线概率密度曲线的形状特征.“中间高,两头低,左右对称”知识点一:正态密度曲线22()21P(),(,)2xxexmsps--=???上图中概率密度曲线具有“中间高,两头低”的特征,像这种类型的概率密度曲线,叫做“正态密度曲线”,它的函数表达式是知识点二:正态分布与密度曲线式中的实数、是参数,分别表示总体的平均数与标准差.不同的对应着不同的正态密度曲线m)0(ms,(1)当=时,函数值为最大.(3)的图象关于对称.(2)的值域为(4)当∈时为增函数.当∈时为