数据、模型与决策秀秀老师1第一节图表描述分析2第二节数量资料的特征数字3第三节属性资料的特征数字Contents第三章统计资料描述分析第一节图表描述分析图表描述分析统计表的种类与应用频数分布的编制统计资料的图像描述单变量的频数分布两变量交叉分类的频数分布直方图、折线图与曲线图累积分布图饼形图与圆环图帕累图散点图雷达图茎叶图第二节数量资料的特征数字集中趋势离散趋势相关性测量软件应用原始数据:105913685.86861395106654321XXXXXXX集中趋势①算术平均数:含义:假定为样本观察值,用表示算术平均数,则算术平均数的基本计算公式为特殊考虑:对于已经过分组并形成频数分布的资料,此时计算算术平均数就要采用加权的办法。计算加权算术平均数时,需要对各个组的变量值与相应组的频数的乘积求和,然后除以频数之和n,2,1njjnnn1211加权均值甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X):020100人数分布(F):118乙组:考试成绩(X):020100人数分布(F):8111101201100882118KiiiKiiXFXF甲(分)1108201100112811KiiiKiiXFXF乙(分)加权均值表4-1某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0计算50名工人日加工零件数的均值116160123.250KiiiKiiXFXF(个)集中趋势计算和运用算术平均数是需要注意:I.算术平均同时受到两个因素的影响,一个是各组的观察值的大小,另一个是各组分布频数的多少II.算术平均值易受极端值干扰集中趋势中位数含义:把观察值按从小到大的顺序排列,位置居中的数叫做中位数求下列各组数据的中位数1)1,2,3,3,3,4,6,8,8,8,9,9中位数是:52)1,2,3,3,3,4,8,8,8,9,9中位数是:4公式为偶数,为奇数nnMennn122)21(21,MEDIAN集中趋势中位数是一种较为常用的反映集中趋势的特征数字1.不受极端值的影响,具有很强的抗干扰性2.由组距频数分布资料计算中位数时,要求等距组数,且要求观察值在中位数所在的组中近似服从对称分布,否则计算结果可能存在误差3.对于观察值大量重复的现象,中位数未必准确四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%集中趋势截尾均值含义:去掉观察值中部分最大值和最小值,由保留下来的数据计算平均值称为截尾均值。离散趋势的测度离散趋势的测度,在统计学中也称为指标变异指标,是用来描述数列中指标值的离散趋势与离散程度的。常用的标志变异指标有极差、平均差和标准差等。1.极差极差是指一个数列中两个极端值即最大值与最小值之间的差异。根据极差的大小能说明标志值变动范围的大小。其计算公式为:极差=最大标志值-最小标志值根据组距数列求极差的计算公式为:极差=最高组上限-最低组下限在实际工作中,极差可以用于检查产品质量的稳定性和进行质量控制。在正常生产的条件下,产品质量稳定,极差在一定范围内波动,若极差超过给定的范围,就说明有不正常情况产伤。但极差受到极端是的影响,测定结果往往不能反映数据的实际离散程度。例子•1,3,4,7,8,9,10•求极差•R=10-1=9极差1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据R=max(Xi)-min(Xi).=组距分组数据R最高组上限-最低组下限5.计算公式为极差是离散程度的最简单测度值,它只利用了一组数据的两个极端值,易受极端值的影响,且不能反映中间数据的分散状况。比如:1,6,6,6,6,6,10这一组数据,极差是?R=10-1=9和上一组极差值相同,都是9,如果以此断言两组数据离散程度相同,恐怕很不合适,直觉告诉我们后一组数据的差异比前一组数据大的多。2.四分位差四分位差是根据四分位数计算的。首先把变量各单位标志值从小到大排序,再将数列四等分,处于四分位点位次的标志值就是四分位数,记作,为第一四分位数(也称为下四分位数),为第二四分位数,就是中位数,为第三四分位数。123MMM,,四分位差的计算公式为:1M2MeM3M13MMIQR四分位差是对极差的一种改进。与极差相比,四分位差因不受极值的影响,在反映数据的离散程度方面比极差准确,具有较高的稳定性;同时,对于存在开口的组距数列,不能计算极差,但可以计算四分位差。四分位差与极差相比较:四分位差和极差一样,不能充分利用数据的全部信息,也无法反映标志值的一般变动。4.方差和标准差未分组资料时,方差的公式为:nXXsi22标准差的公式为:nXXsi2分组资料时,方差的公式为:标准差的公式为:ikiipxxs12)(kiiipxxs1)(式中:XN——算术平均数——总体单位数ip——各组频率2ss——方差——标准差X——变量值5.离散系数上述的各种标志变异度指标,都是对总体中各单位指标值变异测定的绝对量指标。而离散系数是测定总体中各单位标志值变异的相对量指标,以消除不同总体之间在计量单位、平均水平方面的不可比因素。常用的离散系数主要有平均差离散系数和标准差离散系数..DAVV其公式分别为:%100....XDAVDA%100XsV离散系数•上面介绍的各离散程度的测度值,反映的是数据分散程度的绝对值,其数值的大小取决于原变量值绝对水平的高低。•举个例子:•两组数据:•第一组:5,10,20,25,30•第二组:100000,100005,99995,100020,100040•第一组数据极差=25•第二组数据极差=45•第一组数据平均差=8.4•第二组数据平均差=14.4•第一组数据方差=107.5标准差=10.36822•第二组数据方差=332.5标准差=18.23458•第一组的离散系数=10.36822/8.4=1.23•第二组的离散系数=18.23458/14.4=1.26对平均水平不同或计量单位不同的不同组别的变量值,不能直接的用上述离散程度的测度值进行直接的比较各组的离散程度。为了消除变量值水平的高低和计量单位不同对离散测度值的影响,我们计算离散系数值。•离散系数一般是用标准差计算的,也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:XsV离散系数(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为xSVXVs或正方形边长x面积S2x确定关系1.正方形面积S与边长x之间的关系:2.人的身高不能确定体重,但平均说来“身高者,体也重”.那么身高和体重具有什么关系?3.类似的情况生活中是否还有?(1)商品销售收入与广告支出经费;(2)粮食产量与施肥量.相关关系相关性分析相关性测量相关系数反映变量间线性相关关系的重要指标。计算公式:niiniiniiiyyxxyyxx111)())(((1)niniiininiiininiiniiiiyynxxnyxyxn12121212111)()())((变形后的公式属性资料的特征数字属性资料的集中趋势的测度主要是:众数、中位数、四分位数属性资料的离散趋势的计算方法,常用的有离散比率、GINI-SIMPSON指数和熵等第四章参数样本推断参数样本推断统计量与抽样分布参数估计的应用假设检验应用总体选择个体样本观测样本样本观察值(数据)数据处理样本有关结论推断总体性质统计量统计的一般步骤这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.第四章参数样本推断第一节统计量与抽样分布统计量X1,X2,…,Xn为来自总体X的样本,称不含未知参数的样本的函数f(X1,X2,…,Xn)为统计量.若x1,x2,...,xn为样本观测值,则称f(x1,x2,...,xn)为统计量f(X1,X2,…,Xn)的观测值.统计量是处理、分析数据的主要工具.对统计量的一个最基本的要求就是可以将样本观测值代入进行计算,因而不能含有任何未知的参数.设X1,X2,…,Xn是来自总体X的样本,X~N(,2),其中、2为未知参数,则X1,,min{X1,X2,…,Xn},为统计量。但诸如等均不是统计量,因它含有未知参数或.323121xx,)(112niiXn1X第一节统计量与抽样分布三大抽样分布1.2分布设X1,X2,…,Xn为相互独立的随机变量,它们都服从标准正态N(0,1)分布,则称随机变量称2服从自由度为n的2分布,记作2~2(n).2分布具有下面性质:1)可加性。设是两个相互独立的随机变量,且222212nxxx2221,)(~),(~),(~212222122221221nnnn则第一节统计量与抽样分布2)2分布曲线随自由度n的增大而逐渐趋向于正态分布曲线3)设X1,X2,…,Xn为相互独立的随机变量,它们都服从标准正态N(0,1)分布,令Q1+Q2+Q3+...+QK=,Qi(i=1,2,...,K)是秩为ni的非负定二次型,则Q1,Q2....,QK相互独立,且分别服从自由度为ni的2分布的充要条件是n1+n2+...+nk=nniix12练一练1.2分布的形状随自由度n的增大而逐渐趋向于()第一节统计量与抽样分布2.t分布设X~N(0,1),Y~2(n),X与Y独立,则称随机变量,服从自由度为的t分布,又称为学生氏分布,记为T~t(n).3.F分布设X~2(n),Y~2(m),且X与Y独立,称随机变量服从自由度为(n,m)的F分布,记为F~F(n,m).nYXTmYnXF第一节统计量与抽样分布1.从一个总体中随机抽出容量相同的各种样本,从这些样本计算出的某统计量所有可能值的概率分布,称为这个统计量的抽样分布。抽样分布就是从总体中抽出相同容量的全部样本,并计算出统计量的值,然后按统计量的值编制出来的频数分布2.设X1,X2,…,Xn是取自总体X的样本,样本均值_11niiXXn,所有可能样本的均值构成的概率分布即为样本均值的抽样分布。_X【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下总体分布14230.1.2.35.21NXNii25.1)(122NXNii现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)样本均值的抽样分布1.00.1.2.3P