管理数量方法与分析复习要点

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

管理数量方法与分析复习要点第1章数据分析的基础1.1数据分组与变量数列1.数据分组:数据分组就是对某一变量的不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量分布特征及变动规律.由于变量有离散变量与连续变量的区别,因而对其进行分组可分为单项分组与组距分组两种不同的分组方法。若变量是离散型变量,且取值只有不多的几个时,则采用单项分组.这种分组的做法是:将变量的不同取值作为一组的组别,变量有多少个不同取值就划分成多少组。若变量是连续型变量,或者是取值较多的离散型变量,则需采用组距分组.这种分组的做法是2将变量的全部取值按照其大小顺序划分成若干个不同数值的区间。2.变量数列(1)变量数列的概念在对变量取值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列,称为变量数列。由于对变量分组有单项分组和组距分组两种不同的方法,因而分组后所形成的变量数列也有单项数列和组距数列两种(2)累计频数和累计频率向上累计频数(或频率)的具体做法是:由变量值低的组向变量值高的组依次累计频数(或频率).向上累计频数的结果表明某组上限以下的各组次数(或频数)之和是多少;向上累计频率的结果表明某组上限以下的各组次数(或频数)之和占总次数(或总频数)的比重是多少.向下累计频数(或频率)的具体做法是:由变量值高的组向变量值低的组依次累计频数(或频率).向下累计频数的结果表现某组下限及以上各组次数(或频数)之和是多少;向下累计频率的结果表明某组下限及以上各组次数(或频数)之和占总次数(或总频数)的比重。(3)变量数列分布图:常用的次数分布图主要有柱状图、直方图和折线图等几种。1.2分布中心的测度1.分布中心的概念及意义分布中心是指距离一个变量的所有取值最近的位置。揭示变量的分布中心有着十分重要的意义:(1)变量的分布中心是变量取值的一个代表,可以用来反映其取值的一般水平.(2)变量的分布中心可以揭示其取值的次数分布在直角坐标系上的集中位置,可以用来反映变量分布密度曲线的中心位置,即对称中心或尖峰位置.2.分布中心的测度指标及其计算方法(1)算术平均数设某一变量的x不同取值为XI,X2,…,xn,则计算其算术平均数的公式为:式中:代表算术平均数;代表变量值总和;n代表变量值个数之和②加权算术平均数z如果所掌握的资料是已经经过分组整理的变量数列资料,包括单项分组的单项数列和组距分组的组距数列,要计算其变量值的算术平均数都需要采用加权算术平均的方法。设x1,x2,∙∙∙,xn代表各组的变量值,f1,f2,···,fn代表各组变量值出现的次数。也称权数。则加权算术平均数的计算公式为:(2)中位数:中位数是指将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值.由于所掌握的资料不同,确定中位数的方法也有所区别:①未分组资料中位数的确定.②单项数列中位数的确定.③组距数列中位数的确定.(3)众数:众数是指某一变量的全部取值中出现次数最多的那个变量值.由于掌握资料不同,众数的确定方法也有所不同.若掌握某一变量的一组未分组的变量值,则只需要统计出现次数最多的那个变量值即可g若掌握的资料是单项数列,则频数(或频率)最大组的变量值就是众数.若掌握的资料是组距数列,要确定众数,首先依据各组变量值出现次数的多少确定众数所在的组,然后采用上限公式或者下限公式确定众数即可.1.3离散程度的测度1.离散程度测度的意义(1)通过对变量取值之间离散程度的测定,可以反映各个变量值之间的差异大小,从而也就可以反映分布中心指标对各个变量值代表性的高低.(2)通过对变量取值之间离散程度的测定,可以大致反映变量次数分布密度曲线的形状.2.离散程度的测度指标(1)极差:极差又称全距,是指一组变量值中最大变量值与最小变量值之差,用来表示变量的变动范围.通常用R代表全距.R=max(xi)-min(xi)(2)四分位全距:四分位全距是指将一组由小到大排列的变量数列分成四等分,可得到三个分割点Q1、Q2、Q3,分别称为第一个、第二个、第三个四分位数;然后用第一个四分位数Q1,减去第三个四分位数Q3所得差的绝对值,即为四分位全距.(3)平均差:平均差是变量各个取值偏差绝对值的算术平均数.由于变量的各个取值与其算术平均数的偏差有正有负,直接相加会使其正负抵消而为0,所以可将每个偏差取绝对值后再相加求平均,如此便得到了平均差.实际上.平均差反映了变量的各个取值离其算术平均数的平均距离.(4)标准差:标准差是变量的各个取值偏差平方的平均数的平方根,又称为根方差。(5)方差:标准差的平方称为方差.它与标准差的作用相同,也可用来描述变量分布的离散程度.方差的数学性质如下:①变量的方差等于变量平方的平均数减平均数的平方;②变量与算术平均数离差平方和具有最小的性质,即变量与算术平均数计算的方差小于变量与任何其他常数计算的方差;③变量线性变换的方差等于变量的方差乘以变量系数的平方;④n个独立变量代数和的方差,等于各变量方差的代数和;⑤n个独立变量代数和的标准差不大于各变量标准差的代数和。(6)变异系数:各个衡量变量取值之间绝对差异的指标与算术平均数的比率,通称为变异系数,具体来说有极差系数、平均差系数和标准差系数等.各变异系数的计算公式分别为:1.4偏度与峰度1.偏度与峰度的概念变量分布的偏斜程度是指其取值分布的非对称程度;变量分布的峰度是指其取值分布密度曲线顶部的平坦程度或尖峭程度.2.偏度的测度直观偏度系数是利用描述变量分布中心的不同指标之间的直观关系而确定的测度变量分布偏斜程度的指标.主要有皮尔逊偏度系数和鲍莱偏度系数两种.皮尔逊偏度系数的数值在—3~十3的范围之内.皮尔逊偏度系数的绝对值越接近子3,变量分布的偏斜程度越大3皮尔逊偏度系数的绝对值越接近于0,变量分布的偏斜程度就越小.鲍莱偏度系数的数值在一1~十1之间.其绝对值越接近于1.变量分布的偏斜程度越大g其绝对值越接近于0,变量分布的偏斜程度越小.(2)矩偏度系数矩偏度系数就是利用变量的矩来确定的变量分布偏斜程度的指标.变量分布的矩有两种,一种称为原点矩,即变量所有取值的某次方的算术平均数;另一种称为中心矩,即变量所有取值与其算术平均数离差的某次方的算术平均数.其中乘方的次数称为阶数.对于变量x,其m阶原点矩用m表示,其m阶中心矩用Sm表示.3.峰度的测度对观测变量分布密度曲线顶峰的尖峭程度的测定,通常主要用峰度系数指标。峰度系数的构造,需要利用观测变量取值的四阶中心距来进行.将变量的四阶中心矩与其标准差的四次方相除,所得比率就称为峰度系数,其计算公式为:1.5两个变量的相关关系1.协方差:协方差是两个变量的所有取值与其算术平均数离差乘积的算术平均数,它可以用来测定两变量之间相关关系的方向和密切程度.若对两个变量X和Y同时进行了n次观测,所获得X和y的成对观测数据为:(x1,y1),(x2,y2),···(Xn,yn),则两变量X和Y的协方差的计算需采用简单算术平均法,其计算公式为:2.相关系数:若是根据总体数据计算,相关系数通常用pxy表示,其计算公式为.式中:σxy表示总体的协方差;σx表示总体变量x的标准差.若是根据样本数据计算,相关系数通常用rxy表示,其计算公式为:式中:Sxy表示样本的协方差;sx表示样本变量x的标准差;Sy表示样本变量y的标准差.第2章概率与概率分布2.1随机事件与慨率1.事件的关系与运算(1)若事件A发生必然导致事件B发生,则称事件B包含事件A.或称事件A包含于事件B.即事件A是事件B的子集.若事件A包含事件B,事件B也包含事件A.则称事件A与B相等.(2)若事件A与事件B至少有一个发生,则记为AUB(或A十B).并且称为事件A与B的并(和).(3)若事件A与事件B同时发生,则记为A∩B(或AB),并且称为事件A与B的交(积).(4)若事件A发生而事件B不发生,则记为A-B.并且称为事件A与B的差.(5)若事件A与B不可能同时发生,也就是说.AB是不可能事件,即AB=,.则称事件A与B是互不相容事件,或者称A与B是互斥事件.(6)若事件A与事件A满足:AA=AUĀ=Ω,则称Ā是A的对立事件,或者称A是Ā的对立事件.(7)设A1,A2,···,An是有限或可数个事件。若其满足:则称由A1,A2,···,An所组成的事件组为一个完备事件组。2.随机事件的概率概率的性质:(1)(2)(3)若A与B互不相容(也称互斥).则有:(4)若A与Ā是对立事件,则有:(5)若A与B是任意两事件,则有:此式称为概率的加法公式.3.古典概率若一个随机试验的样本空间是由有限个样本点构成,且每个样本点在实验中是等可能地出现,那么,事件A发生的概率就可用下列公式来计算:4.条件概率与事件的独立性(1)条件概率的定义在随机试验中,有时除了需要知道事件B发生的概率P(B)外,还需要知道在事件A已经发生的条件下事件B的概率,我们把这个概率记作P(BIA).其公式如下:(2)条件概率的计算方法①利用条件概率的定义公式计算.②采用缩减样本空间方法,即根据事件已经发生的信息缩减样本空间,再在此基础上计算B的概率.(3)乘法公式:P(AB)=P(A)P(BIA)(P(A)0)此式称为概率的乘法公式,简称乘法公式.(4)全概率公式与贝叶斯公式若设随机试验E的样本空间为Ω,BI,B2,…,Bn是一个完备事件组,且P(Bi)O(i=1,2,…,n),则对E的任一事件A,都有:上式称为全概率公式.上式称为逆概率公式,或称为贝叶斯公式.在全概率公式和贝叶斯公式中的BI,B2,…,Bn是导致事件A发生的各种原因、情况或途径及其可能性.P(Bi)(i=1,2,…,n)是各种原因发生的概率,称为先验概率,一般由实际经验给出.贝叶斯公式中的P(Bi|A)称为后验概率,它反映了事件A发生后各种原因Bi(i=1,2,…,n)造成的可能性的大小.(5)事件的独立性若事件A和B满足等式:P(AB)=P(A)P(B)则称事件A、B是相互独立的.两事件相互独立的概念可以推广到有限多个事件的情形.2.2随机变量及其分布1.随机变量的概念设随机试验E的样本空间为Ω={e}.若对于每一个eЄΩ,都对应唯一实数X(e),则称变量X(e)为随机变量,记作X.以后用字母X,Y,…表示随机变量。2.随机变量的概率分布(1)离散型随机变量的概率分布①两点分布.两点分布的应用条件是2若互相独立的重复试验只有成功和失败两种结果,这种试验称为贝努里试验.其分布律为:②超几何分布.若要确定n次实验中恰好出现k次成功的概率,则需采用下列概率模型:③二项分布.若要确定其恰好有k次成功的概率,其中随机变量X表示实验次数,则所需概率模型为:式中:0pl;n为正整数;n和p为二项分布的两个重要的参数.④泊松分布.泊松分布的分布律为记作x~(λ),式中λ0为参数.(2)连续型随机变量的概率分布对于随机变量X的分布函数F(x),如果存在非负函数f(x),使对任意实数x有:则称x为连续型随机变量,f(x)为x的概率分布密度,简称分布密度或概率密度,分布密度的图形叫做分布密度曲线.下面介绍几种常用的连续型随机变量的概率分布·①均匀分布.若连续型随机变量X的概率密度为则称随机变量X在[a,b]上服从均匀分布.②正态分布.若随机变量X的概率密度为:其中,σ0为常数,则称x服从参数为µ、σ的正态分布.记作X~N(µ,σ2).③指数分布.指数分布的概率密度函数为其中,λ0为参数.2.3随机变量的数字特征与独立性1.随机变量的数字特征(1)数学期望随机变量的期望值也称为平均值,它是随机变量取值的一种加权平均数,是随机变量分布的中心.①离散型随机变量X的数学期望定义为:②连续型随机变量X的数学期望的定义为:(2)方差①离散型随机变量的方差定义为:②连续型随机变量的方差定义为:为了便于计算方差,下面引入一个计算方差的简捷公式:③方差的性质:设C为常数,则D(c)=0.设X为随机变量,c为常数,则有D(cX)=c2D(X).设X、Y是两个相互独立的随机变量,则有D(X

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功