1第一章数据分析的基础1.【选择】数据分析的前提是数据的搜集与加工处理。在数据资料进行加工处理时,通常采用对数据进行分组的方法。2.【选择】数据分组是对某一变量的不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量分布特征及变动规律。3.【选择】变量数列两要素:①组别——由不同变量值所划分的组;②频数——各组变量值出现的次数。各组次数与总次数之比叫做比率,又称频率。4.【选择】在变量数列中,由不同变量值组成的组别表示变量的变动幅度,而频数和频率则表示相对应的变量值对其平均水平的作用程度。频数(频率)愈大的组所对应的变量值对其平均水平的作用越大;反之,频数(频率)愈小的组所对应的变量值对其平均水平的作用也愈小。5.【案例分析】变量数列的编制(将结合变量数量分布图进行考查)①确定组数;对于等距分组,斯特吉斯给出一个大致的计算组数的公式:m=1+3.322lgN(变量个数N,组数为m)。②确定组距;在组距分组中,每组的上限和下限之间的距离称为组距等距分组的组距为d:mxxdiimin)max(③确定组限;当相邻两组中数值较小的一组的上限和数值较大的一组的下限只能用同一数值表示时,为了不违反分组的互斥性原则,一般规定上限不包含在本组之内,称为上限不在内原则。④计算各组的次数(频数);⑤编制变量数列;将各组变量值按从小到大的顺序排列,并列出相对应的次数,形成变量数列。6.【选择】累计频数和累计频率可概括地反映变量取值的分布特征。向上累计分布曲线呈上升状,向下累计分布曲线呈下降状。组的次数(或频数)较少,曲线显得平缓;组的次数(或频数)较密集,曲线显得较陡峭。7.【选答】洛伦茨曲线及其绘制方法(1)累计频数(或频率)分布曲线可用来研究财富、土地和工资收入的分配是否公平,这种累计分布曲线图最早是由美国洛伦茨博士提出,故又称洛伦茨曲线图。洛伦茨曲线,对角线为绝对平等线。根据实际收入分配线与绝对平等线或绝对不平等进行对比可衡量其不平等程度。离绝对平等线越远,分配越不平等;反之,越靠近绝对平等线,分配越平等。(2)首先,将分配的对象和接受分配者的数量均化成结构相对数并进行向上累计;其次,纵轴和横轴均为百分比尺度,纵轴自下而上,用以测定分配的对象(如一国的财富,土地或收入等),横轴由左向右用以测定接受分配者(如一国的人口);最后,根据计算所得的分配对象和接受分配者的累计百分数,在图中标出相应的绘示点,连接各点并使之平滑化,所得曲线即所要求的洛伦茨曲线。8.【案例分析/选择】变量的次数分布图就是用线和面等形状来表示次数分布的几何图形,常用的次数分布图主2要有柱状图、直方图和折线图等几种。①柱状图:用顺序排的柱状线段的高低来显示各组变量值出现次数的多少或频率的高低的图形。通常用来显示单项分组的次数分布。②直方图:用顺序排列的各区间上的直方条表示变量在各区间内取值的次数或频率的图形,可用来显示变量的组距分组次数分布。③折线图:在直方图中将各直方条顶端中点用线段连接起来,并在最低组之前和最高组之后各延长半个组距,将所连折线再连接到横轴上,所形成的图形就称为折线图。9.【简答】分布中心的意义①变量的分布中心是变量取值的一个代表,可以用来反映其取值的一般水平。②变量的分布中心可以揭示其取值的次数分布在直角坐标系上的集中位置,可以用来反映变量分布密度曲线的中心位置,即对称中心或尖峰位置。10.【选择】用来测量变量取值分布中心的指标有很多,常用的主要有:算术平均数、中位数和众数等几种。11.【选答】应用算术平均数应注意的几个问题第一,算术平均数容易受到极端变量值的影响。这是由于算术平均数是根据一个变量的全部变量值计算的,当一个变量的取值出现极小值或极大值时,都将影响其计算结果的代表性。当变量取值中存在极小值或者极大值时要剔除。第二,权数对平均数大小起着权衡轻重的作用,但不取决于它的绝对值的大小,而取决于它的比重。比重(相对数)权数更能反映权数的实质。第三,根据组距数列求加权算术平均数时,需用组中值作为各组变量值的代表,它是假定各组内部的所有变量值是均匀分布的。组距数列计算的平均数在一般情况下只是一个近似值。12.【选答】中位数(1)中位数,是指将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值。(2)中位数的确定:①未分组资料中位数的确定。首先将所有的变量值由小到大排列,然后用21n确定中位数所处的位置,最后寻找该位置的变量值,即为中位数.若n为奇数,则位于正中间的那个数据就是中位数;若n为偶数,则中位数为2122nnxx。②单项数列中位数的确定。由单项数列确定中位数,首先应计算向上或向下累计次数;然后由公式2f的计算结果与累计次数的结果确定中位数在单项数列中所处组的位置,则该组位置上的变量值即中位数。③组距数列中位数的确定。由组距数列确定中位数,首先根据组距数列资料计算向上或向下累计次数,然后由公式2f的计算结果与累计次数的结果来确定中位数在数列中所在的组,最后由下列两个公式中任意一个均可确定中位数。下限公式:dfSfLmmme12,上限公式:mmefSfUm12,式3中:em代表中位数;L、U分别代表中位数所在组的上限和下限;1mS代表变量小于中位数的各组次数之和;1mS代表变量大于中位数的各组次数之和;mf代表中位数所在组的次数;d代表中位数所在组的组距。13.【选答】众数(1)众数,是指某一变量的全部取值中出现次数最多的那个变量值。众数常作为某一变量取值一般水平的代表,有其特殊的应用条件。(2)众数的确定:①若掌握某一变量的一组未分组的变量值,只需统计出现次数最多的那个变量值即可;②若掌握的资料是单项数列,则频数(或频率)最大组的变量值就是众数;③若掌握的资料是组距数列,要确定众数,首先依据各组变量值出现次数的多少确定众数所在的组,然后采用上限公式或下限公式确定众数即可。其计算公式如下:下限公式:dLm2110,上限公式:dUm2120,式中:0m代表众数;L、U分别代表众数组的上限和下限;d代表众数组的组距;1代表众数组的次数与前一组次数之差;2代表众数组的次数与后一组次数之差.14.【选择】算术平均数、中位数和众数三者之间在数量上的关系取决于变量值在数列中的分布状况。(1)正态分布:算术平均数(x)=中位数(em)=众数(0m);(2)左偏分布:算术平均数(x)中位数(em)众数(0m);(3)右偏分布:众数(0m)中位数(em)算术平均数(x)。15.【简答】离散程度测度的意义:①通过对变量取值之间离散程度的测定,可以反映各个变量值之间的差异大小,从而也就可以反映分布中心指标对各个变量值代表性的高低。②通过对变量取值之间离散程度的测定,可以大致反映变量次数分布的密度曲线的形状。16.【选择】极差又称全距,是指一组变量中最大变量值与最小变量值之差,用来表示变量的变动范围,通常用R代表全距,记iixxminmaxR。17.【选择】变量分布的偏斜程度:变量取值分布的非对称程度;变量分布的峰度:变量取值分布密度曲线顶部的平坦或尖峭程度。18.【简答】测度变量次数分布的偏斜程度和峰尖程度的意义:一方面可以加深人们对变量取值的分布状况的认识;另一方面,人们可以将所关心的变量的偏度指标值和峰度指标值与某种理论分布的偏度指标值和峰度指标值进行比较,以判断所关心的变量与某种理论分布的近似程度,为进一步的推断分析奠定基础。第二章概率与概率分布1.【选择】事件的关系与运算①并A∪B:A发生或B发生(或A,B至少有一个发生)的事件,常记作A+B;②交A∩B:A,B同时发生的事件,常记作AB;③差A-B:A发生,但B不发生的事件;④互斥事件:事件A和B不能同时发生(即AB=Φ),则称事件A,B互斥(互不相容);⑤对立事件:满足AA和AA,则称A是A的对立事件。42.【选择】随机事件A发生的可能性大小的度量(数值),称为事件A发生的概率,记作P(A)。3.【选择】概率的性质:①0≤P(A)≤1;②P(Ω)=1,P(Φ)=0;③若A与B互不相容,则有:BPAPBAP;④若A与A是对立事件,则有:1APAP或APAP1;⑤若A与B是任意两事件,则有:ABPAPAPBAP。4.【选择】若一个随机试验的样本空间是由有限个样本点构成,且每个样本点在实验中等可能出现,那么事件A发生的概率为:数样本空间中全部样本点包含的样含的样本AnmAP5.【选择】条件概率与事件的独立性(1)条件概率的定义:设A,B两个是随机事件,且P(A)0,则APABPABP|为在事件A发生的条件下,事件B发生的概率。(2)条件概率的计算方法:①利用条件概率的定义公式计算P(B|A);②采用缩减样本空间法,即根据事件已经发生的信息缩减样本空间,在此基础上计算B的概率。(3)乘法公式0,|APABPAPABP。同理,对于A、B、C三事件,若0ABP,则有:ABCPABPAPABCPABPCABPABCP|||.(4)全概率公式与贝叶斯公式:若设随机事件E的样本空间,NBBB,,,21是一个完备事件组,且niBPi,2,10,则对E的任何一事件A,都有:niiiBAPBPAP1|,称此公式为全概率公式,nijjiiiiBAPBPBAPBPAPABPABP1|||,称为逆概率公式,或贝叶斯公式。(5)事件的独立性:若事件A和B满足等式BPAPABP,则称事件A、B是相互独立的。6.【简答】引入随机变量的原因:在生产生活中,仅仅讨论随机事件的概率显然是不够的,为了更好地揭示随机现象的规律性,并利用数学分析的方法来描述。这就需要把随机试验的结果数量化,即要用某一变量的不同取值来表示随机试验中出现的各种不同结果,这就是要引入随机变量的原因。7.【选择】设随机试验E的样本空间为Ω={e},若对于每一个e∈Ω,都对应唯一实数X(e),则称变量X(e)为随机变量,记作X.以后用字母X,Y,…表示随机变量。8.【选择】所谓随机变量的概率分布,就是随机变量的取值规律,通常用分布律(分布密度)、分布函数来描述随机变量的分布。由于随机变量的取值特点不同,因而描述概率分布的方式也不同。9.【选择】离散型随机变量的概率分布:(1)若随机变量的全部可能取到的值是有限个或可列无限多个,这种随机变量叫做离散型随机变量。5(2)设离散型随机变量X所有可能取的值为,2,1kxk,X取各个可能值的概率,即事件kxX的概率为:,2,1,kPxXPkk,称公式为离散型随机变量X的概率分布或分布律,其中kP满足如下两个条件:①,2,1,0kPk;②01kkP。分布律也可用表格形式来表示。10.【选择】几种常用的离散型随机变量的概率分布:两点分布、超几何分布、二项分布、泊松分布。11.【选择】两点分布的应用条件:若互相独立的重复试验只有“成功”和“失败”两种结果,这种试验称为贝努利试验。这类试验具有的特征:第一,只有两种对立的结果,即“成功”和“失败”;第二,若成功事件的概率为p,则失败事件的概率为1-p或q,即:p+q=1。第三,试验为独立试验。12.【选择】超几何分布的应用条件:第一,从一个含有N个个体的总体中,以不重复方式随机抽取n个个体作为样本,各次抽样(试验)并非独立;第二,总体中的全部个体分为两类,假设“成功”与“失败”,其中“成功”类的个体数目为D个,“失败”类的个体数目为N-D个;第三,样本中从“成功”类D中抽取个体数目为k个,从“失败”类N-D中抽取个体数目为n-k。若要确定n个试验中恰好出现k次成功的概率,则需采用下列概率模型:nkCCCkXPnNknDNkD,,2,1,