第一章计数原理1.1分类加法计数与分步乘法计数分类加法计数原理:完成一件事有两类不同方案,在第1类方案中有m种不同的方法,在第2类方案中有n种不同的方法,那么完成这件事共有N=m+n种不同的方法。分类要做到“不重不漏”。分步乘法计数原理:完成一件事需要两个步骤。做第1步有m种不同的方法,做第2步有n种不同的方法,那么完成这件事共有N=m×n种不同的方法。分步要做到“步骤完整”。n元集合A={a1,a2⋯,an}的不同子集有2n个。1.2排列与组合1.2.1排列一般地,从n个不同元素中取出m(m≤n)个元素,按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列(arrangement)。从n个不同元素中取出m(m≤n)个元素的所有不同排列的个数叫做从n个不同元素中取出m个元素的排列数,用符号Anm表示。排列数公式:n个元素的全排列数规定:0!=11.2.2组合一般地,从n个不同元素中取出m(m≤n)个元素合成一组,叫做从n个不同元素中取出m个元素的一个组合(combination)。从n个不同元素中取出m(m≤n)个元素的所有不同组合的个数,叫做从n个不同元素中取出m个元素的组合数,用符号Cnm或(nm)表示。组合数公式:∵Anm=Cnm∙Amm∴Anm=n!(n−m)!=n(n−1)(n−2)⋯(n−m+1)Ann=n!Cnm=AnmAmm=n!m!(n−m)!=n(n−1)(n−2)⋯(n−m+1)m!规定:𝐂𝐧𝟎=𝟏组合数的性质:1.3二项式定理1.3.1二项式定理(binomialtheorem)*注意二项展开式某一项的系数与这一项的二项式系数是两个不同的概念。1.3.2“杨辉三角”与二项式系数的性质*表现形式的变化有时能帮助我们发现某些规律!(1)对称性(2)当n是偶数时,共有奇数项,中间的一项Cnn2+1取得最大值;当n是奇数时,共有偶数项,中间的两项Cnn−12,Cnn+12同时取得最大值。(3)各二项式系数的和为2n=Cn0+Cn1+Cn2+⋯+Cnk+⋯+Cnn(4)二项式展开式中,奇数项二项式系数之和等于偶数项二项式系数之和:Cn0+Cn2+Cn4+⋯=Cn1+Cn3+Cn5+⋯kCnk=nCn−1k−1Cnm=Cnn−m(“构建组合意义”——“殊途同归”)Cn+1m=Cnm+Cnm−1(杨辉三角)*Cnk×Cn−km−k=Cnm×CmkTk+1=Cnkan−kbk(a+b)n=Cn0an+Cn1an−1b+⋯+Cnkan−kbk+⋯+Cnnbn(n∈N*)其中各项的系数Cnk(k∈{0,1,2,⋯,n})叫做二项式系数(binomialcoefficient);式中的Cnkan−kbk叫做二项展开式的通项,用Tk+1表示通项展开式的第k+1项:(5)一般地,Crr+Cr+1r+Cr+2r+⋯+Cn−1r=Cnr+1(n𝑟)第二章随机变量及其分布2.1离散型随机变量及其分布2.1.1离散型随机变量随着试验结果变化而变化的变量称为随机变量(randomvariable)。随机变量和函数都是一种映射,随机变量把随机试验的结果映为实数,函数把实数映为实数。试验结果的范围相当于函数的定义域,随机变量的取值范围相当于函数的值域。所有取值可以一一列出的随机变量,称为离散型随机变量(discreterandomvariable)。概率分布列(probabilitydistributionseries),简称为分布列(distributionseries)。Xx1x2⋯xi⋯xnPp1p2⋯pi⋯pn也可用等式表示:P(X=xi)=pi,i=1,2,⋯,n根据概率的性质,离散型随机变量的分布列具有如下性质:(1)pi≥0,i=1,2,⋯,n;(2)∑pini=1=1随机变量X的均值(mean)或数学期望(mathematicalexpectation):E(X)=x1p1+x2p2+⋯+xipi+⋯xnpn它反映了离散型随机变量取值的平均水平。随机变量X的方差(variance)刻画了随机变量X与其均值E(X)的平均偏离程度D(X)=∑(xi−E(X))2pini=1其算术平方根√D(X)为随机变量X的标准差(standarddeviation)。E(aX+b)=aE(X)+bD(aX+b)=a2D(X)若随机变量X的分布具有下表的形式,则称X服从两点分布(two-pointdistribution),并称p=P(X=1)为成功概率。(两点分布又称0-1分布。由于只有两个可能结果的随机试验叫伯努利试验,所以两点分布又叫伯努利分布)X01P1-pp若X服从两点分布,则E(X)=p,D(X)=p(1−p)一般地,在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则𝐏(𝐗=k)=CMkCN−Mn−kCNn,k=0,1,2,⋯,mX01⋯mPCM0CN−Mn−0CNnCM1CN−Mn−1CNn⋯CMmCN−Mn−mCNn其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*如果随机变量X的分布列具有上表的形式,则称随机变量X服从超几何分布(hypergeometricdistribution)。2.2二项分布及其应用2.2.1条件概率一般地,设A,B为两个事件,且P(A)0,称P(B|A)=P(AB)P(A)为在事件A发生的条件下,事件B发生的条件概率(conditionalprobability)。如果B和C是两个互斥事件,则P(B∪C|A)=P(B|A)+P(C|A)2.2.2事件的相互独立性设A,B为两个事件,若P(AB)=P(A)P(B)则称事件A与事件B相互独立(mutuallyindependent)。可以证明,如果事件A与B相互独立,那么A与𝐁̅,𝐀̅与B,𝐀̅与𝐁̅也都相互独立。2.2.3独立重复试验与二项分布一般地,在相同条件下重复做的n次试验称为n次独立重复试验(independentandrepeatedtrials)。P(A1A2⋯An)=P(A1)P(A2)⋯P(An)其中Ai(i=1,2,⋯,n)是第i次试验的结果。一般地,在n次独立重复试验中,用X表示事件A发生的次数,设每次试验中事件A发生的概率为p,则P(X=k)=Cnkpk(1−p)n−k,k=0,1,2,⋯,n此时称随机变量X服从二项分布(binomialdistribution),记作X~B(n,p),并称p为成功概率。若X~B(n,p),则E(X)=∑kCnkpkqn−knk=0=∑npCn−1k−1pk−1qn−1−(k−1)nk=1=np∑Cn−1kpkqn−1−kn−1k=0=np(p+q)n−1=npD(X)=np(1−p)*随机变量的均值是常数,而样本的平均值是随着样本的不同而变化的,因此样本的平均值是随机变量。随机变量的方差是常数,而样本的方差是随着样本的不同而变化的,因此样本的方差是随机变量。2.4正态分布一般地,如果对于任何实数a,b(ab),随机变量X满足φμ,σ(x)=1√2πσe−(x−μ)22σ2,x∈(−∞,+∞)P(a𝑋≤𝑏)=∫φμ,σ(x)dxba则称随机变量X服从正态分布(normaldistribution)。正态分布完全由参数μ和σ确定,记作N(μ,σ2)。如果随机变量X服从正态分布,则记为X~N(μ,σ2).φμ,σ(x)的图像称为正态分布密度曲线,简称正态曲线。(参数μ是反映随机变量取值的平均水平的特征数,可用样本的均值去估计;σ是衡量随机变量总体波动大小的特征数,可用样本的标准差去估计。)标准正态分布:X~N(0,1)经验表明,一个随机变量如果是众多的、互不相干的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布。正态曲线的特点:(1)曲线位于x轴上方,与x轴不相交;(2)曲线是单峰的,它关于直线x=μ对称;(3)曲线在x=μ处达到峰值1σ√2π;(4)曲线与x轴之间的面积为1。*σ越小,曲线越“高瘦”,表示总体分布越集中;σ越大,曲线越“矮胖”,表示总体分布越分散;若X~N(μ,σ2),则对于任何实数a0,P(μ−a𝑋≤𝜇+𝑎)=∫φμ,σ(x)dxμ+aμ−a该面积随着σ的减少而变大。这说明σ越小,X落在区间(μ−a,μ+a]的概率越大,即X集中在μ周围概率越大。特别有P(μ−σ𝑋≤𝜇+σ)=0.6826P(μ−2σ𝑋≤𝜇+2σ)=0.9544P(μ−3σ𝑋≤𝜇+3σ)=0.9974在实际应用中,通常认为服从于正态分布N(μ,σ2)的随机变量X只取(μ−3σ𝑋≤𝜇+3σ)之间的值,并简称之为𝟑𝛔原则。第三章统计案例3.1回归分析的基本思想回归分析(regressionanalysis)是对具有相关关系的两个变量进行统计分析的一种常用方法。对于一组具有线性相关关系的数据(x1,y1),(x2,y2),⋯,(xn,yn){b̂=∑(xi−x̅)(yini=1−y̅)∑(xi−x̅)2ni=1=∑xiyini=1−nx̅y̅∑xi2ni=1−nx̅2â=y̅−b̂x̅其中x̅=1n∑xini=1,y̅=1n∑yini=1,(x̅,y̅)称为样本点的中心,回归直线过样本点的中心。回归方程:ŷ=b̂x+â线性回归模型:{y=bx+a+eE(e)=0,D(e)=σ2其中a和b为模型的未知参数,e是y与bx+a之间的误差。通常e为随机变量,称为随机误差(randomerror)。与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值𝐲̂与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。另一方面,b̂和â为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值ŷ与真实值y之间存在误差的另一个原因。由于随机误差e=y−(bx+a),所以ê=y−ŷ是e的估计量。对于样本点(x1,y1),(x2,y2),⋯,(xn,yn)它们的随机误差为ei=yi−bxi−a,i=1,2,⋯,n其估计值为eî=yi−yî=yi−b̂xi−â,i=1,2,⋯,neî称为相应于点(xi,yi)的残差(residual)。可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。以样本编号为横坐标,残差为纵坐标,可作出残差图。检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。另外,对于已经获取的样本数据,R2=1−∑(yi−yî)2ni=1∑(yi−y̅)2ni=1中的∑(yi−y̅)2ni=1为确定的数。因此R2越大,意味着残差平方和∑(yi−yî)2ni=1越小,即模型拟合效果越好;R2越小,残差平方和越大,即模型拟合效果越差。R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好。一般地,建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(3)有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)(4)按一定规则(如最小二乘法)估计回归方程中的参数;(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。回归模型的适用范围:(1)回归方程只适用于我们所研究的样本的总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值。一般地,比较两个函数模型的拟合程度的步骤如下:(1)分别建立对应于两个模型的回归方程y1̂=f(x,â)与y2̂=g(x,b̂),其中â和b̂分别是参数a