第五章概率统计基础内容概率的基础知识统计的基本概念回归分析第一节概率的基础知识事件及其概率二项分布与正态分布一、事件及其概率(一)随机现象确定性现象随机现象随机现象结果至少两个结果不确定随机现象的样本空间样本空间Ω样本点——每个结果包括随机事件的所有结果样本空间至少包含两个样本点要求会识别随机现象会计算样本空间的所有样本点例题(例题摘自上海质量杂志社出版的2007年辅导资料和课后练习题)下列不是随机现象的是:商店开门时间每天维修电视的数量抽取100件产品出现的不合格品数饮料的罐装重量一包香烟包含尼古丁的数量(二)随机事件由随机现象的某些样本点组成样本空间的一个子集可用集合表示也可用语言表示掷嗀子样本空间Ω={123456}随机事件:点数小于7点点数大于等于2点点数大于7点随机事件——点数小于7点包含样本点1,2,3,4,5,6必然事件包括所有样本点样本空间的最大子集用表示随机事件——点数大于7不包含样本点不可能事件样本空间的最小子集用表示随机事件——点数大于等于2点包含样本点2,3,4,5,6其中任意样本点发生随机事件A发生随机事件的维恩图AΩ要求能找到样本空间所有的样本点能找到任一随机事件的样本点P115例题随机事件的关系包含互不相容相等(三)事件的运算对立事件事件的并事件的交对立事件事件A对立事件A不发生两者构成样本空间Ω的对立事件是øA事件的并事件A事件BAUB包括A和B的所有样本点A与B至少一个发生A或者BAUB=A+B-AB事件的交事件A事件B两个事件共同的样本点A和B共同发生ABA∩B要求识别事件件关系会事件间运算(四)事件的概率随机事件发生的可能性的大小用P(A)表示大于等于0小于等于1发生可能性越小概率越小概率定义有大量稳定的重复试验n次重复试验事件A发生k次概率近似为nkAP)(概率的性质P(ø)=0P(Ω)=1P(A)在0和1之间互不相容的事件的并的概率P(AUB)=P(A)+P(B)对立事件的概率独立事件的交的概率P(AB)=P(A)P(B))(1)(APAP样本空间及其概率P()=1例题一批产品有4个不合格品,抽到不合格品的概率不合格品数X01234概率P(x)0.10.20.30.30.1抽到2到4个不合格品的概率不合格品大于2的概率例题X01234P0.10.30.20.1P(X=4)P(0〈X3)二、二项分布与正态分布(一)随机变量及其分布随机变量随机变量的分布随机变量表示随机现象结果的变量X、Y表示X、y表示随机变量的取值离散型变量连续型变量离散型变量用自然数表示有限个取值点离散型变量进店人数电视机故障数桌面的瑕疵点玻璃上的气泡数连续型变量取值为一个范围寿命在1000到2000小时取值有小数连续型变量工人工资企业利润产品尺寸产品重量随机变量的分布随机变量的取值是什么从包含4个不合格品的产品批中抽取10个产品出现的不合格品数01234取值的概率为多少概率和为1离散型随机变量的分布离散变量X01234P(x)0.120.320.130.21P(1X4)=P(X=3)=离散随机变量二项分布连续型变量的分布用概率密度函数表示概率密度曲线在x轴上方概率密度曲线与x轴围城的面积为1横坐标是变量X的取值范围,X在范围上取值连续型分布正态分布随机变量分布的特征数均值表示分布中心方差和标准差表示散布程度,标准差越大,分散程度越大(二)二项分布条件:n次重复试验独立试验结果有两个成功概率p不成功概率为1-p二项分布表示方法b(n,p)概率计算E(X)=npVar(x)=np(1-p)xnxppxnXP)1()((三)正态分布概率密度函数公式正态分布形状两个重要的参数标准正态分布分位数概率计算不合格品率的计算正态分布的性质正态分布最常用的分布大量加工数据服从正态分布概率密度公式和意义概率密度公式取值从-到+概率密度与X轴形成的面积表示取值范围内的概率正态分布形状对称分布两个重要的参数均值决定分布位置标准差决定分布的形状标准正态分布中心为0标准差为1概率密度函数正态分布的分位数u0.9=1.2820.10.9分位数u0.5=0u0.25=-u0.75u0.1=-u0.9正态分布的概率计算X~N(10,2)U=不合格品率的计算p129第二节统计的基本概念样本与统计量参数估计一、样本与统计量(一)总体和个体研究对象的全体总体:可以是对象的全体指标的全体总体是唯一的总体指标往往是未知(参数)总体分布研究总体内容总体构成范围总体数据取值范围总体分布(正态、二项等)总体均值(位置)总体方差(分散程度)(二)样本随机性独立性样本个数有多个样本数据已知的,形成统计量样本指标是随机变量用统计量推断总体参数(三)统计量与抽样分布统计量由样本数据计算得到不含未知参数(四)常用统计量描述中心位置的统计量描述分散程度的统计量有序样本从小到大排列表示方法x(1)描述中心位置的样本统计量样本均值样本中位数样本均值计算p132广泛使用反映集中位置的指标样本中位数有序样本中间位置上的数值描述分散程度的样本统计量反映数据的差异样本极差样本方差和标准差样本极差由两个端点值计算信息利用不充分样本方差由离差计算得到应用更广泛(五)样本数据的整理频数分布表直方图频数分布表的步骤极差(数据范围)R最大值-最小值根据样本量确定组数K(经验值)确定组距h=R/K确定组限和组中值计算频数和频率作图直方图类型频数直方图频率直方图直方图图示横坐标为测量值,标出组限纵坐标为频数或频率(等距分组时)纵坐标为频数(频率)/组距的值(不等距分组)直方图的作用分析数据的分布情况直方图形状对称形(很多测量型数据服从)偏态(单侧公差、操作习惯、挑选后)孤岛(生产条件发生变化)平顶形(生产条件缓慢变化、多种生产条件混合)双峰形(两种生产条件)二、参数估计点估计无偏性概念正态总体的无偏性(一)点估计用样本统计量估计总体参数(二)无偏性概念每次估计会有偏差但平均偏差为0任何总体的无偏估计样本均值是总体均值的无偏估计样本方差是总体方差的无偏估计样本标准差不是总体标准差的无偏估计(三)正态总体的无偏估计总体均值的无偏估计样本均值和样本中位数样本方差是总体方差的无偏估计样本标准差不是总体标准差的无偏估计总体标准差的无偏估计有两个用样本标准差估计s/c4用样本极差估计R/d2正态总体总体均值的无偏估计均值使用了全部信息,更有效中位数计算简单n=1,2时,两者相同正态总体方差的估计是所有无偏估计中最有效的正态总体标准差的估计n=2时两个估计相同用标准差估计利用了全部信息更有效用极差估计简单样本量大于10用标准差估计三、正态概率纸特殊的坐标纸横坐标等间隔纵坐标按标准正态分布计算正态概率纸的作用检验数据是否是正态分布求出正态分布的均值和标准差对非正态分布作正态转换检验数据是否服从正态分布步骤形成有序样本计算累计概率的估计值描点判断是否在一条直线上——正态分布估计正态总体的均值和标准差画出一条直线l纵轴0.5处画一条水平线与直线l相交,从交点下垂与横轴的交点处为均值估计值从纵轴0.84处画一水平线与直线相交,从交点下垂与横轴的交点是+横坐标两点之间是对非正态总体的转换常用的两个对原始数据作对数变换y=lnx对原始数据作倒数变换y=1/x第三节回归分析散布图与相关系数一元线形回归一、散布图与相关系数相关关系现象之间存在一定依存关系,但不是确定的一一对应关系分析目的:现象之间相关方向和相关密切程度(一)散布图描述两变量间的关系图9-1消费与收入的相关图0102030405060708090020406080100120可支配收入消费支出(二)相关系数用来说明在线性相关的条件下,两个变量间关系的密切程度和方向的统计指标计算含义(x-)(y-)0(x-)(y-)0•••••••(x-)(y-)0•••(x-)(y-)0••xyxyxxyy相关系数的意义p145相关系数的检验用样本的相关系数检验总体是否相关二、一元线性回归方程一元线性回归方程两个变量间的关系表达式线性方程的假定X自变量因变量Y是随机变量n组数据是独立的Y的方差对所有x相等Y的均值对x是线性的(一)一元线性回归方程的求法为回归系数为常数bˆabxay(二)利用回归方程预测00ˆbxay