统计与统计案例1.统计的基本思想是用部份来估计总体。2.统计中所考察的对象的全体构成的集合看做总体,构成总体的每个元素作为个体,从总体中抽取的一部份个体所组成的集合叫做样本,样本中个体的数目叫做样本容量。一、抽样方法类别共性个性联系适用范围简单随机抽样不放回等概率逐个抽取抽签法随机数表法个体少系统抽样均分预定规则起始时用简单随机抽样个体多分层抽样分层,按比例层内用简单随机抽样或系统抽样差异明显二、用样本估计总体1.数字特征数字特征样本数据直方图中的估计值平均数11niixxn每个长方形面积乘以其底边中点的横坐标之和中位数按序排列,最中间的数(或最中间两数的均值)均分直方图的面积众数出数次数最多的数最高长方形中点的横坐标方差2221111nniiiisxxxnxnn,s为标准差小:高瘦大:矮胖注意:iiaxb,则i的平均数为axb,方差为22as2.图形特征1)茎叶图2)直方图/1极差频率频率高频率组距总体频率分布分布组数、组距频数分布面积=频率=密度样本容量直方折线分组表曲线小矩形面积和=图图列表3)条形图与直方图的区别:直方图中矩形通常连续排列,条形图则是分开排开;直方图是用面积表示各组频率的多少,高表示每一组的频率除以组距,宽表示组距,条形图的高表示频数的多少,其宽是固定的,表示类别。三、变量间的相关关系1.关系确定关系:函数关系正散点图非确定:相关关系回归分析负回归曲线回归直线2.样本相关系数r:0.75r时,认为两个变量有很强的线性相关关系。3.最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法。4.1122211,nniiiiiinniiiixynxyxxyybybxaxnxxxxy过样本中心编号123……n合计ixiyiixy2ix??xy5.随机误差20,1iiiiiieybxaeybxaR估计值残差分析残差形:残差图数:6.相关指数2R:2R的值越大,说明残差平方和越小,即模型的拟合效果起好。在线性回归模型中,2R表示解释变量对预报变量的贡献率,2R越接近于1,表示回归效果越好。7.回归方程:只适用于研究的样本的总体;具有时间性;样本的取值范围会影响总体的范围;预报值与精确值往往不一样。8.步骤1)确定研究对象解释变量预报变量2)画出散点图,观察其关系3)用经验确定回归方程4)按规则(如最小二乘法)估计回归方程中的参数5)分析残差是否异常四、统计案例(独立性检验)1.列联表分类变量AA合计BababBcdcd合计acbdnabcd2.等高条形图(分析频率特征)3.22nadbcKabcdacbd20pKk0.0100.0010k6.63510.828若要推断的论述为“A与B有关系”,则2K的值越大,说明“A与B有关系”成立的可能性越大,两个分类变量的关系就越强。反之越弱。当23.841K时,应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断,23.841K时,A与B有95%的可能性有关。