第二章统计数据与数据整理统计数据的特点(1)一组数据;(2)具有变异性,故又称为变量。(3)变量取值取决于随机取到的个体,但全部个体所有取值又有规律可循。第一节频数分布(或频率分布frequencydistribution,relativefrequencydistribution)两种类型的数据(1)连续型数据(continuousdata):变量的取值是一个范围,即变量可以在某个区间内连续取值。(2)离散性数据(discretedata):试验只有若干确定的结果,变量的取值可一一列出。二、频数表和频数图(数据整理或资料整理)频数(frequency):实际次数,频率(frequencyorrelativefrequency):以百分率表示。连续性数据分组的一般性设计离散性数据直方图离散型数据亦可分组。说明及讨论(1)原始数据中,极差=最大值-最小值;(2)每组的最大值与最小值,称为组限,即组的界限,大的称为上限,小的称为下限。(3)组的中点值=(上限+下限)/2,如第一组为155.5。组距=上限-下限。第二节总体和样本总体:是研究的全部对象。分为有限总体和无限总体。个体:总体的每个成员称为个体。样本:是总体的一部分,其所含个体的数目或样本大小称为样本含量(或样本容量)。统计学是研究样本与总体关系的学科。抽样随机抽样(无偏抽样)放回式抽样非放回式抽样。(有限总体中抽样)第三节平均数平均数(mean):样本的代表值,表示样本中观察值的中心位置。1.算术平均数(ArithmeticMean)样本观察值的总和除以观察值个数所得的商数.常简称平均数或均数.加权算术平均数((WeightedArithmeticMean)加权和与所有权重之和的比等于加权算术平均数。加权算术平均数主要用于原始资料已经分组,并得出次数分布的条件。某企业50名工人加工零件均值计算表权数两种表现形式:一是绝对数(频数),另一个是用相对数(频率)表示。频数(f)频率(f/∑f),为权数系数.两个样本平均数的加权平均数:算术平均数的几个特性:2.几何平均数G例:番茄遗传中,曾有从亲本果重预测F1果重。主要用的还是.总体平均数用μ表示:用估计总体的μ值。xx3.中数median样本中观察值从小到大依次排列,居中间位置的观察值,如观察值个数为偶数,以中间二个观察值的算术平均数为中数。4、众数mode,M0出现次数最多的一数或次数最多一组的中点值。棉花纤维中“主体长度”即为众数。第四节变异数表示样本内观察值的变异程度的统计数,如极差、方差、标准差和变异系数。1.极差样本中最大观察值与最小观察值的差数。当n≤10时,可用来反映样本的变异度,简单明了。n较大时,易受资料中不正常极端值的影响。2.方差需要根据样本全部观察值来度量资料的变异度.方差(variance),用v或s2表示,当样本含量不很大时,用n-1作分母,n-1称自由度。注意:3.标准差这样可免除中间计算,直接利用最初基本数据。连续性数据可以用组中值代替单个具体观察值。对较大的一组数据,每个数减去一个常数C,不影响S值的计算,据此可减化计算过程。如样本:101;103;105;1094.变异系数方差,标准差皆有单位若两样本单位不同,或者若两样本平均数相差较大例:样本A:101;103;105;109样本B:1;3;5;9如何判断比较它们的变异程度较为合理?引入变异系数CV(coefficientofvariance)的概念则可比较上述A、B样本的变异系数CV举例说明什么是总体?什么叫样本?为什么要抽样?怎样抽样?Thescoresofagroupofstudentsinacourseonstatisticsare:6252677847555744584877824363596166617654a.Findthemeanofthescoresb.Findthemedianofthescoresc.Calculatethestandarddeviationofthescoresd.Drawahistogramofthescores习题