统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。抽样误差(samplingerror)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。标准误(StandardError)样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数区间估计(intervalestimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidenceinterval,CI),又称可信区间。参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围参数统计(parametricstatistics)非参数统计(nonparametricstatistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。变异(variation):对于同质的各观察单位,其某变量值之间的差异同质(homogeneity):研究对象具有的相同的状况或属性等共性。回归系数有单位,而相关系数无单位β为回归直线的斜率(slope)参数,又称回归系数(regressioncoefficient)。线性相关系数(linearcorrelationcoefficient):又称Pearson积差相关系数(Pearsonproductmomentcoefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。参数(parameter):描述总体特征的统计指标。统计量(statistic):描述样本特征的统计指标。实验设计的基本原则对照(control)对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组重复(replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异随机化(randomization)采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用表示。在假设检验中作为检验水准。一般取0.05或0.01。II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用表示。由于其取值取决于H1,因此在假设检验中无法确定。变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差(range);四分位数间距(quartilerange);方差(variance);标准差(standarddeviation);变异系数(coefficientofvariation平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmeticmean);几何均数(geometricmean);中位数(median);众数(mode)单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误差最大。整群抽样先将总体分成若干“群”,从中随机抽取几个群,抽取群内的所有观察单位组成调查样本。“群”的确定与研究目的无关。为减少抽样误差,需多抽几个“群”。一、统计表有哪些要素构成的?制表的注意事项有哪些?一般来说,统计表由标题、标目、线条和数字、备注五部分组成。但备注并不是必需的内容,可以根据需要出现。1简明扼要,重点突出:最好一张表突出一个中心,不易太多中心,如果需要说明多个中心,可分成多张统计表。2合理安排主语和谓语的位置:对于表中任意一行,从左至右,通过简短的连接词,可连成成一句通顺的句子。3表中数据要认真核对,保证准确可靠二、为什么不宜用t检验对多组均数进行比较?如果用t检验进行多个样本均数的两两比较,则会增加犯I类错误的概率。经检验得到拒绝H0,认为两组之间有差别的结论可能犯I类错误的概率为,不犯I类错误的概率为1-.每次判断均不犯I类错误的概率为(1-)k,k为比较的次数,上例=0.05,k=3,则均不犯错误的概率为(1-0.05)3=0.86.至少有一次判断犯I类错误的概率为1-(1-)k三、方差分析的基本思想是什么?按实验设计的类型,将全部观察值间的变异分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较(每个部分的变异可由某因素的作用来解释),以判断各部分的变异是否具有统计学意义,从而推断不同样本所代表的总体均数是否相同。四、简述标准差与标准误的区别与联系均数标准误大小与样本标准差大小成正比,与样本含量的平方根成反比。标准误越小,说明样本均数作为总体均数估计值的准确性越大。均数的标准误标准差意义反映样本均数抽样误差的大小反映一组个体值的变异程度符号,总体标准差,样本标准差XXSS计算公式控制方法增大样本含量可减小标准误个体差异或自然变异不能通过统计方法来控制五、简述直线相关与回归的区别与联系区别:1.回归说明依存关系,直线回归用于说明两变量间数量依存变化的关系,描述y如何依赖于x而变化;相关说明相关关系,直线相关用于说明两变量间的直线相关关系,此时两变量的关系是平等的2.r与b有区别:r说明具有直线关系的两个变量间相关的密切程度与相关方向;b表示x每改变一个单位,y平均增(减)多少个单位;3.资料要求不同:直线回归要求应变量y是来自正态总体的随机变量,而x可以是来自正态总体的随机变量,也可以是严密控制、精确测量的变量,相关分析则要求x,y是来自双变量正态分布总体的随机变量。4.取值范围:-∞b+∞;-1≤r≤1.单位:b有单位;r无单位。联系:1.对同一样本,若同时计算b和r,其正负号是一致的。2.对同一样本,b和r的假设检验是等价的,二者的t值相等,tb=tr。3.回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。六、简述实验设计的基本要素1.处理因素(studyfactor,treatment)•研究者根据研究目的欲施加或欲观察的能作用于受试对象并引起直接或间接效应的因素。•处理因素可以是主动施加的某种外部干预或措施,也可以是客观存在的因素。非处理因素•与处理因素同时出现、也能使受试对象产生效应的因素。•当非处理因素夸大或缩小了处理因素与实验效应间的真实联系时,称为混杂因素2.受试对象/试验单位(object/experimentunit)•处理因素作用的客体,是根据研究目的而确定的观察目标总体。可以是人、动物,也可以是生物材料,试验单位的基本条件3.处理/试验效应(experimentaleffect)•处理因素作用于试验单位的反应和结果,通过观察指标来表达。•选择指标的依据:客观性、特异性和敏感性。nSSXnX12nXXSNX2