1统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。3.个体:构成总体的每个基本单元称为个体。4.样本:从总体中抽取的一部分个体,称为总体的一个样本。5.次数:指某一事件在某一类别中出现的数目,又称为频数。6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。7.概率:某一事物或某一情在某一总体中出现的比率。8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。9.参数:又称为总体参数,是描述一个总体情况的统计指标。10.统计量:样本的那些特征值叫做统计量,又称特征值。第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。7.相对次数分布表:用频数比率或百分数来表示次数8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。210.不等距次数分布表:例如工资级别,年龄分组。11.直方图:以矩形面积表示连续性随机变量次数分布的图形,又称等距直方图,没画矩形时的直方图叫组织图。横轴为等距分组点,纵轴为频数。12.次数多边形图:是一种表示连续性随机变量次数分布的线形图。横轴为组中值纵轴为频数。13.累加次数分布图:根据累加次数分布表绘制面成,分为:(1)累加直方图:横轴为等距分组点,纵轴为累加次数(2)累加曲线:又称递加线,可以连接累加直方图各组矩形右顶点而来。横轴为精确上限或精确下限,纵轴为累加次数。其形状有以下三种:正偏态、负偏态和正态。例如,若一次测验大多数人分数偏低,只有少数人才能得高分,也就是少数人的分数朝向高分一端,分布即为正偏态。14.条形图:主要用于表示离散型数据,用直条长短表示数量的大小。一个轴为分类轴,一个轴为数量轴。区别与直方图:描述数据不同,表示数据的方式不同,标尺分点意义不同,图形形状不同。15.圆形图:也叫饼图,用于表示间断性资料,表示各部分在整体中所占比重大16.线形图(折线图、曲线图):(1)更多用于表示连续数据的函数关系:(2)描述某种现象在时间上的爱展趋势:(3)描述种二种理多变化的。17.散点图:用圆点多少和分布疏密来表示两个变量的相关程度18.茎叶图:当观测数据不是很多时使用,茎代表观测值中位数部分,时代个位数部分。主要优点是既保留了全部原始数据,又呈现出直方图的形式,具有次数分布表与直方图的双重优点。19.箱型图:是一种用作显示一组数据分散情况的统计图,主要包含上边缘,上四分位数,中位数,下四分位数,下边缘,异常值这六个节点。第三章集中量数1、集中趋势:指数据分布中大量数据向某方向集中的程度。2、集中量数:指描述一组数据集中趋势特点的统计量。3、算术平均数:所有观察值的总和除以总频数得到的商,一般简称为平均数或均数、均值。一般用字母M表示,如果是由X变量计算的,就记为X,若由Y变量求得,则记为Y。4、中数:是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。又称中点数,中位数,中值,符号为Md或Mdn。5、众数:指在次数分布中出现频次最多的那个数的数值。又称为范数,密集数,通常数等,常用符号M。。6、加权平均数:指根据每个数据的权重计算的平均数,解决各个平均数求整体平均数之类的问题。7、几何平均数:指成几何级数增长的变量值的平均数,适合于计算平均比率和平均发展速度,又称对数平均数。38、调和平均数:指将各个数据取倒数平均后再取倒数计算得到的平均数,又称倒数平均数。主要用来描述学习速度方面的问题。9、最小平方原理:只有各个变量与平均数之差的平均和为最小,即每个数据与任一常数包括中数或众数之差的平方和都大于每个数据与平均数之差的平方和。第四章差异量数1.差异量数:也称离散量数。就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量。2.百分位数:指量尺上的一个点,自此点以下,包括数据分布中全部数据个数的一定百分比。3.百分等级:利用百分位数的计算公式也可以计算出任意分数在整个分数分布中所处的百分位置,称为该分数的百分等级。4.平均差:是次数分布中所有原始数据与平均数绝对离差的平均值,用A.D.或M.D.表示。5.离均差:表示了每一个观测值与平均数的距离大小,正负号说明了重量施于什么方向,离均差的总和为零,标志着完全平衡。有时简称为离差或偏差。6.方差:也称变异数、均方。作为统计样本量,用符号S²表示,作为总体参数,用符号σ表示。它是每个数据与该组数据平均数之差乘方后的均值即离均差平方后的平均数。7.标准差:即方差的平方根,用s或SD表示,若用σ表示,则是指总体的标准差。8.差异系数:又称变异系数、相对标准差等,它是一种相对差异量,用CV表示,为标准差对平均数的百分比。9.标准分数:又称基分数或Z分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。(12年真题)第五章相关关系1、相关:事物之间的相互关系大致有三种,.因果关系、共变关系和相关关系;统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度,分为正相关、负相关和零相关。2、相关系数:是两列变量间相关程度的数字表现形式,或者说是用来表示相关关系强度的指标。常用r表示样本相关系数,用希腊字母ρ表示总体参数。取值情况为-1.00≦r≦1.00。3、相关分析:相关密切与否的判定在判定相关是否密切时,要把样本量大小与相关系数取值大小综合起来考虑,一般要经过统计检验方能确定变量之间是否存在显著的相关。另外,若是非线性相关关系,而用直线相关计算r值,可能很小,但不能说两变量关系不密切。4、积差相关:简称皮尔逊相关,又称积距相关。人们把离均差乘方之和除以N叫做“距”,把X的离均差和Y的离均差这二者积的总和除以N,用“积距”概念表示。积差相关是运用较为普遍的计算相关系数的方法。5、等级相关:等级相关是以等级次序排列的变量之间的相关,这种相关对4变量的总体分布不作要求,故这类相关为非参数相关。6、质量相关:指一列变量为等比或等距的测量变量,另一列变量是按性质划分的变量,求这两个变量之间的直线相关称为质量相关。它主要包括:点二列相关、二列相关、多系列相关。7、点二列相关:如果在两个变量中,一个变量是等比或等距的测量变量且其总体为正态,另一变量为“二分”称名变量(如男女、已婚与未婚等),这两个变量之间的直线相关称做点二列相关。8、二列相关:当两个变量为正态连续变量,其中一个变量被人为地划分为二分变量,这两个变量之间的相关称为二列相关。如测验成绩分为及格与不及格,身体状态分为健康与不健康两类。9、多列相关:两个正态连续变量,其中一个变量被人为地划分成多种类别,如学习成绩被分为优、良、中、差四类,表示这两种变量之间的相关称为多系列相关。10、四分相关:两因素本身都是连续的正态变量,分别为人为划分为两种不同类别,这类四格表大都用于同一个被试样本中,分别调查四个不同因素两项分类的情况第六章概率分布1.概率:随机是指在一定条件下可能出现也可能不出现的,表明随机事件出现可能性大小的客观指标就是概率它是概率论研究的主要内容。概率的定义有两种,即后验概率和先验概率。2.概率的基本性质:(1)任何一个随机事件A的概率都是非负的。(2)在一定条件下必然发生的必然事件的概率为1。(3)在一定条件下必然不发生的时间,即不可能事件的概率为0。3.互不相容事件:指在一次实验和调查中,若事件A发生则事件B就一定不发生,否则二者为相容事件。4.独立事件:指一个事件的出现对另一个事件的出现不发生影响。5.概率分布类型:是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。主要有离散分布与连续分布,经验分布与理论分布,基本随机变量分布与抽样分布。6.〔16年真题〕正态分布:也称常态分布或常态分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。正态分布的特征:(1)正态分布的形式是对称的〔但对称的不一定是正态的〕,它的对称轴是经过平均数点的垂线。正态分布中,平均数,众数,中数三者相等,此点y值最大。(2)正态分布的中央点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。(3)正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态分布下的面积划分为相等的两部分,即各为0.50。(4)正态分布为一族分布。它随随机变量的平均数,标准差的大小与单位不同5而有不同的分布形态。(5)正态分布中各差异量数值相互间有固定比率。(6)在正态分布曲线下,标准差与概率有一定的数量关系。7.二项分布:又叫贝努里分布,是一种具有广泛用途的离散型随机变量的概率分布。具体定义是(次处不太确定):设有n次试验,各次试验都是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q(等于1-p)。需满足以下条件:(1)任何一次实验恰好有两个结果,成功与失败,(2)共有n次试验,并且n是预先给定的任一正整数,(3)每次试验各自独立,各次试验之间无相互影响。(4)某种结果出现的概率在任何一次试验中都是固定的。第七章参数估计1.参数估计:当在研究中以样本获得一组数据后,如何通过这组信息,对总体特征进行估计。也就是如何以局部结果推论总体的情况,称为总体参数估计。2.点估计:是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。3.区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围,它是用数轴上的一段距离表示未知参数可能落入的范围,它虽不具体指出总体参数等于什么,但能指出未知总体参数落入某一区间的概率有多大。(2011年真题)4.置信区间(置信间距):是指在某一位置信度时,总体参数所在的区域距离或区域长度。置信区间的上下二端点值称为置信界限。5.显著性水平:指估计总体参数落在某一区间时,可能犯错误的概率,用α表示。1-α为置信度或置信水平。6.区间估计和假设性检验的关系。2013简答联系:①都是根据样本信息推断总体②都是抽样分布理论为依据,建立在概率论之上的推断区别:①参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立②区间估计求得的是以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验③区间估计立足于大概率,假设检验立足于小概率7.完全随机设计和随机区组设计的关系①完全随机设计和随机区组设计的分组方式不同完全随机设计把被试分为若干组,每组分别接受一种实验处理,有几种处理,就相应地有几组被试,即不同的被试接受不同自变量水平的实验处理;随机区组设计根据被试特点,将被试分