1.变量:研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量2.定量变量:是用仪器、工具或其它定量方法对每个观察单位的某项标志进行测量,并把测量结果用数值大小表示出来的资料,一般带有度量衡或其它单位。例如:体重与身高3.定性变量:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数4.二分类变量:称为0-1变量。例如,性别(男、女)、疾病(有、无)和结局(生、死)等。二分类变量常用0和1来编码,0-1变量常称为假变量(dummyvariable)或哑变量,可以和真变量一样参与计算5.等级资料:是先将观察单位按某种属性或类别的不同等级分成若干组,再清点各组观察单位个数所得到的资料6.同质:在调查和实验研究中,除了实验因素外,影响被研究指标的非实验因素相同被称为同质7.变异:同质事物个体间的差异8.总体:根据研究目的确定的同质研究对象所有观察单位某变量值的集合。简言之,研究对象的全体。9.样本:从总体中抽取的部分观察单位,某变量值的实测值构成样本。简言之,总体中有代表性的一部分。10.参数(parameter):是统计模型的特征指标,是对总体而言,其大小是客观存在的,然而往往是未知的,如总体均数(mean)和总体方差(variance)11.统计量(statistic):由观察资料计算出来的量,如计算观察样本中的个体得到的样本均数,样本方差。12.因果关系(causality):在排除了人为联系、虚假联系后仍然存在的、无法用其他联系解释的两个变量之间的关系。但也需要时间顺序等标准进行因果判断13.误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差(随机测量误差,抽样误差)。14.系统误差:指数据搜集和测量过程中由于仪器不准确、标准试剂未经校正,操作人员掌握的标准不准等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。特点:具有累加性;有倾向性;可以消除15.随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数增加而减小。16.随机测量误差:在消除了系统误差的前提下,由于非人为的偶然因素,对于同一测量对象多次测定结果不完全一致。特点:没有倾向性;不可消除,但多次测量计算平均值可以减小随机测量误差。17.抽样误差消除了系统误差,并把随机测量误差控制在一定的范围内,在抽样研究中由于个体差异的存在,造成的样本统计量与总体参数以及样本统计量之间的差别。特点:无倾向性;不可避免。统计上可以计算并在一定范围内控制抽样误差。18.概率:描述随机事件发生的可能性大小的数值,常用P来表示。19.小概率事件:一次试验中不可能发生的事件。通常P﹤0.05或P﹤0.01的事件为小概率事件20.方差:为了能反映每个观察值之间的离散情况,同时又能考虑到观察单位数多少的影响,可取离均差平方和的均数,简称方差21.标准差:由于每一离均差都经过平方,使原来观察值的度量单位也都变为平方单位了。为了还原成为原来的度量单位,所以又将方差开平方,这就是标准差22.变异系数:标准差与均数之比用百分数表示23.率:指某现象实际发生数与可能发生某现象的总数之比,用以说明某现象发生的频率或强度,常以百分率、千分率、万分率或十万分率表示24.构成比:事物内部某一部分的观察数与事物内部各部分的观察单位数总和之比,以百分数表示。说明事物内部各部分所占的比重或分布率构成比概念发生的频率或强度各组成部分所占的比重强调点随机发生事件各部分的构成资料获得较难容易特点不一定合计为100%25.死亡率:指某地某年平均每千人口中的死亡数,它反映居民总的死亡水平26.死因构成:指全部死亡人数中,死于某死因者所占的百分比,说明各种死因的相对重要性27.死因顺位:是指按各类死因构成比的大小由高到低排列的位次,说明各类死因的相对重要性28.发病率:表示一定时期内,在可能发生某病的一定人群中,新发生的某病的频率(强度)。29.患病率:指某时点检查时可能发生某病的一定人群中现患某种疾病的频率。30.二项分布:如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-);而且各个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的人次数X的概率分布为二项分布,记作B(X;n,π)。31.Poisson分布:是一种离散型分布,用以描述罕见事件发生次数的概率分布。常用于研究单位时间内(或单位空间内)某事件发生不同次数的分布32.正态分布:正态分布是一种重要的连续型分布。若资料X的频率曲线对应于数学上的正态曲线,则称该资料服从正态分布。通常用记号),(2N表示均数为,标准差为的正态分布均数为0、标准差为1的正态分布被称为标准正态分布,通常记为2(0,1)N。33.假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。34.样本均数抽样误差:抽样造成的这种样本均数与样本均数之间、样本均数与总体均数之间的差异。35.样本均数标准误:用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度36.参数估计的概念:指用样本指标(统计量)估计总体指标(参数)。37.95%可信区间:总体均数的95%置信区间的涵义是指:从理论上来说,做100次抽样,可算得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。38.I型和II型错误:I型错误指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用表示;II型错误,指接受了实际上不成立的H0,这类“存伪”的错误称为II型错误,其概率大小用表示。39.1-β称为假设检验的功效(powerofatest)。其意义是,当所研究的总体与H0确有差别时,按检验水平α能够发现它(拒绝H0)的概率40.检验水准:是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准,记为。41.相关系数:又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。42.确定系数:复相关系数的平方称为确定系数,或决定系数,记为R2,表示回归平方和占总平方和的比例,用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。其定义为:43.复相关系数:确定系数的算术平方根44.偏相关系数:一般地,扣除其他变量的影响后,变量Y与X的相关,成为Y与X的45.实验效应是处理因素作用于受试对象的反应(response)和结局(outcome),它通过观察指标(统计学常将指标称为变量)来体现46.单盲法:受试对象不知道自己分在哪一组;47.双盲法:受试对象和实验执行者均不知道受试对象分在哪一组;48.三盲法:受试对象、实验执行者和统计分析人员三者均不知道受试对象分在哪一组。49.寿命表(lifetable),又称生命表、死亡表、死亡率表等,是根据某一特定人群的年龄别死亡率编制出来的一种统计表。50.mx是根据各年龄组的平均人口数(PX)与相应的死亡数(DX)计算,它近似地反映X岁年龄组人口在X~X+n年内的死亡率,用公式表示为:51.qx是同时出生的一代人死于某年龄组X~X+n的概率,表示X岁尚存活者(lx)在今后n年内死亡的可能性(概率)。52.尚存人数lx是同时出生的一代人到刚活满X岁时尚生存的人数53.死亡人数dx是同时出生的一代人死于各年龄组X~X+n的人数54.生存人年数是同时出生的一代人,X岁尚存者在今后X~X+n岁期间的生存人年数,亦称寿命表人口数55.生存总人年数是同时出生的一代人中活到X岁者今后尚能生存的总人年数,是X岁以上各年龄组生存人年数(Lx)的累计和56.期望寿命是同时出生的一代人活到X岁时,尚能生存的平均年数,也称平均可享寿命或平均余年。