同质(Homogeneity):医学研究对象具有的某种共性。变异(Variation):同质研究对象变量值之间的差异。总体(Population):根据研究目的确定的所有同质的观察单位某项观测值的全体称为总体。样本(Sample):来自于总体的部分观察单位的观测值称为样本。参数(Parameter):由总体中全部观测值所计算出的反映总体特征的统计指标。统计量(Statistic):由样本观测值所计算出的反映样本特征的统计指标。变量(Variable):指观察单位的某项特征。它能表现观察单位的变异性。概率(Probability):是随机事件发生可能性大小,用P表示,其取值为[0,1]。频率(Frequency):在相同的条件下,独立地重复做n次试验,随机事件A出现m次,则比值m/n为随机事件A出现的频率。随机误差(Randomerror):是由于一系列实验或观察条件等因素的随机波动造成的测量值与真实值之间的差异。随机误差是不可避免的,且大小和方向都不固定。抽样误差(Samplingerror):由个体变异产生、随机抽样造成的若干个样本统计量之间以及样本统计量与总体参数之间的差异称为抽样误差。系统误差(Systematicerror):实际观测中,由于仪器未校正,测量者感官的某种偏差,医生掌握疗效标准偏高或偏低等,而使观测值有方向性、系统性或周期性地偏离真值。四分位数间距(Quartilerange):上四分位数与下四分位数的差值,用Q表示。通常用来描述偏态分布资料的离散趋势。变异系数(Coefficientofvariation)CV:是标准差与均数之比,用于比较测量单位不同或均数相差较大的两组或以上数据的离散程度。参考值范围(Referencerange):绝大多数“正常人”的解剖、生理、生化等某项指标的波动范围。构成比(Proportion):表示事物内部某一组成部分观察单位数与该事物各组成部分的观察单位总数之比,用以说明事物内部各组成部分所占的比重。率(Rate):是某时期内发生某现象的观察单位数与同期可能发生该现象的观察单位总数之比,用以说明单位时间内某现象发生的频率或强度。相对危险度(Relativerisk):是暴露组的危险度与非暴露组的危险度之比。表示暴露因素与疾病关联强度大小。常用于队列研究。优势比(Oddsratio):是病例组某危险因素的优势与对照组该危险因素的优势之比。是分析疾病与暴露因素联系程度的指标。常用于病例对照研究。标准化法(Standardization):用统一的标准对内部构成不同的各组的率进行调整和对比的方法,目的是消除内部构成不同对总率所产生的影响,使两组总率具有可比性。统计推断(Statisticalinference):以随机抽样的方式,从总体中抽取一个样本,通过样本信息来推断总体的特征,这个过程称为统计推断。它包括参数估计和假设检验。参数估计(Parameterestimation):是根据从未知参数总体中抽取的样本的统计量估计总体参数的方法。包括点估计和区间估计。标准误(Standarderror):样本统计量的标准差称为标准误。反映样本统计量抽样误差的大小。自由度(Degreeoffreedom)df:指能够自由取值的变量个数。置信区间(Confidenceinterval):也叫可信区间,是按预先给定的概率(1-α)确定的包含未知总体参数的范围。假设检验(Hypothesistest):是基于小概率事件原理和反证法思想的统计推断方法,其基本思想是先提出假设,然后在假设成立的条件下看实际抽到的样本是否属于小概率事件,所属小概率事件,则拒绝无效假设;若不属于小概率事件,则不拒绝该假设。预先确定小概率事件标准即为检验水准α。标准正态分布(StandardNormalDeviation):正态分布是以均数为中心、左右对称,靠均数两侧频数分布较多,离均数越远频数越少的分布,该分布有两个参数,用N-(μ,σ),其中μ为位置参数,σ为形状参数;是指均数为0,标准差为1的正态分布,记作N(0,1)。对于任何一个正态分布,都可经变量的标准正态变转换为标准正态分布。二项分布(Binomialdistribution):是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。变量变换(Transformationofvariables):是将数据做某种函数转换,使资料服从正态分布,并尽可能达到各组间方差齐性。检验效能(Poweroftest):也称把握度,是指当两总体参数确有差别时,按α检验水准通过假设检验能发现它们有差别的概率。用1-β表示,通常检验效能应达到0.8以上。检验水准(Testinglevel):也称显著性水平(significancelevel),是建立检验假设时预先定义的一个小概率事件的概率标准。记为α。非参数检验(Nonparametrictest):不考虑总体的参数和总体分布类型,而是对样本所代表的总体的分布或分布位置进行假设检验的一类统计分析方法。区间估计(Intervalestimation):是按预先给定的概率(1-α)确定一个包含未知总体参数的范围计量资料(Measurementdata):对每个观察单位用定量的方法测定某项指标所组成的资料。又称定量资料。相关系数(Correlationcoefficient):是反映随机变量之间线性相关关系的方向和密切程度的统计指标。简单线性相关分析中用符号r表示样本相关系数。线性回归(Linearregression):是利用数理统计中回归分析,来确定两种或两种以上变量间相互数量变化的依存关系的一种统计分析方法。最小二乘法(Leastsquaremethod):是一种根据残差平方和最小来求解方程系数的数学方法。在线性回归分析中用其确定截距a和回归系数b的值决定系数(Coefficientofdetermination):是指在应变量Y的总变异中,可由与自变量X的回归关系解释的部分所占的比例,用R平方表示。回归系数(Regressioncoefficient):即回归直线的斜率,在直线回归方程中用b表示,是当自变量X每变化一个单位时,应变量Y的平均改变的估计值。偏回归系数(Partialregressioncoefficient):即多元线性回归方程中Xj的系数βj,它表示在其他自变量保持不变的条件下,自变量Xj每改变一个单位时,因变量Y的平均改变量。标准回归系数(Standardregressioncoefficient):是指经过标准化消除了各自变量X所取单位的影响之后的回归系数,用bj’表示。用于比较各自变量对应变量的影响程度。复相关系数(Multiplecorrelationcoefficient):是用来度量一个变量与其它多个自变量之间的线性相关程度的指标。用R表示,分布范围为0到1之间。多重共线性(Collinearity):是指线性回归模型中的自变量之间存在较强的线性关系。这些自变量通常是相关的,若相关程度非常高,则得到的回归方程可能很不可靠。最大似然法(Maximumlikelihood):是一种非线性的拟合方法,常用于Logistic回归分析中回归模型参数的估计。其基本思想是先建立似然函数和对数似然函数,再通过使对数似然函数最大来求解相应的参数值,所得的估计值称为函数的最大似然估计值。生存时间(Survivaltime):从起始事件即观察起点到终止事件(如死亡或截尾)所经历的时间跨度,常用符号t表示。截尾数据(Censoreddata):是指在随访过程中,由于某种原因未能观察到患者的明确结局(终点事件),或称删失。产生截尾的原因有三种:失访、退出和终止。生存率(Survivalrate):又叫生存函数,表示观察对象生存时间T大于t时刻的概率,常用S(t)=P(Tt)表示。偏相关系数(Partialcorrelationcoefficient):是在对其它变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标Logit变换:Logistic回归模型中π变换为In(π/(1-π)),这种变换称为Logit变换,记为Logit(π)。Logit变换使得在(0,1)范围内取值的π变换到(-∞,+∞),当π趋向于0,Logit(π)趋向于-∞,当π趋向于1,Logit(π)趋向于+∞。