武大医学统计学期末复习总结(名解和简答)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

医学统计学期末复习总结名词解释参数Patameter:是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可以通过随机抽样抽取具有代表性的样本,用算得的样本统计量估计未知的总体参数。统计量statistic:是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量实在总体参数附近波动的随机变量。系统误差systematicerror:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是克制的或可能掌握的。随机误差randomerror:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。I型错误typeIerror:拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用α来表示。II型错误typeIIerror:“接受”了实际上不成立的H0,这类“取伪”的错误称为II型错误,其概率大小用β来表示。P值P-value:在H0成立的前提下,用样本数据获得的样本统计量及比样本统计量总计更极端的区间下的面积。置信区间confidencebound/confidenceinterval,CI:按预先给定的概率(1-α)所确定的包含未知总体参数的一个范围。多重共线性Multicollinearity:是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。哑变量dummyvariable:如果是多分类指标,假定有g类,则用g-1个取值为0,1或-1的变量,称为哑变量。偏相关系数partialcorreletioncoefficient:表示在一组变量中,任一两个变量在其它变量固定不变时,他们之间相关的密切程度和方向。或者说,扣除其它变量对它们的影响后,两个变量之间的线性相关情况。决定系数coefficientofdetermination:回归平方与总平方和之比,其数值反映了回归贡献的相对程度,其值约接近1,说明模型对数据的拟合程度越好。随机对照试验RandomizedControlledTrial,RCT:将研究对象随机分组,对不同组实施不同的干预,以对照效果的不同。接受者工作特征曲线receiveroperatorcharacteristic,ROC曲线:以不同截断点时的(1-特异度)为横轴,灵敏度为纵轴,作的真阳性率与假阳性率曲线。简答题:1.标准差与标准误的区别与联系。√区别:(1)含义不同:①标准差描述个体变量值x之间变异度的大小,S越大,变量值x越分散;反之变量越集中,均数的代表性就越强;②标准误是描述样本均数之间变异度的大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n关系不同:n增大时,①S-σ(恒定);②标准误减少并趋于0(不存在抽样误差);(3)用途不同:①标准差表示x变异度的大小,计算CV,估计正常值范围,计算标准误等;②标准误:参数估计和假设检验。联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。2.数据的分类及统计学方法处理(描述、推断)√数据分类:计数资料(定性资料)、计量资料(定量资料)、等级资料。统计描述:计数资料——相对数(率),结构相对数(构成比)、百分比相对比(OR、RR);计量资料——均数±标准差;等级资料:中位数、四分位数间距等。统计推断:计数资料——卡方检验;计量资料——t检验、方差分析;等级资料——非参数检验。3.样本含量与那些因素有关,是怎样影响的?样本含量的估计取决于:①假设检验的Ⅰ型错误概率α大小:Ⅰ型错误概率α越小,所需样本含量越多。对于相同α,双侧检验比单侧检验所需样本含量多;②假设检验的Ⅱ型错误概率β或检验效能(1-β)的大小:Ⅱ型错误概率β愈小或检验效能(1-β)愈大,所需样本含量愈多;③容许误差δ的大小:容许误差δ愈大,所需样本含量愈小;④总体的相关信息:总体标准差σ愈大,所需样本含量愈多;总体率π越接近0.05,所需样本含量越多;总体相关系数ρ愈小,所需样本含量愈多;变异指标CV愈大,所需样本含量愈多。4.多重回归、logistic回归、Cox回归的区别与联系√多元线性回归、logistic回归、Cox回归的联系:①自变量可以是连续变量、有序分类变量和无序分类变量,为了将无序分类变量代入回归模型,需要进行哑变量彼岸花,哑变量在回归模型中是一个整体,必须同时引入模型或同时从模型中剔除;②当自变量之间存在较强相关关系可能会导致共线性现象;③自变量之间可能会存在交互作用,通常采用两个或两个以上自变量相乘的积作为交互作用项;④均可采用逐步回归筛选变量,其思路均是先考虑单变量分析再进行多元回归分析;⑤均可进行影响因素的分析、混杂因素的校正、预测分析等。多元线性回归、logistic回归、Cox回归的区别:多元线性回归Logistics回归Cox回归应变量连续变量分类变量两分类变量和生存时间分布正态分布二项分布无特定要求删失不允许不允许允许模型结构Y=β0+ΣβjXjLogit(π)=β0+ΣβjXjh(t)=h0(t)exp(ΣβjXj)参数估计最小二乘法最大似然法最大似然法参数检验F检验;t检验似然比检验;计分检验;Wald检验似然比检验;计分检验;Wald检验参数解释其它变量不变的条件下,变量Xj每增加一个单位所引起的Y的平均改变量其它变量不变条件下,变量Xj每增加一个单位所引起的优势比OR的自然对数改变量其它变量不变条件下,变量Xj每增加一个单位所引起的相对危险度RR的自然对数改变量预测指标Ý(-∞≤Ý≤∞)πhat(0≤πhat≤1)Š(t)(0≤Š(t)≤1)样本含量至少5~10倍的自变量个数至少15~20倍的自变量个数个数至少15~20倍的自变量个数个数5.相关与回归的区别与联系区别:①资料要求上:回归要求变量Y服从正态,X可精确测定和严格控制;相关要求两变量X、Y均服从双变量正态分布。②应用上:回归说明两变量依存关系(单向);相关说明两变量相关关系(双向)。联系:对同一资料进行相关与回归分析,则得相关系数r与回归方程中的b正负相同。r为正表示两变量间的相互关关系是同向变化;b为正表示X每增/减一个单位,Y平均增/减b个单位。6.非参数检验的适用条件与优缺点使用条件:①总体分布为偏态分布或未知的计量资料;②数据两端出现不确定值;③等级资料;④各组离散程度相差悬殊,总体方差不齐。优点:不受总体分布的限制,适用范围广。缺点:结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。增加犯II类错误的概率。7.应用相对数的注意事项①结构相对数不能代替强度相对数;②计算相对数应有足够数量;③正确计算合计率;④注意资料的可比性:观察对象是否同质、内部结构是否相同;⑤对比不同时期资料应注意客观条件是否相同;⑥样本率(或构成比)的抽样误差。8.生存资料的特点,包括那些统计学方法?√特点:至少15~20倍的自变量个数个数①同时考虑生存时间和生存结局;②通常含有删失数据;③生存时间的分布通常不服从正态分布。统计学方法:①描述分析:常用Kaplan-Meier法(也叫乘积极限法、KM法),计算生存率需要考虑生存时间的顺序,属于非参数统计方法;②比较分析:常用log-rank检验与Breslow检验,检验无效假设是两组或多组总体生存时间分布相同,而不对其具体的分布形式做要求,所以也属于非参数统计方法;③影响因素分析:常用的半参数法为Cox比例风险模型,常用参数法为指数分布法、Weibull分布法、Gompertz分布法和对数logistic分布法等。9.置信区间与参考值范围的区别与联系总体均数的可信区间与个体值的参考值范围无论在含义、用途还是计算上均不相同。①含义上:置信区间是总体均数的可能范围,参考值范围是指个体值的波动范围。②计算公式上:置信区间——σ未知:σ已知或σ未知但n>60:参考值范围——正态分布:偏态分布:③用途上:可信区间用于总体均数的区间估计,也可间接进行假设检验;参考值范围用于绝大多数(如95%)观察对象某项指标的分布范围。10.统计表绘制注意事项√制表的基本要求:①标题:概括表的主要内容,包括研究时间、地点、研究内容,放在表的上方。如果整个表的指标统一时,可以将研究指标的单位标在标题后面。表的序号后面应该空一格全角格再加题目;②标目:分别用横标目和纵标目来说明表格每行和每列内容或数字的意义,注意标明指标的单位;③线条:至少用三条线,表哥的顶线和底线将表格与文章的其他部分分割开来,纵标目下横线将标目的文字区与表格的数字区分割开来,其它竖线和斜线一概省去;④数字:用阿拉伯数字表示,无数字用“—”表示,缺失数字用“…”表示,数值为0者记为“0”,不留空项。数字按小数点对齐,小数位数相同;⑤表中数字区不要插入文字,必须说明者用“*”,在表下方以备注形式说明。制表的注意事项:不要将太多内容放在一个表里,特别是两种不同类型的资料(定量资料和定性资料)的统计量放在同一表中;纵标目由左到右排序应为主、谓、宾,左边通常为分类变量,纵列为统计数指标;每一列中间应该隔开,不能连起来。

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功