生物统计学的未来方积乾中山大学公共卫生学院一、引言学术界往往很不了解统计学的作用许多统计学成就来自复杂的数学和计算工具,所以只进入少数学者的视野什么是统计学?统计学是一个学科,研究变异性、不确定性和面对不确定性的决策----对所有科学技术都重要,注定是一门多学科的科学----多数统计学应用和许多统计学研究是其它专业领域的科学家完成的(DRCox)统计学科研的作用统计学越来越不同于其它数学领域,计算机和信息科学工具至少和概率论一样重要。统计学科研的作用是发展新的工具,应用于科学前沿。统计学界在美国,现有86个统计学、生物统计学和生物计量学的博士点很大一部分统计学家工作于统计系之外----生物统计系、医学院、商学院、社会科学系----政府机构、工业界(尤其是制药厂)统计学的现状数据收集----高速计算机和传感器以及某些实验科学可产生巨量数据(例如人类基因组)----需要新工具来组织和提取重要信息。(NationalScienceFoundation(1998)report98-95)数据和信息的区别:将数据转化为信息需要统计理论和实践方面的洞察力、技术和训练。(Zelen)统计学的现状科研合作的机会增多----应用、多学科课题中统计学的错用严重----由于大量数据的产生,人们主张统计人员进入研究团队(NationalScienceFoundation(1998)report98-95)统计学的现状科学引用指数(ScienceCitationIndex):1991-2001年其间25位引用最多的数学科学家中18位是统计学或生物统计学家;JournaloftheAmericanStatisticalAssociation是被引用最多的数学科学杂志;最重要的一篇文章是Efron(1979)引入boostrap方法;500次最近的引用中只有152次出现在统计学文章中统计学的核心统计学与数学的其它分支不同,总是和应用、结果的重要性联系在一起。(NationalScienceFoundation(1998)report98-95)统计学的核心是学科内在的东西,而不是特定科学问题对统计学的要求。统计学核心方面的研究着重基于该学科普遍原理发展统计模型、方法和相关理论。统计理论和统计实践有些同事称自己是数理统计学家或应用统计学家。这两个术语过时了,必须丢弃。前者不和数据打交道,后者不涉及理论(Selen)二、统计研究面临的挑战数据增长的规模:数据----指数数据分析----二次方统计学家----线性数据缩减和压缩“缩减”:用新的思路指导模型选择、预测和分类“压缩”:深刻了解数据结构有助于压缩储存和较好地重现。统计学界以外的数据分析----许多方法和计算策略是统计学界以外发展起来的(如machinelearning和neuralnetwork)----未来研究应将这些machinelearning和其它方面发展起来的大量、复杂数据集的分析方法纳入统计学核心知识。----如果我们的目标是利用数据解决问题,那末我们必须从单纯依靠数据模型走向采纳各种各样工具。大p小n多变量分析例:曲线资料、谱、图像、DNA微阵列----几乎没有现成的统计理论支持和理解主成分分析、典则分析等用于降维的富有启发性的方法----其它领域的创新可能有助于这个问题。例:随机矩阵理论,过去40年发展了有许多模型和方法,近年引起了概率和组合数学方面极大的兴趣。Bayes和有偏估计发展和开拓Bayesian方法和现代非参数、半参数统计之间的联系,包括研究Bayesian和andfrequencist结合的方法学。----对于具有大量变量的巨型数据,需要更广泛的有偏估计理论。----也需要进一步的MonteCarlo方法做推断。证明和计算实验之间的中间地带证明–太难,或非头等重要计算实验–太任意和不足以令人信服例:混合模型–大多忽略识别问题,因为困难,并加重模型结构的多样性三、生命科学中的统计学上半个世纪的里程碑:--生物统计学--统计流行病学--随机化临床试验与未来统计学有关的生命科学的四个领域--生物分子序列分析和功能基因组学--遗传流行病学--进化、群体遗传学和生态学--计算神经科学生物统计与生物信息分子生物学已进化到信息科学,出现了新学科ComputationalBiology,或Bioinformatics.--发现和实施算法,以了解生物学过程--主要工具:计算、统计和“machinelearning”技术--分析方法主要是特定的,尚处初级阶段这是统计科学家用武之地,尤其,micro-array技术已经创造了新颖的统计学问题,激发了许多新的生物统计学研究。--若干生物统计系已经改名为BiostatisticsandBioinformatics.中医临床试验“东方传统医学的某些方面可能真的有效,可以充实西方医学.去年我在中国大陆参加了一个会议,主题是中药临床试验的设计。很明显,东方在汇集传统医学有效性和安全性方面的临床试验将会有重要的发展。(Zelen)加强协作活动价值:发展统计方法学、多学科研究。虽然不同人有不同侧重,同一个人不同时期也有不同侧重,所有统计学家都要有两方面的活动:方法学研究和其它专业中的应用。大学与工业界关系生物统计学的领导地位主要在大学。工业界正聘用许多年轻有为生物统计学家,有助于加强工业界与大学间关系。大学与工业界有许多共同目标,工业界开始介入教育过程。学术界要抓紧与工业界相结合的过程。(Zelen)统计科学与卫生决策我们不仅负责收集数据和解释数据,也要引导决策。许多公共卫生问题需要决策:--世界范围的艾滋病流行两年前在远东爆发的流行Avarian病毒的扩散目前在某些阿拉伯国家的Polio爆发决策者得到的输入是数据,多半要精制和综合成定量模型。这些模型可预测疾病流行的速度、最敏感的亚人群、所需疫苗的规模等等……我期待我们的同行们在公共卫生决策中发挥更大的作用,尤其是在国际范围内.(Zelen)四、统计学教育“统计学年轻人有足够的职业机会,学术界、工业部门、政府机构”。“在美国,很高比例的统计研究生出生于外国,毕业后留在美国”。(NationalScienceFoundation(1998)report98-95)“对生物统计学的需求从来没有象今天这样大,特别是美国。美国NationalResearchCouncil研究结论:在所有的卫生科研行业,最最缺乏生物统计学和流行病学人才”。(Zelen)教育改革:需求变了,训练必须变!科学技术快速发展。大学教学计划必须变化以抓住新的科学机遇。否则,我们的专业与未来无关。我预见,未来的生物统计学家需要生物信息学和遗传学方面的训练;较少侧重传统数理统计,而要更多注意数据分析,尤其是大型数据库的处理。(Zelen)多层次教育鼓励统计专业学生在一个或几个应用领域获取更深更广的专业知识。统计学研究生教育要提供足够深而广的、现代统计学家所使用的工具,包括数学、计算机科学和基础科学。博士后教育和继续教育帮助新毕业研究生发展专业技术,帮助年长统计学家更新知识。未来有用的统计和计算方法随机过程有限Markov链,点过程,Gaussian随机场隐Markov模型和Markov链MonteCarlo–重要算法传统方法的改进--多重比较(微阵列)--主成分(主成分曲线)--似然分析(随机过程的似然分析)--实验设计“User-friendly”算法与生命科学家的交流将通讯资源用于教育将专业课程收集到网上,无偿使用--幻灯放到网上,在老师指导下,生物统计学生可学到主要生物统计学中心的课程--学术讲座也可以上网--这种做法在流行病学已有先例:(~super1)Pittsburgh大学的Prof.RonLaPorte及其同事,已经收集了2000个课程和学术讲座,放在网上供无偿使用。生物统计学的领导地位我期待许多外国学生将回到他们的祖国,在生物统计学教育和实践方面的影响。我可以预见,虽然生物统计学某些方面的领导地位目前在美国或英国,但seethatsomeoftheleadershipinbiostatisticalscience,whichisin将会逐渐被其它国家分享。新的生物统计学项目将在许多国家兴起,尤其是东方国家。(PacificRimcountries:日本、中国大陆)。(Zelen)References1.LindsayBG,KettenringJ,SiegmundDO(2004).Areportonthefutureofstatistics.StatisticalScience.19(3)387-413.2.NationalScienceFoundation(1998).ReportoftheseniorassessmentpaneloftheinternationalassessmentoftheUSmathematicalscience.Report98-95,NationalScienceFoundation.Arlington,VA.3.LindsayBG,KettenringJ,SiegmundDO(2004).Statistics:Challengesandopportunitiesforthetwenty-firstcentury.~bgl/nsf_report.pdf4.ZelenM(2005).Biostatisticians,biostatisticalscienceandthefuture.(KeynotetalkgivenbeforetheEasternMediterraneanRegionoftheBiometricSociety,May2005)