统计学前沿论文

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

结课论文报告课程名称统计学前沿专题年级2011级专业统计111学生姓名赵应国学号1107010270理学院统计学知识在生物学科中的应用分析生物统计学是一门探讨如何从不完整的信息中获取科学可靠的结论从而进一步进行生物学实验研究的设计,取样,分析,资料整理与推论的科学.应用数理统计学来处理生物现象的学问。与其说是生物学的一个分科不如看作是生物学的方法论。与生物测量学大致具有同一涵义,但前者几乎尚没有深入到现象的统计处理机制,因此生物测量学作为稍狭义的东西,有时也与生物统计学有所区别。统计学是一门古老的科学,一般认为其研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。但是在相当长的一段时间内,统计学并没有在理论上得到特别的重视,也没有取得特别大的发展。一个很重要的原因就在于,作为统计学的基础之一的概率论,迟迟到16至17世纪才崭露头角。而作为严肃数学对象描述的概率论,出现的就更晚了。另一方面,虽然很多国家的政府早就设立有专门的统计机构,并且雇佣了大量的专职人员,但这些机构主要的任务只是简单的做计数而已,属于描述统计的范畴,比如人口统计。从数学上来看,除了数据收集和计算的繁琐易错,并没有什么真正的困难。任何新学科的发展几乎总是由一些人们无法回答的新问题开始的,而对于现代统计学来说,这个时机的到来与生物学有着密不可分的关系。达尔文(Darwin,CharlesRobert,1809—1882)于1859年发表了著名的《物种起源》,引发了巨大的争议。事实上,达尔文当时因为急于发表著作,在很多问题上都缺少充分的思考。书中许多的论断,限于当时的历史条件,也都无法找到充分的证据。对于许多现象,也都找不出合理的解释。因此,达尔文的理论不仅仅受到保守宗教界的攻击,也得到了很多严肃的学术上的质疑。这类事情并不是没有先例的,现代学者对哥白尼和托勒密的天文理论做过对比之后发现,利用哥白尼的理论计算得出的一些天文数据,其准确度并没有明显优势,甚至还有一定的缺陷。所以从现代的角度来看,无论是日心说还是进化论,其主要积极意义都在于突破思想桎梏,而并不在于其理论本身之正确性。后来,各个学科的专家们一直致力于为达尔文的理论作出验证,这其中便有统计学家的工作,不过时间已经是几十年之后了,后文会提到相关事实。与达尔文同时代的生物学家孟德尔(Mendel,GregorJohann,1882-1884)也在从事着创造性的工作。他那著名的豌豆的杂交实验从1856年至1864年共进行了8年,在其中孟德尔利用初等的统计学方法论证了由他所建立的遗传学理论。但遗憾的是,当时的生物学界对于这种充斥着数学味的生物研究(即使其中的数学是初等的)并无兴趣,以至于直到20世纪初孟德尔的理论才得到了再次的发现和重视。而之所以会是20世纪初,主要原因也就在于那个年代里生物统计学已经初露峥嵘。还有一位值得一提的人物是高尔顿(Galton,Francis,1822-1911),有趣的是,他是达尔文的表弟。受到表哥的影响,他也走上了生物学方面的研究。但是与达尔文的一个很大不同在于,高尔顿早年曾经在剑桥学习数学,这种特殊的学术背景,使得他的生物研究工作与数学紧密的结合在了一起。他第一次将概率统计原理等数学方法用于生物科学,明确提出“生物统计学”(Biometrics),并被认为是该学科的奠基人之一。此外,现代统计学上“相关”(Correlation)和“回归”(Regression)的概念也是高尔顿第一次使用的。Biometrics这个词语由表示生物的bio和表示度量的metric组成。现在通常把生物统计学称作是Biostatistics,考虑到统计学一般被称为Statistics,看起来Biostatistics更符合规范,但它却是直到1949年才第一次出现,原因就在于生物统计学诞生之时,“统计学”的概念还停留在描述统计的含义上,与现代的数理统计有着天壤之别。有趣的是回归这个名词的来源。高尔顿收集了大量的父子身高数据,得出了一个结论:父亲身材高的话,往往儿子就比父亲矮;相反,父亲身材矮的话,往往儿子就比父亲高。高尔顿把这种现象称作是“向平均回归”(Regressiontomean),现代数理统计学中“回归”的含义显然已经发生了本质的变化,但却依然保留了最初研究问题的轨迹。真正第一次规范明确的提出现代统计学基本研究方法的学者,一般被认为是高尔顿的学生,著名统计学家K•皮尔逊(Pearson,Karl,1857-1936)。皮尔逊认为,所有的科学实验,从本质上说都是不精确的。而实验得到的结果,只是一种分布的诸多样本,带有随机性。他同时提出,这种分布就是正态分布。他的革命性观念就在于打破了人们对科学实验的某种迷信,认为“真实”的东西是人类永远无法精确得到的,但是可以反过来通过对所得样本的研究,来估计那些隐藏在数据之后的东西——就这样,参数估计(ParameterEstimation)进入了研究者们的视野。皮尔逊提出了四种指标来描述数据,分别是:平均值,标准差,偏度,峰度。他颇为自信的认为,对于任何数据,只要把握了这四个指标,就可以完全确定暗含在背后的分布。事实上,他的论断既不充分也不必要。比如对于正态分布,我们只需要知道平均值和标准差就可以完全确定了,而后来的研究者发现,对于某些的分布来说,仅仅用4个指标描述是不够的。虽然如此,他的基本思路却成为了后来统计学研究的主流方向之一,与贝叶斯统计学派并驾齐驱。皮尔逊并不是凭空得到这些创意的,事实上,作为高尔顿的学生,他也在生物统计方面做出了重要的贡献。达尔文提出的进化论指出,外界环境的变化会产生一种影响,使得生物的各种随机变化中最适合于环境变化的那一种得到优势,由此它们的后代在继承了这种随机变化之后也会得到额外优势。代代相传下去,就会形成所谓的“适者生存”(survivalofthefittest)。由于每一代都会出现一些随机变化,这些变化累计下来就有可能出现所谓新物种。这是一个革命性的想法,最主要的一点在于他指出了物种并不是恒定不变的。但是,由于人类文明的历史并不长,我们很难亲眼看到新物种实际出现的例子。这成为很多学者攻击达尔文进化论的把柄。生物学家韦尔登(Weldon,WalterFrankRaphael,1860-1906)曾经于1893年提出“所谓变异,遗传与天择事实上只是算术”的想法。皮尔逊深受这种想法的影响,并且相信达尔文的理论具有正确性,为此他想到了通过另一种途径来验证进化论。达尔文观察的动物样本往往是孤立的,而皮尔逊认为这是不科学的。因为某一只具体的动物只是一个样本而已,它所具有的某些随机特征并不一定能反映大的物种的变化情况。但是假如收集了同一种动物的大量样本,就可以由此推出一些参数的估计值。经过一段时间之后的再次观察,用同样的方法计算出相应的参数,就可以对两组参数进行比较。如果这些参数的变化与环境的变化相适应,那么就验证了达尔文进化论的正确性。不难看出,皮尔逊的统计学思想方法与生物研究是密不可分的。如果达尔文笔下的物种进化很容易就可以观察到的话,那么统计学的思维根本派不上用场,人们只要沿用从牛顿那个时代流传下来的实验观察方法就可以了。与较为主观的贝叶斯主义者不同,皮尔逊的思想是基于理性主义的,继承了笛卡尔、帕斯卡、莱布尼兹等大陆理性主义者的衣钵。用通俗的话说,他认为,“真理”是独立于外物而存在的,但是人类观察到的只是它在现实世界中的投影,无法用直接的途径达到,但是可以用某种数学的方法不断地向它逼近。皮尔逊、高尔顿与韦尔登为了推广统计在生物上的应用,于1901年创立了著名的期刊《生物统计》(Biometrika),由皮尔逊主编至逝世,高尔顿创建的生物统计基金会给予了期刊慷慨的资助。这本期刊实际上涵盖范围很广,除了对于实验数据的分析之外,由于当时缺少专门的统计学刊物,所以许多理论性的研究工作也在上面发布。1908年,戈赛特(Gosset,WilliamSealy,1876-1937)以笔名“学生”(student)在该期刊上发表了著名的论文“平均数的可能误差”(TheProbableErroroftheMean),提出了现在被广泛应用的“t检验”。戈赛特之所以采用笔名发表文章,原因在于他所任职的公司禁止职员发表与工作有关的论文,以防止自己的技术被泄露。皮尔逊身上带有明显的社会主义者气质,注重社会平等,富于热情和精力,对于有才华的年轻人总是不吝提拔。不过,他与后生晚辈的关系也并不完全和谐。比较著名的一个例子是他与20世纪另一位伟大的统计学家费希尔(Fisher,RonaldAylmer,1890-1962)之间的不和。相对来说,费希尔是个政治上的保守主义者,优生学的鼻祖之一,曾经撰文质疑政府对贫民的福利措施。因为在他看来,这会鼓励穷人生育,从而将劣等基因传给下一代,影响人口质量。作为剑桥数学甲等学位及格者,费希尔的数学修养比老一辈的统计学家要深厚许多,在本科生期间就已经在《生物统计》上发表了文章。由此机缘,他得以见到了皮尔逊。皮尔逊当时给了费希尔一个艰难的问题,而后者在很短的时间内便给出了一个解答。这个解答使用了复杂的数学理论,以至于皮尔逊并不能够理解。由于欣赏费希尔的才华,皮尔逊和费希尔合作了一些课题。然而,由于费希尔认为皮尔逊低估了自己在合作中的重要性,两者产生了纠纷。此后费希尔再也没有在《生物统计》上发表文章。应该说,这是一件令人遗憾的事情,而这种遗憾更多的属于皮尔逊。晚年皮尔逊虽然身居要职,他的学术研究工作却已经不再得到重视。很大的一个原因在于,随着时间的推移,统计学逐渐从一门对实验数据进行分析的技术成长为一门理论性越来越强的学科。在这样的背景下,擅长于抽象推理的费希尔的工作得到了越来越多的重视。即使费希尔后来也独立的做了一些关于生物统计的工作,比如在《农业科学期刊》(theJournalofAgriculturalScience)上发表了《作物收成变动研究III》(StudiesinCorpVariationIII),提出了著名的“方差分析”,但是费希尔的研究领域已经大大拓宽了。就这样,统计学逐渐进入了自成体系的发展阶段,不断在各个领域开辟疆土。在物理学的测量中,测量误差是重要问题,与此相应在生物学的研究中必须应用统计处理,其首要原因是变异。有意识地将数理统计学引入到生物学以及人类学领域的先驱者是克韦泰来特(L.A.J.Quetelet),随后由高尔顿(F.Galton)的工作巩固了生物测量学和优生学的基础。数学家皮尔逊(K.Pearson)继承了他们的研究工作,进行了回归和相关特别是复相关、泊松型分布数、频率累加法、X2测验等数理统计学的研究,并制成了很多统计数值表。他们把人们观测的或能得到手的资料的全部作为对象,把平均值和离差作为问题,来考查其中的数学规律。数理统计学方法已适用于生物学和农业科学的实验或试验领域,但也是以整个资料或比试验资料更大的抽象资料为依据的,因此人们开始意识到,在其现实是一种不能以其一部分作为研究对象的局面。于是就提出母集团和样本的区别和关联,以及从少数资料进行正确有效的推论的问题,这些问题被戈塞特[笔名(Student)]和费希尔(W.S.Gosset和R.A.Fisher)解决了。费希尔的工作指出,统计方法的目的在于得到资料的要点,为此,其分布法则是要以较少的母集团中的数目为特征推想到无限的母集团,而实际的资料就是从它们之中随机抽出的样本。基于此点,在母集团数的统计上的无偏性、一致性、有效性、充分性的概念,构成了解消假设的验定,最优法等的理论。这就是费希尔派的数理统计学,也特称推计学。

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功