统计数据的应用运营协调中心2008年11月13日统计数据的应用目录•引言统计的基本概念、内容集团的统计工作统计的一些应用黑人总统,美国有种族歧视吗?•统计学案例美国佛罗里达州的凶杀案•(摘自:茆诗松等高等数理统计)下表是1976年-1977年美国佛罗里达州的凶杀案件中,326个被告的肤色和死刑判决情况的分类表。请注意死刑判决比例被告死刑合计死刑判决比例是否白人1914116011.88%黑人1714916610.24%合计3629032611.04%表2-1被告肤色和死刑判决情况分类表事实果真如此?•似乎白人被判死刑的可能性等于黑人被判死刑的可能性(事实上,表中白人凶手被判死刑的比例略高)•换言之,肤色与死刑关联性不大•进一步推论,从这点上,恐怕找不到种族(肤色)歧视的有利证据•显然与当时的美国现实不相符合改进:把被害人肤色考虑入内后,见表2表2被告与被害人的肤色以及死刑判决情况分类表被告被害人死刑合计死刑判决比例是否白人白人1913215112.58%黑人0990.00%黑人白人11526317.46%黑人6971035.83%合计3629032611.04%数据表明:种族和肤色歧视在七十年代确实存在•启示•用数据说话,更能证明你的观点•不要被数据假象所迷惑•深入挖掘数据背后的事实(增加一个因素,结论不同)无论我们是在教室、在工作场所还是在家里,数据总会潮水般向我们涌来。许多人学习这门课,目的是为了成为商号或公司的高层管理人员和决策者(有的已经是这样的管理人员和决策者),正因为如此,你必须有能力弄懂别人向你提供的大量数据的涵义。什么样的专门手段能使你高效率地使用数据?答案是“统计学”。——国外工商管理硕士(MBA)优秀教材译丛.美《商务统计》对统计的认识在今天的全球商务和经济环境中,有极大数量的统计信息是可利用的,最成功的管理人员和决策制定者是那些能够理解信息并有效利用信息的人。——21世纪管理经典教材系列经济教材译丛.美《商务与经济统计》例一,婴儿的性别比例,由人类社会长期遗传和发展所形成,古今中外大致相同(大约为107:100或51.69:48.31)。人类性别比例的研究,是统计学的起源之一,也是统计方法探索的最早的数量规律性之一。2000年11.1普查大陆总人口1265835万人,性比为51.63:48.37,男性人口多2.26个百分点,多4127万人。统计数据的内在规律基本概念------概率•概率是频率的稳定值。概率非负,介于0与一之间的一个数值,某一事件所有可能结果的概率总和为1。•例如某种新产品畅销的可能性为80%,可以理解成其主观概率为0.8.•例一:某公司声称所产一种感冒新药治愈率为95%,现在十个患者服用,问至少八个病愈的可能性有多大?•答案是98.85%基本概念------概率•直觉并不可靠。“生日问题”•某班级中有五十个学生,问至少有两个人在同一天的概率有多大?•答案是97%。人数n102023304050概率p12%41%51%71%89%97%例投掷硬币。投掷一枚质量均匀的硬币,出现正面和反面的概率各为1/2;投掷一枚骰子出现1~6点的概率各为1/6。大量试验结果表明频率接近于概率。频率:在n次重复试验中,事件A出现了k次,则k/n为事件A发生的频率。概率:如果随着试验次数的增加,事件A的频率逐渐稳定于某个常数P附近,则称P为事件A的概率(概率是频率的稳定值,是随机事件发生可能性大小的度量。)18世纪法国科学家蒲丰投掷钱币4040次,正面2048次,频率0.507;20世纪英国科学家皮尔逊投掷钱币12000次,正面6019次,频率0.5016;24000次,正面12012次,频率0.5005。南非数学家JohnKerrich二战时期在集中营投掷10000次,正面5067次,频率0.5067概念数学期望(均值)•分赌本问题17世纪中叶,一位赌徒向法国数学家帕斯卡提出了一个令他苦恼已久的问题:•甲乙两人赌技相同,各出赌注50法郎,每局无平局•规则:谁先赢三局,则得全部赌本100法郎•意外:当甲赢2局,乙赢一局,因故中断赌博。•问题:如何分配这100元?共识:平均分对甲不公平,全部归甲对乙不公平。按比例分•方案一:甲得100法郎中的2/3,乙得100法郎中的1/3.这是基于已赌局数。•方案二:1654年帕斯卡提出:设想再赌下去,再赌两局必可结束。•后两局的结果可能是:甲甲、甲乙、乙甲、乙乙。其中“甲乙”代表甲赢第一局,乙赢第二局。以此类推。分析甲所得X0100概率(可能性)P0.250.75•四种情况中三种情况甲可以获100法郎,只有一种情况下甲获0法郎。•甲的期望所得:0X0.25+100X0.75=75(法郎)•这种分法不仅考虑已赌局数,而且包括对再赌下去的一种“期望”。更为合理•称为“均值”更形象易懂基本概念方差与均方差•有两个牌子的手表,各抽100只,检测走时误差.结果发现其误差均值为0A牌号误差(秒)-10+1比例10%80%10%B牌号误差(秒)-2-10+1+2比例10%20%40%20%10%为了比较两个牌子手表的走时好坏,计算方差与标准差。显然A手表走时偏差更好22方差)(标准差ffxx095.14472.010010*)01(80*)00(10*)01(222BA德国十马克上的高斯标准正态分布221()2xfxe蓝色部分的面积:P(-3σX3σ)=0.997303456223456X)2()(2221)(XeXf),(2N正态分布密度函数(频率曲线)为正态函数(曲线)、是两个不确定常数,是正态分布的参数,不同的对应不同的正态分布。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。不同的μ、σ对应的正态曲线12σ相同,μ不同的情况μ相同,σ不同的情况12212126σ与正态分布299.9937%99.999943%99.9999998%0.00.10.20.30.4DensityValue345623456099.73%68.27%95.45%规格范围LSLUSL66330.001ppm1350ppm0.001ppm1350ppm标称值=μ西格玛水平和对应的合格率比较图3σ流程与6σ流程的比较3σ流程LSLUSL合格6σ流程合格由客户决定由客户决定废品0.001ppm废品0.001ppm6σ流程比3σ流程好得多!废品1350ppm废品1350ppm什么是统计?统计工作是人们为了说明所研究对象的某种数量特征和数量规律性,而对该现象的数据进行收集、整理与分析的活动过程。统计资料是通过统计工作所获得的能够说明现象总体某种特征的数据以及与之相联系的文字、图表等资料的总称,是统计实践活动的成果。统计的多重含义:统计工作,统计资料,统计学统计的起源统计学起源于2000多年前的古希腊,主要是帝王为战争作准备时对资源进行的调查;“统计学”一词出现在1749年的德语中,是德国学者阿亨华尔在《欧洲各国国势学纲要》一书中为国势学所起的名字,国势学是对当时欧洲各国的人口、土地、财政、军事等方面实力的描述与比较,德国大学1660年开始讲授此课;现代统计学源于英国的农业生产:利用统计选择高产的种子、肥沃的土地;随着学术与应用的发展,英国和美国分别于1834年和1839年成立统计学会,大约有7000和2万左右的会员;中国现代统计学则是从数学开始的。(许宝騄陈希儒)传统的统计学主要指官方统计、工业统计和现场统计,现代统计学则注重挖掘数据包含的信息,用已知来预测未知,用过去预测未来。国际数理统计学会主席范剑青说:“社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。无论医学、经济学、社会科学、工业生产或是科学实验得到的都是数据,统计学就是对这些数据进行加工和提炼,找出规律、预测未知。概率统计是描述社会活动最简洁有力的语言。”——对随机现象进行观测、试验,以取得有代表性的观测值——对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性统计的分类描述统计学推断统计学第六章•统计方法通常可以分为描述统计和推断统计两部分。•1.描述统计:•主要是指在获得数据之后,通过分组、有关图表、统计指标等对现象加以描述;•2.推断统计:•指通过抽样调查等非全面调查,在获得样本数据的基础上,以概率论和数理统计为依据,对总体的情况进行科学推断;•通过建立回归模型对现象的依存关系进行模拟、对未来情况进行预测。数据的分类数据定量数据定性数据有序数据名义数据计数数据计量数据•1、计量数据如人的身高、体重……,产品长度,直径,重量……,股票的价格、市盈率……。它们的取值可以是某个区间内的任意一个实数。•2、计数数据如企业职工人数、成交股票股数等。它们在整数范围内取值,大部分还仅在非负整数范围内取值。3、名义数据•有的时候,观察值不是数,而是事物的属性,如人的性别(男、女),物体的颜色、形状。我们常用数来表示属性的分类,如用数“1”和“2”分别表示男和女。这些数只起一个名义的作用,只是一个代码,没有大小关系,也不能进行运算。这里“2”与“1”不能比较大小也,“1+2”也没有意义。这类数据称为名义定性数据,简称名义数据。4、有序数据•有些事物的属性有顺序关系,如人的文化程度由低到高可分为文盲、小学、初中、高中或中专和大专或大学等5类,可用数0、1、2、3、4、5分别表示。又如顾客对某商场营业员服务态度的评价分为“满意”、“一般”、“不满意”三类,可分别用“3”、“2”、“1”表示。这些数据只是起一个顺序作用,类与类之间的差别是不能运算的。例如“满意”比“一般”好,但“好多少”是不能计算的,这里的“3-2”是没有意义的。这一类数据称为有序定性数据,简称有序数据。•1982年,新中国第一批18个博士毕业,其中数理统计方向占两位(赵林城白志东)导师是陈希儒教授•1986年,三十四岁的概率统计博士郑伟安破格被聘为当时全国最年轻的教授、博导(初中毕业,上海卢湾区的小木匠,78年直接考上研究生)引起轰动•日本首相田中说过:在战后日本经济发展中,数理统计所起作用,约占5%。统计与医药行业•为何西方国家会在医药行业中重点突出数理统计的作用?(以下引自中科院研究员李国英博导的谈话)•引入统计学使医药研制从经验总结上升为科学发现。•美国的新药研制,一般要由医药学、生物学、统计学、化学等几个部门的专业人员合作,先发现新药,进行动物试验,再进行至少三期临床试验。试验方案的设计,试验数据的整理、分析,都离不开数理统计。而药物的安全性、有效性、用药量、适应症、禁忌症,以及临床药理特征等,都是对大量试验数据进行详细的研究、分析后得出的结论。只有在科学的实验和量化分析的基础上,才能对新药的品质得出精确的结论。国家药监局1999年11月颁布《中药新药研究的技术要求》(1)关于新药制备工艺制备工艺是中药研制的第一个重要环节,它包括剂型选择、药材提取、分离与纯化、浓缩与干燥、制剂成型及中试研究等多个步骤,涉及药材、辅料、设备、处方设计、各工序技术条件等许多方面。因素繁多、相互关系复杂是中药研制的一大特点。要研制出安全、高效、稳定的新药,需要找出其中的主要因素,并进行优化。这里统计学中的实验设计及其分析是得力且有效的工具,它可以帮助我们科学、合理地选择实验条件,通过尽可能少的试验次数,找出主要因素和尽可能好的制备工艺。(2)关于新药的稳定性研究•药品的稳定性是确定其有效期的依据。确定合理的有效期才能既保证用药的安全有效,又不造成药品的浪费,这在统计学中属于可靠性统计分析的范畴。通过一定数量的药品在室温或不同条件下贮存并定期检测的结果,可以建立适当的统计模型,并对有效期做出较准确的推断和预测。(3)关于临床研究临床研究是药品研制的最后的阶段,也是最复杂、最重要的阶段。新药上市前一般要进行三期临床试验,上市后还要进行第四期