统计描述童新元中国人民解放军总医院名人格言科学就是整理事实,以便从中得到普遍的规律和结论。---达尔文(英国生物学家,1809-1882)讨论问题如何了解本届研究生的身高,体重及血型、爱好运动、身体健康等情况?如何了解正常人的红细胞的数量、血清总胆固醇水平?某研究者测得150成年男子血清总胆固醇水平(mmol/l)数据如下:3.203.625.084.864.053.914.264.454.933.613.924.434.884.264.10……………………………….6.264.575.324.053.93试对数据进行分析。常见统计量及其误用平均数百分数案例1:“狗伤人问题”1997年美国大城市恶犬伤人城市排行榜问题:是否休斯敦狗比波士顿狗更容易伤人?城市伤人数休斯敦65芝加哥55纽约44洛杉机29波士顿15案例2:“14%的精神错乱”第二次世界大战期间,盟军某雷达站向上级申请增加雷达技术人员,理由是该雷达站因工作忙,有14%的技术人员发生精神错乱。上级主管部门得到申请报告后,马上给他们增加新的技术人员。主管部门这个决策科学吗?该站有7名技术人员,只有1名发生精神错乱。案例3:“谁是坏分子”文化大革命期间,毛泽东指示:坏分子的数目有5%.于是全国各地各揪坏分子。某单位只有3个人,但得揪出一个坏分子,怎么办呢?某院妇产科156例子宫脱垂患者产次分布结果产次例数百分比(%)010.6413623.0823019.2332314.7441811.545及以上2817.95不详2012.82合计156100作者在论文中分析结论:患者多大第一,第二次产后发病,以第一产后发病者最高.----摘自某中华杂志案例4:某中华杂志中的问题案例5:招生问题某研究分析了美国加州贝克莱分校1973年研究生的录取情况,结果显示:男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。经统计学检验,P0.01.有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。案例6:“评委评分问题”有7位评委给甲乙两位歌手评分如下:问题:是否歌手甲比乙的实力强?去掉一个最高和最低分,甲得8.2,乙得8.6。评委1234567平均分甲898888108.4乙98999868.3案例7:“药费问题”甲乙两个医院药费分析(人民币元)问题:是否病人在乙医院比甲医院药费花费多?甲医院乙医院病人数药费平均病人数药费平均内科10080000150105000外科10020000505000合计200100000500200110000550案例8:“平均工资问题”某单位10个员工工资情况(人民币元)问题:单位员工平均工资多少?类别人数工资董事长120000经理220000主管26000职员44000合计1050000案例9:“小马过河问题”一群小马要过河,若已知小马平均身高1.5米,河水深1米,问这群小马过河有危险吗?一、统计描述统计描述是指用统计指标,统计公式(模型),统计图,统计表等方法对数据的特征及其分布规律进行检测与描述。统计描述的方法有三种:统计指标和统计模型统计图统计表频数分布表是记录和展现特定数据出现次数多少的方法。常常是分组列出数据在每个对应组中的频数所形成的表。它用于样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。二、频数分布表与直方图二、频数分布表例4-1某市随机抽取正常成年男子120名,其红细胞计数值(1012/L)如下,试编制频数表并绘频数直方图。P29组距、组段和组数确定组距确定组段确定组数1.手工制表步骤:①求全距:R=最大值-最小值;②确定组距;③确定组段;④频数划记;⑤计算频数;⑥累计频数.2.频数分布表的特点1最小值3.29,最大值6.18,全距2.892集中在(3.8,5.6)分布人数最多89.17%3.中间数人数多,两端人数少。思考问题:如果以血红细胞计数为横轴,频数为纵轴画图,会出现怎样?3.CHISS软件实现:①进入数据模块:建立数据库②进入统计模块:进行统计计算点击统计→统计描述→频数表光标选中变量:血红细胞计数分组数为:10,第一组下限为:3.2,组距为:0.3。→编制频数表→到结果→完成③进入结果模块:查看结果频数直方图频率直方图将频数改为频率所得图称为频率直方图频率密度直方图将频数改为频率/组距所得图称为频率密度直方图问题频率密度直方图面积大小表示什么意义?等于变量出现该横轴区间段上的频(概)率.概率密度分布将组距无限细分,矩形顶边连成一条曲线称为概率密度分布曲线。问题概率密度分布曲线下的面积大小表示什么意义?概率密度分布曲线下的全面积为1.概率密度分布曲线下某区间段内面积等于其该区间段上的概率.150成年男子血清总胆固醇水平(mmol/l)如下:3.203.625.084.864.053.914.264.454.933.61……………………………….6.264.575.324.053.93试绘制频数分布表。三、正态分布正态分布是由法国数学家狄莫弗(A.de.Moivre1667—1754)于1773年首先提出,至19世纪初,德国数学家高斯(C.F.Gauss,1777-1855)与法国数学家拉普拉斯分别加以发展,正态分布又称高斯分布。许多实际问题中,指标取中等大小数值的概率大,取较小或较大数值的概率小,而且关于均值是对称的。如某地区成年男子的身高、体重、胸围、腿长等都服从正态分布规律。概率密度函数正态分布的概率密度函数,即正态分布曲线的方程为式中μ为总体均数,σ为总体标准差22()21(),2xfxex正态分布是以均数为中心,两侧对称的钟型分布.一般用X~N(,2)表示X服从均数为,方差为2的正态分布.正态分布的性质①正态分布曲线在横轴上方均数处()达到最高。②正态分布曲线以均数为中心,左右两侧对称。③正态分布曲线以横轴为其渐近线。④正态分布有两个参数,即均数和标准差。是位置参数,当恒定时,越大,则曲线沿横轴越向右移动,越小,则曲线沿横轴越向左移动;是变异度参数,当恒定时,越大,表示数据越分散,越小,表示数据越密集。曲线下的面积⑤正态分布曲线下的面积有一定的规律。正态分布曲线下横轴上的总面积为1。可根据正态分布曲线下某个区间的面积,来估计变量值落在该区间的概率。正态分布曲线下区间的面积,可以通过对正态变量X的概率密度函数f(x)的广义积分来求得,称其为X的概率分布函数,以F(X)表示:F(x)反映了正态分布曲线下,自-∞到X的左侧累计面积。微积分理论知道,F(x)是不可积分函数。22()/(2)1F(X)=2XxedX不规则物体面积:心脏和肝脏标准正态分布曲线下面积的计算高等数学计算积分,不可积函数不规则图形面积的近似计算标准正态分布正态分布N(,2)中,当均数=0,方差2=1.称为标准正态分布,用u~N(0,1)表示。标准正态分布曲线以0为中心,左右两侧对称,在原点达到最高。第二节标准正态分布概率计算表zu服从标准正态分布u~N(0,1),其概率分布函数为:Φ(z)它反映了标准正态分布曲线下,自-∞到u的左侧累计面积。统计学家用函数逼近论法编制不同u值下自-∞到u的左侧累计面积表,见教材附表A。221(u)=2uuedu查表求面积标准正态分布曲线下对称于0的区间其面积相等,于是有等式Φ(u)=1-Φ(-u)。标准正态曲线下区间(u1,u2)面积的计算公式为:P(u1Uu2)=Φ(u2)Φ(u1)。查表求:1)Φ(-1.96)=?2)P(-1.96U1.96)=?标准正态u变换任意的正态分布X~N(,2),经过公式:变换后,u服从标准正态分布,u~N(0,1)。上公式成为标准正态变换,亦称u变换,Z变换。标准正态分布亦称u分布,Z分布。Xu例题已知X服从正态分布N(10,32),求X落在区间(7,10)上的概率.解:P(7x10)=练习作业1)Φ(-1.64)=?,P(-1.64U1.64)=?2)Φ(-2.58)=?,P(-2.58U2.58)=?3)已知X服从正态分布N(5,22),求X落在区间(3,6)概率.单双侧尾部概率标准正态分布曲线下±1.96以外的双侧尾部面积为0.05,即变量值落在[-1.96,1.96]区间外的概率是5%。1.96称为双侧尾部面积为0.05的临界值,记为u0.05或Z0.05,u0.05=1.96。P34正态分布的应用(1)正常值范围(参考值范围)95%参考值范围:均数加减1.96倍的标准差95%参考值范围含义:从总体中随机抽取100个观测对象,有95个的观测值落在这个参考值范围内。例某地随机抽取正常成年男子144名,其红细胞计数值均数5.38(1012/L),标准差为0.44(1012/L),试估计该地正常成年男子红细胞计数值的95%参考值范围.(2)质量控制±2S为上下警戒线,±3S为上下控制值.xx四、偏态分布所谓偏态分布是指集中趋势偏于一侧,分布左右不对称。如以儿童发病为主的传染病,患者的年龄分布,集中趋势偏向小的一侧;称为正偏态分布.慢性病患者的年龄分布,集中趋势偏向于大的一侧。称为负偏态分布。统计分析描述时,应针对资料的不同分布类型选用适当的统计分析方法。1、集中趋势度量平均数是一类描述定量数据的平均水平或集中趋势的统计指标。常用的平均数有算术均数、几何均数、中位数和众数等。五、定量数据的常用统计指标(一)算术均数算术均数为所有测量值之和除以测量值的个数,简称均值或均数。总体的均数用希腊字母(读作miu)表示,样本的均数用(读作xba)表示,其计算公式为nXXXxn...21算术均数的应用适用于呈正态或近似正态分布的数据。(二)中位数将一组观察数值按从小到大的顺序排列,位于序列中间的数值称为中位数,记为M。中位数计算样本量n为奇数时,中位数为n为偶数时,中位数为:*21nXM)(21*12*2nnXXM练习1)一组数A:1,2,3,3,5.2)一组数B:1,2,3,4,5,6,7,8,93)一组数C:10,20,30,40….90,100求其算术平均数,中位数。中位数的应用若数据呈明显的偏态分布,或者数据的分布不明时,用中位数反映一组定量数据的平均水平或集中趋势。(三)几何均数几何均数是将n个观测值相乘积再开n次方所得的根,记为G。其计算公式为或式中表示先求每个观察值的对数,计算其算术均数后,再求反对数。对数的底可适当选择。但是要注意对数与反对数的底相同。nnXXXG...21)log(log1nXG几何均数的应用适用于等比级数,对数正态分布数据,如抗体滴度,药物的效价,平均增长速度、传染病发病的平均潜伏期的数据。(四)众数一组观测值中出现次数最多的那个观测值,称为众数(mode)。2.离散与变异度量今有随机抽样A、B两个班各5名同学的身高(cm),抽检结果分别为:A班:169,168,170,171,172;B班:170,180,165,175,160。问题:1)A、B两个班的平均身高为多少?2)A、B两个班同学的身高有什么相同和不同?变异(variation)为了比较全面地把握数据的分布特点,不仅需要了解数据的集中位置,而且需要了解数据之间的差异。同一总体中不同个体之间的差异称为变异(variation),亦称为数据的离散度。描述数据离散程度的指标有很多,常用的几种:极差、四分位数间距、方差、标准差及变异系数。(一)极差极差(range,R)亦称全距,是序列中最大值与最小值之差。R=最大值-最小值(二)四分位间距将变量X的观测数值由小到大排列,位于p%的数值称为p百分位数(percentile),记为Xp。百分位数表示在观察数序列中,有P%的观察值小于它,(1-P)%的观察值大于它。例一组数10,20,30,40….990,1000,求1)1%,5%,25%,50%,75%,95%,100%分位数X1,X