统计学的基础知识分解

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

预备内容:统计学基础知识统计学—statistics统计学是收集、分析、解释与报告数据资料的一门科学。“asciencedealingwiththecollection,analysis,interpretationandpresentationofmassesofnumericaldata”.----Webster国际大辞典第一节统计学的一些基本概念1.总体与样本2.变量与随机变量3.同质与变异4.参数与统计量5.误差与错误6.准确性与精确性1.总体与样本Populationandsample样本:从总体中随机抽取的部分观察单位。如某单位男士的身高总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体从总体中得到样本的方法:抽样。(抽样方法与样本量)从样本推论总体的方法:统计推断(区间估计,假设检验等)抽样与推断变量——可以测量的任何特征或属性。Anycharacteristicorattributethatcanbemeasured。如热量值、蛋白质含量、碳水化合物含量。随机变量——在概率论中称变量为随机变量2、变量与随机变量Variableandrandomvariable3、变量(随机变量)的分类离散型变量(discretevariable):计数资料(15,17,24,…)连续性变量(continuousvariable):计量资料(1.65,1.73,1.77,…)有序变量(ordinalvariable):等级资料(优、良、中、差)4.参数与统计量Parameterandstatistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。通常是固定的常数。总体样本抽样统计量参数推断统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。SX、5.误差与错误Errorandmistake误差:试验中不可控因素所引起的实际观察值与客观真实值(真值)之差系统误差systematicerror随机误差randomerror错误:试验过程中,人为作用引起的差错如药品称量错误,数据录入错误等误差(Error)测量值=真值+随机误差+非随机误差Xi=i+i1.随机误差(抽样误差):影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。2.系统误差受确定因素影响,大小变化有方向性。3.非系统误差(错误)研究者偶然失误而造成的误差。偏差bias可以避免6.准确性与精确性准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异性)。精密度(precision)、也称可靠度(reliability)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。系统误差使数据偏离了其理论值,影响数据的准确度。随机误差使数据相互分散,影响了数据的精密度。准确度和精密度都好准确度差、精密度好准确度?精密度差准确度和精密度都差第二节计量资料的统计描述连续型变量(可测量的变量)一.频数表与频数分布二.平均指标(算术均数、几何均数、中位数、众数)三.变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)一、频数表与频数分布(frequencytableandfrequencydistribution)160名正常成年女子的血清甘油三酯(mmol/L)编号血清甘油三脂编号血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77组段(1)划记(2)频数,f(3)组中值,X(4)0.5~30.550.6~正90.650.7~正正120.750.8~正正130.850.9~正正正170.951.0~正正正181.051.1~正正正正201.151.2~正正正181.251.3~正正正171.351.4~正正131.451.5~正91.551.6~正81.651.7~1.8合计31.75160男子血清总胆固醇水平(mmol/L)Stem-and-LeafPlotFrequencyStem&Leaf5.002.7899913.003.011122233344434.003.555555556666666677777888899999999932.004.0000000111111122222333333444444435.004.5555555556666666667777788888889999917.005.0011222223333334410.005.55556778994.006.0022Stemwidth:1.00Eachleaf:1case(s)茎叶图二.平均指标总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean)3.中位数(median)4.众数(mode)5.调和均数(harmonicmean)6.截尾平均值(5%trimmedmean)1.均数(mean)nXnXXXXn21iiikkkfXfffffXfXfXfXfX321332211适用条件:资料呈正态或近似正态分布的资料2.几何均数(geometricmean)nXXnXXXXnXGnGlglglg)lglg(lg1lg121nnGXXXX21几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如增长速度、抗体滴度资料抗体的效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。1000510lg10lg10lg10lg10lglg543211GX此例的算术均数为22222,显然不能代表滴度的平均水平。对于同一资料,几何均数均数3.中位数(median)中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。中位数计算公式与实例先将观察值按从小到大顺序排列,再按以下公式计算:为偶数为奇数nxxnxMdnnn22/12/2/)1(特点:仅仅利用了中间的1~2个数据例随机抽查了9名中学生某月的到校天数分别为12,13,14,14,15,15,15,17,19天,求其中位数。8845122221415214.5()MXXXX+如果只调查了前八位中学生,则:+(+)(+)天)(155219天XXM4.众数(mode)出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。均数、中位数、众数三者关系正态分布时:均数=中位数=众数正偏态分布时:均数中位数众数负偏态分布时:均数中位数众数5、调和平均数资料中各观测值倒数的算术平均数的倒数,称为调和平均数,记为H,即调和平均数主要用于反映变量不同阶段的平均增长率或平均规模。xnxxxnnH1111111)(121某种转基因鱼不同世代鱼群保种的规模分别为:F0代200尾,F1代400尾,F2代600尾;F3代900尾,F4代1500尾,试求其平均规模。4570.002191(0.0109)1)(1H5115001900160014001200151对于同一资料:算术平均数几何平均数调和平均数上述五种平均数,最常用的是算术平均数。几种平均数之间的关系5%trimmedmean:将一组数中去掉最小的5%数值,再去掉最大的5%,然后将剩余的90%计算平均值得出的数值。减小了极端值的影响。截尾平均值三.变异(variation)指标反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariation1.极差(Range)(全距)minmaxXXR420440460480500520540560580优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定1.6m1.8m2.百分位数与四分位数间距Percentileandquartilerange百分位数:数据从小到大排列,在百分尺度下,所占百分比对应的值。记为Px。四分位间距Quartilerange:QR=P75-P25四分位半间距Quartiledeviation:QD=QR/2XFrequency25%75%3.方差方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。NXXSSXxxxn∑∑∑22221)-()-(squareofSum0)-()(...)()(总体方差)离均差平方和(离均差和11)(2222∑nnXXnXXS=样本方差4.标准差11)(222∑nnXXnXXS=样本标准差标准差(Standarddeviation,Std,SD)即方差的正平方根;其单位与原变量X的单位相同。NX2)(总体标准差样本方差为什么要除以(n-1)与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足这一限制条件。0)(_xxx基本概念:样本容量及样本个数样本容量(n):指一个样本所包含的单位数。一般将样本单位数不少于三十个(50?)的样本称为大样本,样本单位数不到三十个的样本称为小样本。样本个数(g):又称样本可能数目,是指从一个总体中抽取了多少个样本。基本概念:抽样误差抽样误差:指按照随机原则抽样时,样本指标与总体指标之间存在的误差。主要包括:总体平均数和样本平均数的误差;总体标准差和样本标准差的误差。基本概念:抽样平均误差为什么要研究抽样平均误差?未知实际误差未知:即使知道,由于样本均值是随机的,每次的误差也不一样。)(x均数的抽样误差与标准误例如,从总体均数μ=4.136mmol/L、标准差σ=0.817mmol/L的正态分布总体N(4.136,0.8172)中,随机抽取n人为一个样本(n=5,10,20,30),并计算该样本的均数、标准差。如此重复抽取1000次(g=1000),可得到1000份样本,可得到1000份均数和标准差S。XXS1.4.158,0.8182.4.090,0.8453.4.076,0.749┆999.4.187,0.7591000.4.079,0.839样本含量n=51000个正态总体=4.136=0.8171000份样本的均数和标准差均数的抽样误差与标准误将这1000份样本的均数看成新变量值,按频数分布方法,得到这1000份样本均数的直方图。随机抽样所得1000份样本均数的分布PERCENT0369121518212427M5MIDPOINT3.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.05.1当n=5时PER

1 / 112
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功