统计学基础知识

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章统计分析基础知识统计学:是一门收集、分析、展示和解释数据的艺术和科学。埃及金字塔与“人口金字塔”艺术性:统计方法的应用具有技巧性、技术性,它展现数据时往往让我们能享受美感和实用统计学研究对象:收集数据;分析数据我该什么时间上网?收集数据时间上网比例时间上网比例时间上网比例0点14.50%8点11.80%16点31.20%1点5.60%9点22.50%17点27.70%2点4.20%10点24.60%18点22.10%3点2.60%11点22.60%19点31.30%4点2.50%12点22.60%20点44.00%5点1.60%13点24.30%21点43.90%6点1.70%14点28.60%22点35.00%7点2.70%15点31.40%23点22.20%互联网的用户人数及分布、信息流量分布、域名注册等信息以及用户每月实际花费的上网费用、用户平均每周上网时间、用户通常在什么时间上网等资料都可以从电讯局或网络公司的业务记录中获得。整理数据用户通常上网时间展示数据。互联网上各时间段的使用比例分析数据:晚上的八九点钟是上网的高潮,而清晨五六点钟则上网的人最少。作出决策:为高效率改变一下习惯,早点起就可享受到在网上飞驰的感觉统计学应用领域:统计学为有史以来最大的公共健康试验——1954年脊髓灰质炎疫苗试验提供了有效的试验设计,为人类首次攻克脊髓灰质炎作出贡献。天气预报就是应用大气变化的规律,根据当前及近期的天气形势,对未来一定时期内的天气状况进行预测,这种预测不过是未来天气状况的概率分布。1981年,首届国际《红楼梦》研讨会在美国召开,威斯康星大学讲师陈炳藻独树一帜,宣读了题为《从词汇上的统计论〈红楼梦〉作者的问题》的论文。他从字、词出现频率入手,通过计算机进行统计、处理、分析,对《红楼梦》后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。(语言统计学)大仲马有很多私生子,往往成为别人取笑讥讽的对象,最使他头痛的是巴黎统计学会的秘书长李昂纳,每次举统计数字的例子,总是说大仲马的情妇和私生子有多少。有一年该统计学会开年会,大仲马估计,李昂纳又要大放厥词,说他的坏话了。于是他请求参加年会,获得了批准,果然不出大仲马所料,李昂纳又举他的情妇和私生子的例子。李昂纳报告完毕,请大仲马致词。一向不愿在大庭广众之下发表演讲的大仲马,这次却破例登台说:“所有统计数字都是撒谎的,包括有关本人的数字在内。”听众哄堂大笑。统计学家调侃数学家:你们不是说若X=Y且Y=Z,则X=Z吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?数学家的幽默数学家反问道:那么你把左手放到一锅100℃的开水中,右手放到一锅0℃的冰水里想来也没事吧!因为它们平均不过是50℃而已!”统计学的内容从统计方法的构成来分,统计学可以分为描述统计学和推断统计学1.描述统计学(DescriptiveStatistics)描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。2.推断统计学(InferentialStatistics)推断统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。第一节:统计学基本概念一、总体和样本总体:同质事物的全体,通计学上的总体指的是包含所有个体某种性状观测值的集合。总体容量(N):总体所包含个体数目的多少。无限总体:总体所包含的个体数目有无穷多个有限总体:由有限个个体构成的总体样本总体中抽取的若干个个体组成的集合。样本容量(n):样本所包含个体数目的多少大样本:n30小样本:n30二、参数和统计数参数:有总体中的观测值计算得到的特征数,它反映的是总体的特征和规律。比如总体平均数、总体方差、总体标准差等统计数:有样本中的观测值计算得到的特征数,它反映的是样本的特征和规律。比如;样本平均数、样本方差、样本标准差等三、数据和变量数据:组成总体或样本的观测值变量:相同性质的事物间表现出差异性和差异特征的数据,它们在一定范围内波动。变量:随机性变量:由于偶然因素引起数据产生波动性。非随机性变量:由于非偶然因素引起数据产生变化。变量:连续性变量:在一定范围内可以抽取所有可能取值的变量离散性变量:只能取固定数值的变量。四、误差和错误误差:观测值与真实值之间的差。误差偶然误差:无法控制的偶然因素所引起的误差。无法预知,不可避免,只能减小,不能完全消除。系统误差:有某些固定因素引起的误差,大小、符号、方向基本相同。校正后可以完全消除。错误:人为因素所引起的差错。四、准确性和精确性准确性:统计数与参数之间的相符性。精确性:样本内各观测值之间的接近程度。准确性与精确性之间有何关系?第二节统计特征数的计算一、集中性的度量(一)算术平均数:总体或样本中各个观察值的总和除以观察值个数所得的商数。xNxNNxxxNiiN11121xnxnnxxxxnin11121加权平均数某农场有5块小麦地,其面积分别是10、20、40、15、15亩,其产量分别是300、250、200、150、300公斤/亩,整个农场的平均产量是多少公斤/亩fxfffffxfxfxxnnn212211亩/5.22715154020103001515015200402502030010kgx算术平均数的性质:0)(xx22)()(axxx算术平均数的作用:1、指出了总体或样本中观测值的中心位置。2、可以作为总体或样本的代表与其它的总体或样本作比较。(二)中数:将资料内所有观察值从大到小排序,居中间位置的观察值称为中数(median),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。(三)众数资料中最常见的一数,或次数最多一组的中点值,称为众数(mode),计作MO。如棉花纤维检验时所用的主体长度即为众数。(四)几何平均数如有n个观察值,其相乘积开n次方,即为几何平均数(geometricmean),用G代表。nnxxxG21(五)调和平均数如有n个观察值,观测值倒数平均数的倒数。)111(1121nxxxnH例:土壤水分在毛细管中的上升速率,从土壤表面下30cm量起,第一个10cm、第二个10cm、第三个10cm土壤毛管水的上升速率分别为:8cm/min、6cm/min、4cm/min,求毛管水的平均上升速率。min)/(1372)416181(311cmH验证:)(min1265410610810时间上升30cm需要的总(cm/min)1372126530平均上升速率二、变异性的度量X18.99.49.69.79.910.410.911.011.2X22.93.13.85.19.910.017.018.021.2这两个样本具有相同的算术平均数:10.11;相同的中数:9.9,都没有众数。(一)极差(range):又称全距,记作R,是资料中最大观察值与最小观察值的差数。}xx,xmin{}xx,xmax{Rn21n212.38.911.2R118.32.921.2R2极差在一定程度上反映了数据的变异程度,但它只受两个极端值的影响,并不能反映其它观测值的变异程度,所以用极差来反映数据的变异程度是粗糙的,有缺陷的。(二)方差:平均离均差平方和。N)x(221n)xx(S22xx2)(xxnxx2)(某一个观测值的变异程度所有观测值总的变异程度平均下来每一个观测值变异程度。自由度(df):是指样本内独立而能自由变动的观测值个数。例如一个有5个观察值的样本,因为受统计数的约束,在5个离均差中,只有4个数值可以在一定范围之内自由变动取值,而第五个离均差必须满足。如一样本为(3,4,5,6,7),平均数为5,前4个离差为-2,-1,0和1,则第5个离均差为前4个离均差之和的变号数,即-(-2)=2。一般地,样本自由度等于观察值的个数(n)减去约束条件的个数(k)。。kndfnxxxx222)()(NNxxNx2222)()(1)(1)(2222nnxxnxxSsample1912.116.94.99.8x24.9252.116.94.99.822222x641.01999124.92522sX18.99.49.69.79.910.410.911.011.2sample2912.218.31.39.2x92.13182.218.31.39.222222x851.491999192.131822sX22.93.13.85.19.910.017.018.021.2(三)标准差NNxxNx222)()(1)(1)(222nnxxnxxS80.0641.01999124.92521s(四)变异系数%100xSCV06.7851.491999192.131822s例:比较甲乙两个生产单位的小麦产量的均衡性。甲:400430370kg/亩乙:175200225kg/亩亩/3013312004818001)(1)(211212112111kgnnxxnxxS亩/4001kgx亩/12003704304001kgx222221)/(481800370430400亩kgx亩/251336001212501)(1)(212222222222kgnnxxnxxS亩/2002kgx222222)/(121250225200175亩kgx亩/6002252001752kgx%5.7%100%10040030111xscv%5.12%100%10020025222xscvMicrosoftExcel对统计特征数的计算集中性度量的计算算术平均数:AVERAGE中数:MEDIAN众数:MODE几何平均数:GEOMEAN调和平均数:HARMAN变异性度量的计算极差:MAX(最大值)-MIN(最小值)方差(样本):VAR方差(总体):VARP标准差(样本):STDEV标准差(总体):STDEVP和:SUM离均差平方和:DEVSQ第三节次数分布观测值如果不加整理,很难看出其中的规律,如果吧观测值按大小或数据类别进行分组,制成观测值的次数分布表或次数分布图,能初步明确观测值所蕴含的内部规律。一、离散型变量的次数分布例.现以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗小穗数,未加整理的资料列成表。18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717151716181918181919201716191817182019161819171615161817181717161917100个麦穗的每穗小穗数每穗小穗数在15—20的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。每穗小穗数(y)次数(f)1561615173218251917205总次数(n)100100个麦穗每穗小穗数的次数分布表如每穗小穗数主要分布在17~18个,以17个为最多100个麦穗的小穗数05101520253035151617181920小穗数次数200个稻穗每穗粒数的次数分布表每穗粒数(y

1 / 108
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功