探索性数据分析-韩猛

zhaohn77
1 ℃
2020-05-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

描述统计方法韩猛一、制表方法-列联表(contingencytable)•表格是最常用的表达方式之一，我们以一个例子来说明表格是如何描述数据的•例2.1（Titanic.txt,Titanic.sav)这是著名的泰坦尼克号油轮的海难数据，包含4个定性变量（1）舱位等级：分为1st(一等舱）、2nt(二等舱）、3rd(三等舱)、船员(crew)四个水平；(2)性别(sex)：男性（Male)、女性（Female)两个水平；(3)年龄：儿童(Child)、成人(Adult)两个水平；(4)是否生还（Survived):分为否(No)、是(Yes)两个水平SexSurvivedNoYesMale1364367Female126344二、图描述方法•条形图(barchart,barplot,bargraph)用来描述那些已经用频数或频率汇总了的定性变量。一个坐标轴代表定性变量的各个取值，每个变量位置的条长度和其所代表的水平的频数或频率成比例。例2.2再以Titanic数据为例饼图(piechart)•饼图为一个由许多扇形组成的圆，各扇形的大小等于变量各个水平的频数比例。•适用于变量不是太多的情况。•例2.3（800Rich.txt,800Rich.sav数据）画出富人最多的前十个国家和地区的富人人数的饼图。直方图(histogram)•直方图是定量变量最常用的图表示之一，其做法是通常把横轴分成若干等宽度的区间，然后计算数据在各个区间上的频数，并在各区间上画出高度与数据在相应区间的频数成比例的矩形条。•例2.4（800Rich.txt,800Rich.sav数据）给出数据中800个富豪的净资产和年龄的直方图（取不同的区间划分）盒型图•描述数量变量的另一个图为盒型图，又称为箱图、箱线图、盒子图等（boxplot,box-and-whiskerplot)，是由一个盒子（box)和两边各一条线（whisker)组成。如果盒型图是竖着的（当然也可能是水平放着的），那么矩形盒子的上下两边分别代表上四分位数(thirdquantile)和下四分位数（firstquantile),盒子中间的一条线是中位数（median).盒子的长度等于上下四分位数之差，称为四分位间距或四分位极差（interquantilerange)•例2.5（800Rich.txt,800Rich.sav数据）给出数据中800富豪的净资产和年龄的盒型图茎叶图（stem-and-leafplot)•直方图和盒型图都对原始数据进行了简化和汇总，因此从这两个图不能恢复原始数据•茎叶图则在数据量不是太大的情况下，即显示了完全的原始数据，又显示了数据分布的形状•例2.6（800Rich.txt,800Rich.sav数据）给出数据中美国富人年龄的茎叶图散点图（scatterplot)•前面的各个图形仅代表了一个变量的观察数据，对于两个变量间的关系，则可以用散点图来描述。•例2.7（800Rich.txt,800Rich.sav数据）给出数据中美国富人年龄（横坐标）和净资产（纵坐标）的散点图。•例2.8（airport2.txt,airport.sav)数据是中国十个航空港从1995年1月到2003年12月的旅客吞吐量，给出改数据的散点图。•其他的图形还包括Chernoff)面孔图、马赛克图、星图、雷达图、泡泡图三、汇总统计量•1、关于位置的汇总统计量：样本均值、样本中位数、众数和样本分位数。•2、关于分散尺度的汇总统计量：样本方差、样本标准差、极差、四分位数间距、标准误差标准误差—如果取很多样本，就会得到很多均值，这些均值也有标准差，衡量这些均值标准差的统计量称为标准误差（standarderror,s.e.)s.e.=s/n^(1/2)•例2.9（riskwho.txt,riskwho.sav)这一数据来自于世界卫生组织关于各国情况的数据，我们这里仅考虑其中各国的人均收入（美元）。该数据把国家分成6个地区，这里采集欧洲46个国家和非洲44个国家的人均收入。这里关于位置的参数用的是中位数，尺度参数是极差•例2.10（F2000.txt,Forbes2000.sav数据)该数据是福布斯公布的全球2000个大企业的数据，下图展示了其中693家美国企业和58家德国企业的利润盒型图•3、标准得分、标准化和离群点标准得分（standardscore)申请出国留学的人都可能被要求提供推介信。推介信上往往要求推介人提供被推介人的各种能力在其班上处于上面百分之几的位置。比如某学生的英语表达能力属于最好的5%范围，这种相对位置所包含的信息要比绝对的打分要容易理解，如果要打分的话，可能所有的人都打满分或都打零分，但绝对不会是所有的人都属于最好的10%范围。•每个数据点在其样本中都有一个相对位置，对于这个位置的度量就是统计计量标准得分•例2.11(2income.txt,2income.sav)这一数据给出了随机抽取的地区1的275人和地区2的187人的月收入（元）各个地区的物价水平和消费水平都很不相同，因此各地区的贫富标准也应该不一样。如果用统一的标准来判断，那么在一个地区的首富在另一个地区就属于中下水准。这时如果想在地区1的一些人的收入相当于地区2的那种水平的收入，就需要得到两个地区的标准得分，然后再进行比较。•转换成标准得分的变化只是标准化（standardization)的一种，任何数据转换成标准得分后，他的均值都为0，方差为1.•在一些标准化中，观测值减去的有可能是中位数，分母也可能是极差，也可能把所有的数变换到某些区间中，例如[-1,1],[0,1]等等。有的统计量仅减去位置统计量，而不除以尺度统计量。这都根据需要而定，不能一概而论。•离群点（outlier)有人认为如果一个数据点的标准得分小于-3或者大于3，则可以粗略地说它是该数据的离群点。这一说法是基于正态分布数据中大约99.7%的数据点都落在均值的3个标准差范围之内的事实，也就是说如果是来自正态分布的总体，这种说法比较准确，但是当一个数据不是来自正态分布时，这种说法就不那么准确了。离群点的术语还经常用在回归模型中，他是描述残差大的点，离群是“远离”所选择的回归模型。因此，如果模型本身不合适那么所谓的“离群点”就不一定真的“离群”了。软件的使用•1制表R软件：例3.1中分别用ftable(Titanic,row.vars=2,col.vars=4);和ftable(Titanic,row.vars=c(2,3),col.vars=c(1,4))画出。语句中的row.vars后面是行所代表的变量号，第一个表的行是第二个变量Sex；第二个表的行是第二个和第三个变量Sex和Age.列类似•2作图图形用R绘图的基本函数直方图hist()盒型图boxplot()茎叶图stem()散点图plot()饼图pie()条形图barplot()图形用SPSS绘图的基本选项直方图Graphs-(新版：Interactive)-Histogram盒型图Graphs-(新版：Interactive)-Boxplot茎叶图、直方图、盒型图Analyze-DescriptiveStatistics-Explore-Plot散点图Graphs-Scatter/Graphs-Line/Graphs-Sequence(新版：Graphs-Interactive-Scatterplot)饼图Graphs-(新版：Interactive)-Pie条形图Graphs-(新版：Interactive)-Bar•计算汇总统计量软件选项R软件有了数据x之后用：summary(x),mean(x),sd(x),var(x),等等SPSS软件Analyze-DescriptiveStatistics-Frequencies/Explore/DescriptivesT2=ftable(Titanic,row.vars=4,col.vars=1);rownames(T2)=c(遇难,生还);colnames(T2)=c(一等舱,二等舱,三等舱,船员);par(mfrow=c(1,2));tt=barplot(T2,legend=rownames(T2),ylim=c(0,1050));title(main=泰坦尼克海难);tt=barplot(T2,legend=rownames(T2),beside=T,ylim=c(0,1050));title(main=泰坦尼克海难);