统计学1 数据的搜集、整理与显示

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

实验目的实验内容学习如何应用R软件对数据进行整理与显示1、统计方法简介2、应用实例3、实验作业统计学知识统计研究的过程收集数据(取得数据)整理数据(处理数据)解释数据(结果说明)分析数据(研究数据)实际问题统计分析方法统计方法描述统计推断统计参数估计假设检验描述统计(descriptivestatistics)1.内容–整理数据–展示数据–描述性分析2.目的–描述数据特征–找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105推断统计(inferentialstatistics)1.内容参数估计假设检验2.目的对总体特征作出推断样本总体描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据统计的应用领域统计学经济学管理学医学工程学社会学…统计数据的分类统计数据的分类按计量层次分类的数据顺序的数据数值型数据按时间状况截面的数据时序的数据按收集方法观察的数据试验的数据统计数据的分类(按计量尺度分)1.分类数据(categoricaldata)–对事物进行分类的结果–数据表现为类别,用文字来表述–例如,人口按性别分为男、女两类2.顺序数据(rankdata)–对事物类别顺序的测度–数据表现为类别,用文字来表述–例如,产品分为一等品、二等品、三等品、次品等3.数值型数据(metricdata)–对事物的精确测度–结果表现为具体的数值–例如:身高为175cm、168cm、183cm统计数据的分类(按收集方法分)1.观测的数据(observationaldata)–通过调查或观测而收集到的数据–在没有对事物人为控制的条件下而得到的–有关社会经济现象的统计数据几乎都是观测数据2.试验的数据(experimentaldata)–在试验中控制试验对象而收集到的数据–比如,对一种新药疗效的试验,对一种新的农作物品种的试验等–自然科学领域的数据大多数都为试验数据统计数据的分类(按时间状况分)1.截面数据(cross-sectionaldata)–在相同或近似相同的时间点上收集的数据–描述现象在某一时刻的变化情况–比如,2002年我国各地区的国内生产总值数据2.时间序列数据(timeseriesdata)–在不同时间上收集到的数据–描述现象随时间变化的情况–比如,1996年至2002年国内生产总值数据总体和样本1.总体(population)–所研究的全部元素的集合,其中的每一个元素称为个体–分为有限总体和无限总体•有限总体的范围能够明确确定,且元素的数目是有限的•无限总体所包括的元素是无限的,不可数的2.样本(sample)–从总体中抽取的一部分元素的集合–构成样本的元素的数目称为样本容量参数和统计量1.参数(parameter)–研究者想要了解的总体的某种特征值–所关心的参数主要有总体均值()、标准差()、总体比例()等–总体参数通常用希腊字母表示2.统计量(statistic)–根据样本数据计算出来的一个量–所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等–样本统计量通常用小写英文字母来表示变量(Variable)1.说明现象某种特征的概念–如商品销售额、受教育程度、产品的质量等级等–变量的具体表现称为变量值,即数据2.变量可以分为–分类变量(categoricalvariable):说明事物类别的一个名称–顺序变量(rankvariable):说明事物有序类别的一个名称–数值型变量(metricvariable):说明事物数字特征的一个名称•离散变量:取有限个值•连续变量:可以取无穷多个值统计中的几个基本概念平均数标准差比例参数统计量xsp总体样本几种常用的统计软件(Software)•典型的统计软件–SAS–SPSS–MINITAB–STATISTICA–S-PLUS–R–Excel§1数据的搜集§1.1数据的来源§1.2调查数据§1.3实验数据§1.4数据的误差§1.5数据文件学习目标1.数据的来源2.搜集数据的调查方法3.问卷设计4.搜集数据的实验方法5.数据的误差6.数据的质量要求系统外部的数据1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料数据的间接来源§1.1数据的来源系统内部的数据1.业务资料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等二手数据的特点1.搜集容易,采集成本低2.作用广泛–分析所要研究的问题–提供研究问题的背景–帮助研究者更好地定义问题–检验和回答某些疑问和假设–寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑二手数据的评估1.数据是谁搜集的?–可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?数据的直接来源(原始数据)1.调查数据–通过调查方法获得的数据–通常是对社会现象而言–通常取自有限总体2.实验数据–通过实验方法得到的数据–通常是对自然现象而言–也被广泛运用到社会科学中•如心理学、教育学、社会学、经济学、管理学等抽样方法图表标题抽样方式概率抽样非概率抽样简单随机抽样分层抽样整群抽样系统抽样多阶段抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样§1.2调查数据概率抽样与非概率抽样的比较1.概率抽样–依据随机原则抽选样本–样本统计量的理论分布存在–可根据调查的结果推断总体2.非概率抽样–不是依据随机原则抽选样本–样本统计量的分布是不确定的–无法使用样本的结果推断总体搜集数据的基本方法搜集数据的基本方法调查的数据实验的数据自填式面访式电话式各调查方法的比较自填式面访式电话式调查时间慢中等快捷调查费用低高低问卷难度要求容易可以复杂要求容易有形辅助物的使用中等利用充分利用无法利用调查过程控制简单复杂容易调查员作用的发挥无法发挥充分发挥一般发挥回答率最低较高一般实验租和对照组1.将研究对象分为两组:实验组和对照组2.实验组和随机组的产生应遵循随机原则,而且应该匹配–匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组§1.3实验数据实验中的若干问题1.人的意愿–研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战2.心理问题–人们对被研究非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端3.道德问题–当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地实验中的统计1.实验设计本身就是一个统计问题2.确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果3.将统计的思想融入到实验设计中,使实验设计符合统计分析的标准4.对实验数据进行分析时,统计可以提供最恰当的分析方法抽样误差抽样框误差回答误差无回答误差调查员误差非抽样误差数据的误差§1.4数据的误差抽样误差(samplingerror)1.由于抽样的随机性所带来的误差2.所有样本可能的结果与总体真值之间的平均性差异3.影响抽样误差的大小的因素–样本量的大小–总体的变异性非抽样误差(non-samplingerror)1.相对抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中–概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差误差的控制1.抽样误差可计算和控制2.非抽样误差的控制–调查员的挑选–调查员的培训–督导员的调查专业水平–调查过程控制•调查结果进行检验、评估•现场调查人员进行奖惩的制度统计数据的质量要求•1.精度:最低的抽样误差或随机误差•2.准确性:最小的非抽样误差或偏差•3.关联性:满足用户决策、管理和研究的需要•4.及时性:在最短的时间里取得并公布数据•5.一致性:保持时间序列的可比性•6.最低成本:以最经济的方式取得数据§2数据的整理与显示§2.1数据的预处理§2.2分类和顺序数据的整理与显示§2.3数值型数据的整理与显示§2.4统计表学习目标1.了解数据预处理的内容和目的2.掌握分类和顺序数据的整理与显示方法3.掌握数值型数据的整理与显示方法4.用R作频数分布表和形图5.合理使用统计表1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征§2.1数据的预处理数据审核—原始数据(rawdata)•审核的内容1.完整性审核–检查应调查的单位或个体是否有遗漏–所有的调查项目或指标是否填写齐全2.准确性审核–检查数据是否真实反映客观实际情况,内容是否符合实际–检查数据是否有错误,计算是否正确等数据的审核—原始数据(rawdata)•审核数据准确性的方法1.逻辑检查–从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象–主要用于对分类和顺序据的审核2.计算检查–检查调查表中的各项数据在计算结果和计算方法上有无错误–主要用于对数值型数据的审核数据的审核—二手数据(secondhanddata)1.适用性审核–弄清楚数据的来源、数据的口径以及有关的背景材料–确定数据是否符合自己分析研究的需要2.时效性审核–尽可能使用最新的数据3.确认是否必要做进一步的加工整理数据筛选(datafilter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔1.要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2.对分类数据和顺序数据主要是做分类整理3.对数值型数据则主要是做分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据§2.2分类和顺序数据的整理与显示分类数据的整理(基本过程)•1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类频数比例百分比比率ABCDE分类数据的整理(可计算的统计量)1.频数(frequency):落在各类别中的数据个数2.比例(proportion):某一类别数据占全部数据的比值3.百分比(percentage):将对比的基数作为100而计算的比值4.比率(ratio):不同类别数值的比值分类数据整理—频数分布表(例题分析)【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据用R制作频数分布表例1读取某公司雇员数据(SPSS数据文件),保存为R数据文件,指定因子各水平的标签,分析性别、是否少数民族、工作类型、教育程度等频数分布。•y=read.spss('E:/R/Employeedata.sav',use.value.labels=F,to.data.frame=T,max.value.labels=Inf,trim.factor.names=FALSE)•Names(y);•[1]IDGENDERBDATEEDUCJOBCATSALARY•[7]SALBEGINJOBTIMEPREVEXPMINORITY•y•y$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c(Yes,No),exclude=NA,order=F)•y$JOBC

1 / 133
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功