属性(定性)数据分析_SPSS应用方法(第一部分)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1研究方法II郑明郁文第一章:数据的描述统计学是研究怎样去有效地收集、整理和分析带有随机性的数据,以对所考察的问题做出推断或预测,直至为采取一定的决策和行动提供依据和建议。理解统计学,了解统计基本概念、基本方法;熟悉统计语言;并知道如何评价统计结果。珍惜您的数据信息技术的发展使企业的各级管理人员都面临巨大数量的数据现代化的管理离不开科学地积累和利用企业内外的各项数据了解和充分利用您的数据是企业管理水平的重要标志利用您的数据就是要分析您的数据,将数据中的信息变成有用的知识,为决策支持服务2《纽约时报》(2009年8月6日)统计是未来10年最炙手可热(性感)的专业,即每10个工作岗位中9个岗位需要统计。——Google的高管明确数据分析的目的一项数据分析任务在计划阶段就要明确以下几方面:分析的目的明确对象(总体)确定数据的由来,是否要抽样,要记录哪些指标采用的分析方法Example:1936U.S.presidentialelection,AlfLandonvsFranklinRoosevelt•October1936,LiteraryDigestconductedlargestpollinhistory(10millionvoters).•TheypredictedthatLandonwouldwinby4:3inshareofpopularvote.•Onemonthlater,Rooseveltwasre-electedwiththelargestmajorityinU.S.history.•Themagazinewentbankruptsoonafter.Whathappened?AFailedSurvey观测数据和实验数据数据收集有两种主要的方法:观测数据(Observationaldata):仅凭观测而非通过操作或控制事物所得到的数据。例环境的数据,民意测验数据和证券交易的数据实验数据(Experimentaldata):在实验中控制实验对象而收集到的变量的数据。如:新药试验中各阶段的临床实验数据3分析的对象—数据表在一项研究中,数据被收集后(不管是实验或观测的),由于它记录了许多对象的各种属性,通常以表格的形式存放。每一行表示一个个体(对象,观测)每一列表示一个变量(属性,指标)分析的对象—数据表通常企业的数据往往存放在不同的数据表中(尤其是记录日常运行的数据)。这时为了进行分析就必须将不同表中有用的数据拼接到新的一张表中。这项工作是必须的。而且往往需要花费很多精力。发现和剔除例外数据在数据分析开始之前和过程中,发现(或剔除)例外数据(Outlier)是保证数据分析质量的重要环节。例外数据是指个别观测有别于其它多数数据其取值特别的大或特别小分析的不同阶段可能发现不同的例外数据例外数据需认真对待:记录错误的要剔除,有的例外数据正是改进分析方法的依据数据的缺失值在数据的收集过程中,有时无法得到关心对象的所有项目的记录。这时在汇总数据表中某些记录的字段无法填入。通常用某些特殊符号表示。也称它们为缺失值(missingvalue)。在数据处理和分析中给以特殊的处理。413变量的类型数据表中各变量由其记录的形式来看可粗分为数值的(价格)和字符的(行业)各变量由其表示的内容可分为定性的(地区)和定量的(交易量)由其在分析中的作用又可分为区间型(interval)和分类型(Categorical)(包括有序的(Ordinal)和名义型(nominal))区间型(Interval)—数量型(Metric)(连续型)有序的(Ordinal)—顺序型(Rank)(p.204)名义型(Nominal)—分类型(Categorical)变量的类型变量按其含义来看可作如下分类:定量的(Quantitative)定性的(Qualitative)分类的(Categorical)}连续(区间)的(Continuous或Interval)连续的(Continuous)离散的(Discrete){有序的(Ordinal)名义的(Nominal){变量的类型定量的:连续的(Continuous):取值充满区间。例产值、交易量、体重等离散的(Discrete):只取不多的几个数值。例年龄、事故次数、每周的第几个交易日等定性的:有序的(Ordinal):取值有自然的次序关系。例型号、疗效等名义的(Nominal):取值无自然的次序关系。例性别、省份、品种等变量的类型—名义型变量的值之间无逻辑次序可按任何次序排序编码变量:饮料的种类5变量的类型—有序型变量:饮料杯的型号小中大有序变量的值有明确的逻辑次序,但各个值之间的距离并不清楚变量的类型—区间型变量:饮料的体积区间(连续)型变量的值有逻辑次序,且它们之间的距离也是有意义的变量的类型—区间型和名义型数值型字符型区间型(连续型)分类型(名义型,有序型)以连续变化尺度测量具有可进行分析的数值区间型(Interval)有数值或字符值用于作分类变量名义型(Nominal)有序型(Ordinal)数据的描述用数字描述数据详细数据:数据表本身汇总数据:名义型:不同类别的频数(个数)区间型:频数、均值、最大值等指标用图形描述数据详细数据:枝页图、散点图汇总数据:名义型:条形图、饼图、拼花图区间型:直方图、盒型图6数据的描述频数统计对数据表中的变量,要概括地描述它取不同数值的情况,就要给出:变量可能取到什么值取不同值的比例是多少这两者也称为变量取值的分布}22数据的描述频数统计在频数统计中可以得到变量可能取什么值以及取不同值的频数(frequency)、百分数(percent)、累积频数(cumulativefrequency)和累积百分数(cumulativepercent)数据的描述频数统计对于名义型变量其频数分布是仅有的最全面的统计特征对于区间型变量详细的频数分布并不适用,常用的是按变量取值分组后统计频数数据的描述用图形表示频数统计各种条形图和饼图是表示频数统计的图形工具。在这些图里都有一个区分不同类别的分类变量。该变量的每个值对应一个类别在条形图里,一个水平或垂直的“条”代表一个类别,条的长度表示频数或百分数在饼图中,饼的一角表示一个类别,一角饼的角度大小表示频数或百分数7数据的描述用图形表示频数统计26数据的描述分组统计频数和直方图对于区间(连续)型变量详细的频数分布并不适用。更多地是使用直方图直方图将连续变量的取值范围(均匀)地分为若干个组,然后统计变量在不同的组取值的频数,按这一过程制作的条形图常称为直方图数据不多时分组方式会影响直方图的形态数据的描述用图形表示频数统计与直方图类似的显示数据分布的还有盒型图、茎叶图、点线图等盒型图直方图茎叶图频数分布可以完整地描述数据取值的分布。但它需要用多个值来描述。有时需要用少数几个数值来描述变量取值的某一方面的特征。这就是要计算变量取值的汇总统计量。从功能看,最常用的有:描述中心位置的、描述数据变差的等从计算的类型看:矩型、基于顺序统计量等数据的描述计算汇总统计量8数据的描述计算汇总统计量从功能看,最常用的有:描述中心位置的、描述数据变差的等从计算的类型看:矩型、基于顺序统计量等中心位置分散度其它矩型均值基于分位数其它30数据的描述计算汇总统计量—各种中心位置变量值(样本):XXXn12,,....4,3,11,3,15,8niinXnnXXX111...:)(测个数所有观测值相加除以观均值Mean0.57/)85131134(x数据的描述计算汇总统计量—各种中心位置中位数是描述数据取值中心位置的一个指标。它将观测值分为个数相同的两组,使一半观测值小于等于这个数,另一半大于等于这个数。均值中位数数据的描述计算汇总统计量—各种中心位置4,3,11,3,15,8变量值:1,3,3,4,5,8,11排序:中位数(Median)49数据的描述计算汇总统计量—各种中心位置在茎叶图可以直接算出中位数盒型图直方图茎叶图数据的描述计算汇总统计量—各种中心位置中位数:很好地代表了一组数据的中点它的计算较为简单(基于数据的排序)它不受个别极端数据的影响它没有利用数据所有的信息均值:它利用了变量的每个观测值在多数情况下均值可用于进一步的分析数据的描述计算汇总统计量—各种中心位置众数(mode,峰值)就是在变量数据中出现次数最多的值。也就是在频数统计中对应频数(或百分数)最大的(分类变量的)值数据的描述计算汇总统计量—各种中心位置描述中心位置的统计量除了均值、中位数和众数外还有其他各种平均:加权平均修削平均(稳健性)观测值(x)权数(w)x*w10.50.520.40.830.10.31.612789212578981278921252278921211010数据的描述计算汇总统计量—描述数据的变差仅用数据的某个中心位置概括数据是不够的。还需要考虑数据的分散程度。数据的描述计算汇总统计量—描述数据的变差常用的描述数据分散程度的统计量有:极差(Range)方差(Variance)、标准差(StandardDeviation)四分位距(IQR—Interquartilerange)极差就是数据中最大值和最小值之差数据的描述计算汇总统计量—描述数据的变差极差就是数据中最大值和最小值之差XXXn12,,....4,3,11,3,15,8变量值:最大值=Max(Xi)=11,最小值=Min(Xi)=1极差=最大值-最小值=10•极差给出了数据变化范围的大小•极差便于计算•极差只受极端数据的影响Xi-5-1-26-2-403数据的描述计算汇总统计量—描述数据的变差Xi43113158¾ùÖµ£º5XiXi-5(Xi-5)24-113-24116363-241-416500839均值:570Var=11.67Std=3.42--niiXXnS122)(11:)(Variance方差--niiXXnSS122)(11:)(deviationStandard标准差XYXYiiSaSSaSbaXY||,,22211数据的描述计算汇总统计量—描述数据的变差方差和标准差是统计分析中最常用的描述数据分散程度的统计量方差是数据各个观测值相对与均值偏差平方的一种平均标准差就是方差的开方方差和标准差都是非负的数。两者为零表示变量的每个观测值只取同一个数值数据的描述计算汇总统计量—描述数据的变差---niiniinXXiXXSnSXXS121211)(:)(2:)(%100:)(:)()(:)(CSSUSSCVErrorStdDevStd校正平方和未校平方和变异系数标准误标准差数据的描述计算汇总统计量—描述数据的变差有时还用下列变异系(coefficientofvariation)数来描写数据的分散程度%100:XSCV变异系数•它是一个没有量纲的数数据的描述计算汇总统计量—描述数据的变差为了对不同变量的数据比较各个观测在整个数据中的位置,有时就将每个变量的数据分别进行标准化:•Yi又称为Xi的标准得分(StandardScore)•标准化后的数据的均值为0,方差和标准差都是1XiiSXXY-12数据的描述计算汇总统计量—分位数p分位数(Quantile)是这样的一个数,使小于或等于p-分位数的样本数约占样本总数的100p%,而大于等于p-分位数的样本数约占样本总数的100(1-p)%0.4分位数第40个百分数数据的描述计算汇总统计量—分位数0.5-分位数即中位数0.25-分位数称下四分位数(Q1)0.75-分位数称上四分位数(Q3)样本观测值:4,3,11,3,1,5,8(1,3,3,4,5,8,11)438(或其它)四分位距(IQR-Interquartilerange):Q3-Q15四分位距也是描写数据分散程度的一个统计量数据的描述计算汇总统计量—分位数盒型图形象地展示了与分为数有关的

1 / 60
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功