第七章数据的处理和分析本章学习目标了解数据处理和分析的基本原理掌握数据处理和分析的基本方法能运用数据处理和分析的基本原理和基本方法解决实际问题本章学习重点和难点重点数据处理和分析的基本原理数据处理和分析的基本方法难点数据处理和分析原理和方法在实际中的应用本章学习的内容第一节数据处理和分析的基本原理第二节数据处理和分析的基本方法第三节数据处理和分析的基本工具本章教学方法课堂讲授案例教学应用教学1、历史:关于所研究问题的历史演变过程、来龙去脉2、理论与方法:关于所研究问题所固有的理论与方法3、数据处理和分析的理论与方法:关于所研究问题所涉及到的数据的处理、分析,用数据说话,用模型总结规律,反过来以更好地支持所研究问题的理论和方法一个较为优秀的研究人员应具有的知识结构第一节数据处理和分析的基本原理一、数据处理和分析的基本功能二、数据处理和分析的基本内容一、数据处理和分析的基本功能四种功能:1、概括概括是将原始数据转变成一些有意义的计算结果的过程2、概念化是用准确的概念对所调研或计算的各种数据加以定义3、解释用数据解释现象和解释理论、总结规律4、推论通过样本的数据模型或特征来推论总体的情况二、数据处理和分析的基本内容在数据处理和分析中,应用什么数据处理和分析方法是由其研究内容决定的。不同的研究内容有不同的分析方法。从统计学的角度分析,主要有以下八方面的内容:1、特征分析:即所研究的对象具有怎样的特征?2、结构分析:即所研究的对象具有怎样的结构?3、动态分析:即所研究的对象在时间上的变化是怎样的?4、比较分析:即所研究的对象与某一特定对象相比,具有的优势是怎样的?又有哪些差距?存在的问题是什么?5、因素分析:即影响研究对象的因素有哪些?其中,主要因素是什么?影响的方式是怎样的?6、规律分析:即研究对象的运动形式是怎样的?所表现出的规律是什么?7、趋势分析:即研究对象的未来表现如何?将会出现怎样的发展趋势?8、可靠性分析:即在研究中所总结出的某些规律、对研究对象的未来的预见等,其可靠性究竟怎样?是否与人们的判断相一致?等等三、调查数据处理的程序问卷接收编辑和检查编码数据录入缺失值处理数据分析(一)问卷的接收为了保证问卷的质量,对于不同地区、不同调查员交来的问卷,应当认真仔细地做好接收、登记与核对工作。首先,要对问卷进行登记与编号;其次,要将无效问卷的进行剔除;最后,还要确定补充调查。一般事先需要专门设计登记表格,具体内容有:一二三四调查地区及编号,调查员姓名及编号;调查实施的时间,问卷交付的日期;问卷编号;实发问卷数、上交问卷数、未答或拒答问卷数、丢失问卷数等。(二)编辑和检查为了增加准确性,对那些初步接收的问卷还要进一步进行检查和校订。主要检查是否清楚可认,是否完全,是否一致以及是否明确不含糊等。一致性审核及时性审核准确性审核完整性审核调查问卷的审核对于检查出来的不满意问卷,常用以下方法进行处理:1.退回去重新填写;2.按缺失数据处理;3.丢弃。(三)编码编码是指用代码来表示各组数据资料使使其成为可进行计算机处理和分析的信息。编码可以按照预先编码或事后编码来进行。无论是哪种编码方式基本程序都包括以下几个方面:——确定变量——单选问题与多选问题的编码——无结构式(开放式)问题的编码——编码说明书及数据输出格式说明书(四)数据录入数据录入要求做到准确无误。控制录入误差的方法有:重复录入、预值控制、平衡检测。数据录入的主要方式:–直接录入–转录编码、录入挑选工作认真、有责任心、技术熟练的录入员;加强对录入员的监督管理;定期检查录入员的工作质量和工作效率;对录入的资料进厅抽样复查一二三四五二次录入(五)缺失数据处理缺失数据是指由于被调查者没有给出明确的答案或调查员没有记录下他们的答案而造成未知变量值。缺失数据处理可以使用以下几种方法:1.用一个样本统计量去代替;2.用某些统计模型进行推算;3.问卷整体剔除;4.部份排除。(六)调查资料的分析1.数据分析任务书数据分析任务书一般应明确列举以下内容:——编制变量标识和变量制标识。——需要制作的统计表。——需要制作的统计图。——需要进行的统计分析。2.选择适当的数据处理软件3.数据分析的基本方法频数分布。编制频数分布首先要对原始数据进行统计分组。在分组的基础上,把所有数据或总体单位按组归并、排列、形成所有数据或总体各单位在各组间的分布,称为频数分布。集中趋势的度量。集中趋势,是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平的代表值或中心值。统计平均数就是用来反映总体的一般水平和集中趋势的指标。离散趋势的度量。离中趋势是指一组数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势,又称标志变动度。离中趋势指标,是用来综合反映数据的离中程度的一类指标。常用的离中趋势指标有极差、分位差、平均差、方差、标准差、离散系数等。变量间关系的分析。市场现象之间的关系主要是相关关系。分析相关关系主要有相关表、相关图、相关系数等三种方法。第二节数据分析和处理的基本方法一、由其研究内容决定,统计学的分析方法主要有6种:1、描述分析法2、比较分析法3、动态分析法4、因素分析法5、模型分析法6、预测分析法1、描述分析法主要是运用相关的总量指标、相对指标、平均指标、标志变异指标等进行总结性的说明和分析,以说明某种状况。所以,从功能上来说,描述分析法主要有三大功能:第一、叙述功能。即用数据叙述某种事实。第二、论据功能。即用数据论证你的某种论点。第三、支持功能。即用数据支持你的某种论点。问题:总量指标、相对指标、平均指标、标志变异指标是什么?它们各包括哪些具体指标?2、比较分析法主要是运用相关的总量指标、相对指标、平均指标来说明和反映研究对象与某一特定的研究对象相比,研究对象所具有的优势、两者之间所存在的差距和不足。在各种条件相同的情形下,用总量指标进行比较,以说明总量上的差距;用相对指标和平均指标进行比较,以说明两者之间相对的差异;但如果某些条件并不相同,就不能运用总量指标进行比较说明,而只能运用相对指标和平均指标来进行比较说明。因为,总量指标不具有可比性。3、动态分析法有两类:一类是简单总体的动态分析;一类是复杂总体的动态分析。简单总体,是指某一单一总体或在数量上可以直接相加的总体。单一总体:只有一个变量的总体如甲产品的产量、价格在数量上可以直接相加的总体:如甲企业的产值和乙企业的产值复杂总体:在数量上不能直接相加的总体如:不同产品由于计量单位不同,其产量是不能直接相加的简单总体的动态分析方法是:速度分析法主要运用发展速度和增长速度来分析和说明。复杂总体的动态分析方法是:指数分析法主要运用综合指数、平均指数和平均指标指数来分析和说明。4、因素分析法也有两类:一类是指数体系分析法一类是组成要素分析法指数体系分析法是运用指数体系进行因素分析的方法又分为两因素分析法和多因素分析法主要从相对数和绝对数两方面进行分析(1).两因素分析法销售额=销售量×单位产品价格销售额指数=销售量指数×单位产品价格指数相对数形式:)()(001010110011qpqpqpqpqpqp001010110011qpqpqpqpqpqp绝对数形式:其指数体系为:(2).多因素分析法原材料费用总额=总产量×单位产品原材料消耗量×单位原材料价格单位原材料价格指数原材料费用总额指数=总产量指数×单位产品原材料消耗量指数×000111pmqpmq000001pmqpmq)()()(011111001011000001pmqpmqpmqpmqpmqpmq000111pmqpmq011111pmqpmq001011pmqpmqpmqqmpKKKK组成要素分析法其主要特征是各组成要素之关系表现为“和”的关系。主要做贡献率内容的分析基本模型为:设:A=A1+A2+A3则:A1的贡献率为:A1/A×100%A2的贡献率为:A2/A×100%A3的贡献率为:A3/A×100%5、模型分析法主要是根据变量之间的关系构建回归模型。通过模型说明研究对象的运动方式、运行规律和主要的特征,也可以进行因素分析。最重要的是两种分析方法:相关分析法回归分析法6、预测分析法一方面可以运用所构建的回归模型进行趋势的预测分析另一方面,可以通过特有的统计预测方法进行趋势的预测分析,如指数平滑法等二、应用于营销调查的统计分析类型描述分析DescriptiveAnalysis推断分析InferentialAnalysis差别分析DifferencesAnalysis联合分析AssociativeAnalysis预测分析PredictiveAnalysis五种统计分析概述类型功能说明统计概念描述数据压缩均值、中值、众数、频率分布、标准差推理决定总体参数,检验假设标准误差,零假设差别确定组与组之间是否存在差异差别的统计检验和方差分析联合确定联系相关性,交叉表预测以统计模型为基础进行预测时间序列,回归分析解读营销调查中的描述统计指标中位数在营销调查中的作用众数在营销调查中的作用均值在营销调查中的作用频率分布在营销调查中的作用标准差在营销调查中的作用中位数在营销调查中的的作用中位数可以确定样本在某一变量的分布上的位置特征。四分位数、八分位数和十六分位数,甚至百分位数是可以将分布特征刻画得更细致。例如:StatisticsQ71=组织能力强弱5108,068,00101,7933,2163104116,007,008,008,009,0010,0010,00ValidMissingNMeanMedianModeStd.DeviationVarianceMinimumMaximumSum12,52537,55062,57587,5Percentiles八分位数四分位数中位数十六分位数十六分位数用人单位对市场营销专业人员关于组织能力的重要程度的看法众数在营销调查中的作用Q71=组织能力强弱10,09,08,07,06,05,04,03,0Q71=组织能力强弱Frequency1614121086420Std.Dev=1,79Mean=8,1N=51,00众数可以直观地表达样本在某变量的集中趋势均值在营销调查中的作用均值可直接反映样本在某变量下的集中趋势DescriptiveStatistics50163,341,28750Q9=薪水多少合适ValidN(listwise)NMinimumMaximumMeanStd.Deviation薪酬在1200-1280之间频率分布在营销调查中的作用频率能够显示样本在某变量下的分布状况Q3=招聘数量47,89,89,8815,719,529,31019,624,453,747,89,863,435,97,370,735,97,378,012,02,480,5713,717,197,612,02,4100,04180,4100,01019,651100,012345671030TotalValidSystemMissingTotalFrequencyPercentValidPercentCumulativePercent标准差在营销调查中的作用标准差能够反映均值的代表性及样本在某变量下的分布StatisticsQ3=招聘数量41105,023,0034,96724,6743,406,36915,622,7241302062,002,003,003,004,256,0010,00ValidMissingNMeanMedianModeStd.DeviationVarianceSkewnessStd.ErrorofSkewnessKurtosisStd.ErrorofKurtosisMinimumMaximumSu