调查资料的处理与分析第一节调查资料的处理一、资料的审核调查资料审核是指对资料的准确性、时效性、全面性和系统性进行审核。任务:对市场调研资料进行的筛选,剔除无价值资料。1.原始资料的审核⑴对缺失值的处理①利用一个样本统计量的值去代替缺失值。通常使用样本变量的平均值。②利用从一个统计模型计算出来的值去代替缺失值。③将有缺失值的个案整个删除。④将有缺失值的个案保留,仅在相应的分析中作必要的排除。⑵对明显错误答案的处理多数情况以“不详值”对待。⑶对被调查者缺乏兴趣回答答案的处理①个别问卷作为废卷处理。②如果数目较多,且集中于某个或少数几个问题,作特殊编码处理。2.二手资料的审核⑴对文献资料的审核:客观性,真实性和时效性。⑵对引用统计资料的审核:指标口径和资料分组问题。二、调查资料的整理1.分组⑴分组及其原则分组是根据调查目的和所研究现象的本质特征,将现象按照一定的标志分成不同的组别。分组原则:①根据调查的目的来选择分组标志②选择最终能反映事物本质特征的标志③根据经济发展变化及历史条件选择分组标志⑵分组的作用①划分市场现象的类型②表明市场现象的内部结构③反映现象间的依存关系⑶分组标准与方法标准:①按品质标志分组是指按事物的特征进行分组。②按数量标志分组是指按事物量的特征进行分组。方法:①简单分组②复合分组收入阶层调查总体高20中50低30合计100年龄分组调查总体30岁以下2030~45岁4045~65岁2865岁以上12合计100收入性别年龄收入合计高中低男女男女男女30岁以下2355332030~45岁441010664045~65岁3377442865岁以上11332212合计1010242415151002.编码编码是将原始资料转化为易被计算机判读的数字规则,即用不同的数字代表不同的回答或资料。⑴编码的原则①与分类相适应原则②系统化原则③预留足够位置原则④标准化原则⑤兼容性和通用性原则⑵编码的类型①事前编码②事后编码3.汇总汇总是指按照调查的目的和要求,对分组后的调查资料、数据进行计算汇总和编辑,使之成为能系统、完整、集中、简明地反映调查对象客观情况的材料。任务:⑴按分组特征将总体各单位分别归类;⑵将总体单位的数量标志值分组汇总。方式:⑴手工汇总技术⑵计算机汇总第二节变量序列及其编制一、变量序列及其种类1.变量序列的概念变量序列是按照某种数量特征对总体进行分组,将分组后所形成的变量值按大小顺序排列所得到的序列。构成要素:①按分组变量进行分组所形成的各组变量值(x);②总体单位在各变量组的分布次数(f);③频率:各组总体单位分布次数占总体单位总数比重(W)。调查对象按月收入分组所得变量序列月收入(元)x分组人数(人)f频率(%)w500以下500~10001000~15001500~20002000~25002500~30003000以上1221154625382843215514326899.8%12.4%20.5%22.9%17.3%11.5%5.6%合计12424100%2.变量序列的种类⑴单值序列:各分组变量都是一个具体的变量值。适合于变量变异幅度不大、变量值数目有限的情况。⑵组距序列:各组变量是由两个变量值所限定的一个变动区间,且这个变动区域涵盖了其区间内的所有总体单位数。组距序列分为等距序列和不等距序列二、组距序列的编制1.确定变量的类型:⑴离散型变量:变量个数少、变动幅度不大,可编制单值序列;变量个数较多,变动幅度较大,应编制组距序列。⑵连续型变量:只能编制组距序列。2.确定组数和组距:⑴组数是指组距序列中分组的个数。组数的确定应以明确显示总体分布趋势为原则。数量标志变异范围越大,组数就应越多,反之就越少。⑵组距是每组变量的上限与下限之差。⑶确定组限和组中值①组限:位于各组组距两端的数值。A最小值为组的下限,最大值为组的上限B离散型变量采用顺序两个变量作为相邻织的上限和下限C连续型变量用一个数值作为两个相临组的上限和下限D遵循“上限不在内”的原则。②组中值:各组变量范围的中间数值,代表各组变量值的一般水平。组中值=(上限+下限)/2开口组组中值的确定:缺上限的开口组组中值=下限+邻组组距/2缺下限的开口组组中值=上限-邻组组距/2三、累积次数与累积频率1.向上累计(以下累计或称较小制累计)将各组频数和比率,由变量值低的组向变量值高的组逐组累计。组距序列中的向上累计,表明各组上限以下总共所包含的总体频数和比率有多少。2.向下累计(以上累计或称较大制累计)将各组频数和比率,由变量值高的组向变量值低的组逐组累计。组距序列中的向下累计,表明各组下限以上总共所包含的总体频数和比率有多少。按家庭年收入分组家庭数(户)比重(%)向上累积向下累积xfwfwfw(甲)⑴⑵⑶⑷⑸⑹10000以下10000~2000020000~3000030000~4000040000~5000050000~6000060000以上103040603020105152030151051040801401701902005204070859510020019016012060301010095806030155合计200100----家庭收入基本状况累积表某地区30户居民人均月收入基本情况表月收入(元)基本情况向上累计向下累计家庭数(户)频率(%)家庭数(户)频率(%)家庭数(户)频率(%)1400~15001500~16001600~17001700~18007415423.313.350.013.4711263023.336.686.6100.03023194100.076.763.413.4合计30100.0————第三节交叉列表技术一、双向交叉列表双向交叉列表是指将两个或两个以上有一定联系的变量及其变量值按照一定的顺序交叉排列在一张统计表内,使各变量值成为不同变量的结点,从中分析变量之间相关关系的一种数据分析技术。年收入水平和受教育程度相关关系表收入水平(百元)教育程度6以下6~1010~1515~2020~2525~3030~3535以上合计小学及文盲初中高中大专本科研究生2301356045404516135841459845835162263554519621613818521822116513714761168392139149219123132105329553345741351151786647321238407887166460合计7236193805355727605326614785二、三向交叉列表三向交叉列表是在双向交叉列表的基础上,加入第三个变量作进一步分析的方法。编制步骤:①选中一个变量,将其值稳定在各种变量值中的一个值上,②将另一个自变量和因变量作双向交叉分组;③将第一个变量稳定在其下一个变量值上,作另外两个变量的交叉列表,类推,直到第一个变量的所有变量值被一一列举完毕。某药品主要品牌的人群分布情况表品牌城市上海广州南京北京低收入中收入高收入低收入中收入高收入低收入中收入高收入低收入中收入高收入ABCD2290492360919290091297434098466012334603250603350140411014039614211402175114981158三、交叉列表分析变量的选择和确定第四节统计图的应用一、线图(时间序列图)线图适用于连续型数量资料,用以表示实物或现象在时间上的发展变化常用的线图有:单式线图和复式线图。横轴表示时间,纵轴表示与年份相对应的各种指标数值。0200400600800100012001400160018002000200120022003200420052006销售额(万元)050010001500200025002000200120022003200420052006销售额(万元)A企业B企业05001000150020002500时间1998199920002001200220032005销售额(万元)56067071010101540180021001234567销售额时间序列图二、柱形图(条形图)柱形图是以若干等宽平行长条的长短来表示品质属性序列中各组频数或频率大小的图形。当市场研究的目的在于对调查总体各组成部分的变量频率进行比较时,采用之。常用的柱形图有:单式柱形图和复式柱形图。图中各柱形要有同一基线,尺度必须从“0”开始。0200400600800100012001400160018002000200120022003200420052006销售额(万元)050010001500200025002000200120022003200420052006销售额(万元)A企业B企业市场各企业销售额(万元)5404504303702100100200300400500600竞争者1竞争者2竞争者3竞争者4本企业竞争者1竞争者2竞争者3竞争者4本企业三、圆图(饼图)圆图是用扇形的面积,来表示总体指标数值,圆形或饼形的各扇形面积代表各组指标数值,或代表各组的频率。当统计研究的目的是反映一个整体及其内部结构时,饼形图的利用将极为有效。圆图内不应包括太多的分组,且所有分组的比重之和必须等于100%。市场份额与市场潜量14%8%21%18%39%竞争者1竞争者2竞争者3本企业市场待开发市场4%36%31%18%11%专科生以下专科生本科生硕士生博士生四、直方图主要用于表示连续型定量变量的频数分布或频率分布。用横轴表示变量,其标度可以从任何合适的数字开始,纵轴一般用来表示频数或频率其标度通常从零开始。变量之间应具有相同的组距。36101925232113730510152025303.0~3.5~4.0~4.5~5.0~5.5~6.0~6.5~7.0~7.5~居民年收入(万元)频率第五节市场调查资料主要统计指标一、数据的分布指标1.相对频数指标:是所属组别的数据值占总数的比例。2.百分比频数指标:是指相对频数乘上100所得到的数值。二、数据的相对程度指标1.结构相对指标:是指总体各组成部分与总体数值对比求得的比重或比率,用来表明总体的构成情况结构相对指标(%)=各组总量指标数值/总体总量指标数值×100%2.比较相对指标:是指不同总体中同类现象指标数值之比。比较相对指标=某条件下的某项指标数值/另一条件下同项指标数值×100%3.比例相对指标:是指同一总体内不同部分的指标数值对比得到的相对数。它表明总体中各部分的比例关系。比例相对指标=总体中某部分指标数值÷总体中另一部分指标数值×100%4.强度相对指标:是指两个性质不同但有联系的总量指标对比得到的相对数。强度相对指标=某一总量指标总数÷另一性质不同而有联系的总量指标数值×100%三、数据的集中趋势指标1.众数:是指一组数据中重复次数最多的标志值。①单项分组数据资料众数确定②组距分组资料中计算众数下限公式:上限公式:式中,Mo代表众数,L代表众数组的下限,U代表众数组的上限,d代表组距,Δ1代表众数组次数与下限前边一组次数之差,Δ2代表众数组次数与上限后边一组次数之差。dLMo211dUMo2112.中位数(位置平均数):是指将一列变量值按大小顺序排列起来,处于中间位置上的数。①未分组资料中位数确定②分组资料中位数确定单项分组资料中位数主要考虑次数的分配情况,所以确定中位数的位置要用总累计次数/2计算,然后确定中位数的数值。组距序列中位数计算公式下限公式:上限公式:式中,L和U分别是中位数组的上与下限,i和f为中位数组的组距与频数,Fm-1是中位数组以下各组的累计次数(较小累进制),Fm+1是中位数组以上各组的累计次数(较大累进制)。fiFfLMem12fiFfUMem123.算术平均数:是指总体中各个变量值的总和除以这些变量值的个数所得的商。适合描述调查资料呈对称分布的集中趋势指标。算术平均数又可分为简单算术平均数和加权算术平均数。简单算术平均数:式中,xi为各变量值,n为变量个数。加权算术平均数:式中,fi为各组的频数,xi为各组