市场研究中的数据分析方法（PPT52页)

vincentneo
1 ℃
2019-10-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

市场研究的数据分析方法第一节线性回归分析一、线性回归方程的基本模型•线性回归方程从样本资料出发，一般利用最小二乘法，根据回归直线与样本数据点在垂直方向上的偏离程度最低的原则，进行回归方程的参数的求解。•线性回归分析是考察变量之间的数量关系变化规律，它通过一定的数学表达式---回归方程，来描述这种关系，以确定一个或几个变量的变化对另一个变量的影响程度，为预测提供数学依据。1、一元线性回归模型模型是：式中：为被解释变量（因变量）；为解释变量（自变量），是随机误差项，i为观测值下标，n为样本容量，与是待估参数，称为回归常数，为回归系数。ii10ixyyx01012、多元回归模型多元线性回归模型中自变量的个数在2个以上，模型的一般形式为：i=1,2…n其中，为被解释变量（因变量），为解释变量（自变量），是随机误差项，i为观测值下标，n为样本容量，为k+1个待估参数，为回归常数，称为回归系数。ikiki22i110ix...xxyyk21x,...,x,xk210,...,,,k21,...,,0在应用线性回归模型时，必须满足以下假设：•（1）解释变量是确定性变量，而且解释变量之间不相关。•（2）随机误差项具有0均值和同方差。•（3）随机误差项在不同样本点之间是独立的，不存在序列相关。•（4）随机误差限于解释变量之间不相关。•（5）随机误差项服从0均值和同方差的正态分布。k21x,...,x,x二、线性回归方程的统计检验1、回归方程拟合优度检验2、回归方程的显著性检验3、回归系数显着性检验三、回归分析假设条件的检验1、残差分析2、多重共线性3、误差项的序列相关四、线性回归分析的基本步骤1、确定回归中的自变量和因变量。2、从收集到样本资料出发确定自变量和因变量之间的数学关系，即建立回归方程。3、对回归方程进行各种统计检验。4、利用回归方程进行预测。•例：CheckersPizza公司是休斯敦附近Westbury镇上仅有的从事比萨饼送货业务的两家公司之一，其直接竞争对手是欧文公司，提供相同的产品与服务。另外麦当劳也是它的一个重要竞争者。在过去的24个月中，该公司的销售量(Q)、价格(P)，小镇上居民的人均收入(M)，欧文公司产品的价格（P欧文）以及麦当劳产品的价格（P麦当劳）。假定下个月公司产品价格为9.05，人均收入为26614元，欧文公司产品的价格10.2元，麦当劳产品的价格为1.15元，请预测该公司下个月的销售量。五、实例分析首先CheckersPizza公司根据资料估计下面的线性需求方程的参数：Q=a+bP+cM+dP欧文+eP麦当劳式中:•Q—比萨饼的销量；•P—比萨饼的价格•M—小镇居民的人均收入•P欧文—欧文公司产品的价格•P麦当劳—麦当劳产品的价格下面是SPSS11.0的输出结果：ModelSummary.985a.970.96434.70896Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),P麦当劳,P欧文,M,Pa.ANOVAb736912.314184228.078152.923.000a22889.523191204.712759801.8323RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),P麦当劳,P欧文,M,Pa.DependentVariable:Qb.Coefficientsa-343.784414.076-.830.417-195.89511.041-1.037-17.743.0007.472E-02.010.4057.359.000174.40331.712.2325.500.00081.05722.166.1663.657.002(Constant)PMP欧文P麦当劳Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:Qa.•从上面的输出结果可以看出，模型可以解释97%的比萨饼销售量的变化；模型整体非常显著，F统计的相伴概率值P=0.000；四个参数b、c、d、e非常显著，T统计的相伴概率值P都远小于0.01。•所以，回归方程为：Q=-343.748-195.895P+0.0742M+174.403P欧文+81.057P麦当劳•该公司下一个月比萨饼的销量为;Q=-343.748-195.895*9.05+0.0742*26614+174.403*10.2+81.057*1.15＝1730.2872第二节判别分析一、判别分析法的基本思想判别分析包括以下两步：1、分析和解释各类指标之间存在的差异，并建立判别函数。2、以第一步的分析结果为依据，将对那些未知分类属性的案例进行判别分类。二、判别分析基本模型与统计术语（一）假设条件1、每一个类别都取自一个多元正态总体的样本2、所有正态总体的协方差矩阵或相关矩阵都相等（二）基本模型1、先验概率2、后验概率3、判别系数4、结构系数5、分组的矩心6、判别力指数7、残余判别力（三）统计术语三、分析的基本步骤判别分析一般都是通过现成的统计软件进行分析。一般而言，利用统计软件的判别分析具体包括以下步骤：确定研究的问题获取判别分析的数据进行判别分析评价和解释分析结果•某公司生产一新产品，该公司在新产品末大量上市以前，进行了一次市场调查。公司将新产品寄给十五个代理商，并附意见调查表，要求对该产品给予评估并说明是否愿意购买。评估的因素有：式样、包装及耐久性。评分用10分制，高分表示特性良好，低分则较差。其中有三位代理商没有表明自己的购买意愿。•那么这些代理商是属于“非购买组”还是“购买组”？四、实例分析以下是SPSS11.0的部分输出结果:StandardizedCanonicalDiscriminantFunctionCoefficients.910.083.254式样包装耐久性1Function表中，式样、包装和耐用性的标准化系数分别为0.91、0.083、0.254。因而，式样是最重要的判别变量，其次是“耐用性”，最后是包装。CasewiseStatistics11.50011.000.4542.00017.8772.15511.4201.969.6512.0317.548.67411.16411.0001.9352.00024.4522.87211.6481.991.2082.0099.5951.02411.9251.999.0092.00113.3131.57511.9691.998.0012.00212.3581.44211.3911.963.7362.0377.269.62322.6181.989.2491.0119.336-1.57522.7601.995.0941.00510.550-1.76722.1311.7212.2811.2794.177-.56322.57211.000.3191.00016.962-2.63822.08011.0003.0641.00028.136-3.823ungrouped2.3871.962.7481.0387.230-1.208ungrouped1.6481.991.2082.0099.5951.024ungrouped2.7991.996.0651.00410.885-1.81811.66331.0001.5842.00018.18911.8003.9611.0062.0397.39811.17831.0004.9102.00031.80011.2473.9644.1422.03610.72412**.0003.97485.9341.02693.19411.8623.996.7482.00411.65511.6463.9451.6602.0557.36222.9343.984.4281.0168.69822.0623.9467.3201.05413.04221**.09131.0006.4572.00021.79022.57431.0001.9941.00017.42822.02731.0009.2081.00045.539CaseNumber123456789101112131415123456789101112OriginalCross-validatedaActualGroupPredictedGrouppdfP(Dd|G=g)P(G=g|D=d)SquaredMahalanobisDistancetoCentroidHighestGroupGroupP(G=g|D=d)SquaredMahalanobisDistancetoCentroidSecondHighestGroupFunction1DiscriminantScoresFortheoriginaldata,squaredMahalanobisdistanceisbasedoncanonicalfunctions.Forthecross-validateddata,squaredMahalanobisdistanceisbasedonobservations.Misclassifiedcase**.Crossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.a.表中最大概率组一栏是判别分析得出的组别。13、15号代理商属于“非购买组”，14号代理商属于“购买组”。第三节聚类分析一、聚类分析的基本思想•聚类分析(又称数字分类学)是新近发展起来的一种研究分类问题的多元统计分析方法。•样品聚类是对事件进行聚类，或是说对观测量进行聚类，是对反映被观测对象的特征的变量值进行分类。•变量聚类则是当反映事物特点的变量很多时，根据所研究的问题选择部分变量对事物的某一方面进行研究的聚类方法。二、距离与相似系数（一）常用的距离指标有•1、欧式距离•2、欧式距离的平方•3、曼哈顿距离•4、切比雪夫距离（二）常用的相似系数指标主要有1、余弦系数2、皮尔逊相关系数（三）定类数据的距离1、卡方距离2、法方距离三、聚类方法1．层次聚类法2．迭代聚类法四、聚类分析的主要步骤确定研究的问题计算相似性聚类聚类结果的解释和证实•某家具公司为了对市场进行的细分，对购买家具的顾客进行了一次市场调查。这次调查的指标有：喜爱的款式（老式为1，新式为2），图案（素式为1，格字为2，花纹为3）；颜色（蓝色为1，黄色为2，红色为3，绿色为4）。调查样本为30人。五、实例分析：顾客式样图案颜色123456789101112131415161718192021222324252627282930112212121212121121221212212121323312132132312232132323131132124323241143224324143432142243根据聚类结果，这30名顾客分为3类，可以较好的反映这些顾客对家具的偏好类型：•第一类：1，9，13，17，24•第二类：2，3，4，5，6，7，8，11，12，15，16，18，20，21，22，23，26，28，29，30•第三类：10，14，19，25，27第四节因子分析一、因子分析的基本思想•因子分析是一项多元统计分析技术，其主要目的就是简化数据。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示基本的数据结果。这些假设变量是不可观测的，通常称为因子。它们反映了原来众多的观测变量所代表的主要信息，并能解释这些观测变量之间的相互依存关系。二、因子分析的数学模型和相关统计