深入数据挖掘分析陈剑数据统计和分析工具§专业分析工具-SAS-SPSS-Eview-Minitab-R-Excel§商业智能工具(BI)-Analysisservice-Brio-Cognes数据挖掘方法论——CRISP-DMCRISP-DM(Cross-IndustryStandardProcessforDataMining)我们可以免费使用的工具nOLAP软件nRnExcel–数据分析工具库–规划求解工具主观目的分析模型分析结果分析过程相同的结果可以有不同的解释如何写好市场分析报告市场分析报告的一般结构Part1:目的和使命Part2:状况分析Part3:策略和目标Part4:战术手段Part5:预算、成效分析和实施步骤Part6:附加考虑Part7:参考和引证状况分析-产品及总体市场分析-销售分布分析-竞争分析-金融分析-其他分析战术手段-市场-产品-分销-促销-价格-其他市场分析报告常用分析工具n数据图表nSWOT分析n波士顿矩阵市场分析报告的注意事项n规则1:让你的报告有逻辑性n规则2:让你的报告简单n规则3:让你的报告精简n规则4:让你的报告可信n规则5:让你的报告有力如何使用图表描述数据图表分析基础时间序列例如:1-6月份的营业额曲线组成百分比例如:各产品销售比重,各销售区域业绩对比项目比较例如:不同品牌电脑的价格、性能比较相关性例如:广告投入和销售额的关系组成部分项目比较时间序列频率相互关系饼图条形图柱形图折线图散点图基本的图形类型组成部分项目比较时间序列频率相互关系圆环图雷达图圆锥图面积图圆点图选择适当的图形类型0204060十万烟台青岛大连沈阳天津济南哈尔滨威海什么时候应该用柱图?0500010000150002000025000安徽福建江苏上海浙江线柱图0500010000150002000025000安徽福建江苏上海浙江填充图0500010000150002000025000安徽福建江苏上海浙江反映产品份额的变化0%10%20%30%40%50%60%70%80%90%100%2000年2001年2002年2003年2004年CRT等离子液晶2/8分析5年以上,20%5年以上,69%5年以下5年以下0%20%40%60%80%100%120%销售人员百分比销售利润百分比工作五年以上的销售人员销售额占69%对称直方图-70-50-30-1010305070一月份二月份三月份四月份五月份六月份七月份八月份九月份收入额(万元)支出额(万元)20042004年销售额情况统计年销售额情况统计051015202530354045第一季度第二季度第三季度第四季度西南地区西北地区华东地区华南地区20042004年销售额情况统计年销售额情况统计051015202530354045第一季度第二季度第三季度第四季度西南地区西北地区华东地区华南地区20042004年销售额情况统计年销售额情况统计020406080100120140160第一季度第二季度第三季度第四季度西南地区西北地区华东地区华南地区主要品牌在一级城市的份额变化0%2%4%6%8%Jul-03Aug-03Sep-03Oct-03Nov-03Dec-03TCLBirdSamsungAmoiKejianEastcomSonyEricssonSiemensDbtelKonkaPanda什么时候用条形图?对称条形图子类分析销售统计沙发37%电脑桌9%组合柜8%电视柜8%床垫22%床头柜5%席梦思11%床上用品39%销售统计沙发37%电脑桌9%组合柜8%电视柜8%床垫22%床头柜5%席梦思11%床上用品39%雷达图-和中心偏离度比较雷达图:表现平衡度柏拉图不合格键盘原因分析61.0%81.1%05001000150020002500黑点损坏喷口针迹坏的字模刮痕银色带下划线破折号偏差0%20%40%60%80%100%120%散点图:相关性分析广告与销量的关系图010020030040050060025303540455055606570广告额(万元)销量(万元)广告与销量的关系图010020030040050060025303540455055606570广告额(万元)销量(万元)占有率坐标轴应用业务额(万元)01002003004005001月2月3月4月5月6月7月8月9月10月11月12月业务额(万元)波士顿矩阵波士顿矩阵与气泡图气泡图SWOT分析客户细分传统的细分类型态度需求/动机购买因素产品/服务使用场合客户价值使用行为人口特征地理位置细分市场类型可供选择的客户细分方法43实施的难易程度人口统计(Demographical)客户价值(CustomerValue)行为方式(Behavioral)态度(Attitudinal)•性别•年龄•户藉•职业•婚姻状况•教育程度•收入•通话时段•繁忙和非繁忙通话量•漫游服务•方便程度•行为方式的变化•高利润率•中等利润率•低利润率•负利润率•形象•价值观•生活方式•心理因素人口统计行为方式客户价值态度客户细分方式范例三维细分体系人口统计行为方式客户群X客户价值客户全生命周期的精确营销客户获取客户提升客户成熟客户衰退客户流失VT基于OLAP的客户消费行为细分基于数据挖掘技术的聚类分析SPSSClementine数据的多维分析多维分析多维分析是指对以多维形式组织起来的数据通过各种分析动作,剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。数据的价值在数据上的投资数据知识知识在线分析工在线分析工具具多维分析多维分析KPIKPI多维在线分析多维在线分析透视力透视力//预见力预见力预测预测数理统计分析数理统计分析神经元网络神经元网络数据挖掘数据挖掘信息信息报表和查询报表和查询报表报表SQLSQL查询查询数据透视表数据透视表商业智能的价值商业智能的价值-把数据转化为知识-把数据转化为知识多维分析多维分析的概念n维度–1维:1-12月销售额(时间)–2维:1-12月各地区销售额(时间、地区)–3维:1-12月各地区3个品种的销售额比较–….n粒度–2007年销售额•2007年8月销售额–2007年8月5日销售额n切片、切块、钻取和聚合BrandAfriColaRoyalCrownPepsiCoca-ColaWranglerColaCoca-ColaCoca-Cola24WeekEnding031017ChannelMMDrugFood23.5MMUNITS$28.3GROSS$26.8COSTOLAPOLAP查询示意图查询示意图FoodFood2424““给我看看可口可乐给我看看可口可乐通过食品渠道在通过食品渠道在2424号那一周的销售情号那一周的销售情况况””数据库表与决策分析的报表数据库表与决策分析的报表帐号帐号姓名姓名地址地址电话电话余额余额101101张三张三北京北京(010)62567788(010)62567788100.00100.00102102李四李四上海上海(021)54372012(021)54372012130.00130.00103103王五王五西安西安(029)34573228(029)34573228200.80200.80..............................销售数量销售数量(件)(件)北京北京上海上海广州广州成都成都一月一月100100200200600600752752二月二月300300292292200200328328三月三月250250300300200200746746数据库表:决策分析报表:数据仓库和商业智能Source:SalomonSmithBarney,IDCandWallStreetResearchERPCRMSCMWebSiteOLTPSystemsVerticalDataMartsVerticalDataMartsEnterpriseDataWarehouseQuery&ReportingOLAPDataMiningFinancial&BusinessPerformanceCRMOperation&ProductionBusinessIntelligence/InformationAccessToolsAnalyticalApplicationsCategorizationContentManagementEnterpriseInformationPortalEndUserRawDataETL,DataWarehouse&Marts/ManagementAggregationDataAccessETLPersonalizationArtificialIntelligenceDataRepositoryUnstructuredDataUnstructuredDataAccessOLAP提供的常用功能n提供不同数据类型的数据分组手段-文本型、数值型、日期型n提供不同的汇总方式-求和、计数,百分比n可动态选择数据的分析方向-选择钻取方向-可定义粒度级别n允许添加自定义计算字段使用数据透视表连接数据库n设置外部数据源n连接外部数据源描述统计数据的集中指标n算术平均数AVERAGEn中位数MEDIANn最大值/最小值(Max/Min)n去尾平均数TRIMMEANn四分位数QUARTILE四分位数将数据从小到大排列,114nQ+=33(1)4nQ+=…对应的顺序值,有25%的值比它小数据分布分析2285947010203040506070人数箱线图形态分析频数分析数据的频数分析n计算符合预设范围的数据频度n应用场合:–客户群分析–客户行为分析–投诉量分析等如何进行频数分析n数据透视图法n直方图法n公式法变异指标n变异指标用于反映数据的分散情况–四分位距=Q3-Q1–方差–标准差–标准差系数方差总体方差populationvariance221()niiXNms=-=∑样本方差samplevariance221()1niiXXSN=-=-∑标准差总体标准差populationstandarddeviation221()niiXNmss=-==∑221()1niiXXSSN=-==-∑样本标准差samplestandarddeviation标准差系数标准差系数=标准差平均值Excel的变异指标公式总体方差:VARP样本方差:VAR总体标准差:STDEVP样本标准差:STDEV相关性/差异性分析数据相关性分析–单因素方差分析,例如•如何判断不同促销方法效果是否存在差异•消费者年龄和套餐的选择是否有关系–双因素差异分析,例如•销售地区和促销方式是否存在交互影响•不同的套餐和促销手段广告手段交互的影响–相关分析•寻找“尿布与啤酒”这样的关联•批量的相关性分析单因素方差分析观察值i水平1234无色粉色橘黄色绿色126.531.227.930.8228.728.325.129.6325.130.828.532.4429.127.924.231.7527.229.626.532.8四种颜色饮料销售量及均值单位:箱案例请分析饮料的颜色对销售量有没有影响?几个基本概念1.对销售量是否有影响的那些(可以控制的)条件称为因素2.为了考察一个因素的影响,一般把他严格控制在几个不同的状态等级上,把因素的每一个状态或等级称为一个水平3.只考察一个因素的方差分析,称为单因素方差分析4.同时考察两个或两个以上因素的方差分析,称为多因素方差分析。案例分析1.检验饮料的颜色对销售量是否有影响,即检验四种颜色饮料的平均销售量是否相等。则饮料颜色就是考察的因素,而四种颜色就是四个水平2.用和分别表示无色、粉色、橘黄色和绿色饮料的平均销售量,那么就是要检验如下的假设4321,,mmmm43210:mmmm===H是否成立。而备择假设则为3.上述假设的检验方法就是方差分析43211,,:mmmmH和不全相等方差分析原理1.两类误差及两类方差⑴.每个水平为一个总体⑵.每个水平的一组观察值为总体的一个随机样本,同一水平下样本观察值之间的差异称为随机误差,用组内方