基于Excel的数据分析Part1初识数据分析何谓数据分析•简单来说,数据分析就是对数据进行分析。较为专业的说法,数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化的开发数据的功能,发挥数据的作用。数据分析的目的•数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律。在实际工作当中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。•例如,如果企业的高层希望通过市场分析和研究,把握当前产品的市场动向,制订合理的产品研发和销售计划,就必须依赖数据分析才能完成。•在统计学领域,有些学者将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析。其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪性。•从另一个角度看,描述性数据分析属于初级数据分析,常见的分析方法有对比分析法、平均分析法、交叉分析法等;而探索性数据分析以及验证性数据分析属于高级数据分析,常见的分析方法有相关分析、因子分析、回归分析等。我们日常学习和工作中涉及的数据分析主要是描述性数据分析,也就是大家常用的初级数据分析。数据分析的划分•现状分析——简单来说就是告诉你过去发生了什么•原因分析——简单来说就是告诉你某一现状为什么会发生•预测分析——简单来说就是告诉你将来会发生什么数据分析的作用数据分析六步曲•数据分析过程主要包括6个既相对独立又互有联系的阶段。它们是:明确分析目的和内容、数据收集、数据处理、数据分析、数据展现、报告撰写等6步。Part2确定分析思路数据分析方法论•确定分析思路需要以营销、管理等理论为指导,我们把这些跟数据分析相关的营销、管理等理论统称为数据分析方法论。常用的数据分析方法论•营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等。•管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。(一)PEST分析法•PEST分析法用于对宏观环境的分析。宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治(Political)、经济(Economic)、社会(Social)和技术(Technological)这四大类影响企业的主要外部环境因素进行分析。【例】以中国互联网行业分析为例,采用PEST分析法整理分析思路,构建中国互联网行业分析框架。(一)PEST分析法互联网行业分析政治经济社会技术•国家出台哪些相关政策?有何影响?制约还是促进?•相关法律有哪些?有何影响?•GDP及增长率、进出口总额及增长率?•消费价格指数、失业率、居民可支配收入•中国网民与中国公民在人口规模、性别比例、人口分布、生活方式、购买习惯、教育情况等方面,网民与全国人民是否有区别?•技术的发明、技术传播、更新、商品化速度、技术发展趋势•国家重点支持项目、专利个数•5W2H分析法是以五个W开头和两个H开头的英语单词进行提问,从问答中发现解决问题的线索,即何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何做(How)、何价(Howmuch),这就构成了5W2H分析法的总框架。(二)5W2H分析法【例】假如需要了解公司产品的用户购买行为是怎样的,可以在5W2H分析法的指导下整理思路,建立用户购买行为分析框架。(二)5W2H分析法用户购买行为分析WhyWhoWhereHowWhatHowmuchWhen•用户购买的目的是什么?•产品在哪方面吸引用户?•公司提供什么产品或服务?•与用户需求是否一致?•谁是我们的用户?•用户有何特点?•何时购买?•多久再次购买?•用户在哪里购买?•用户在各个地区的构成怎样?•用户购买支付方式是怎样?•用户购买花费时间、交通成本?•逻辑树又称问题树、演绎树或分解树等,它是分析问题最常用的工具之一,将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。•把一个问题当成树干,然后开始考虑这个问题和哪些问题相关。每想到一点,就给这个问题所在的树干加一个“树枝”,并标明这个“树枝”代表什么问题。(三)逻辑树分析法【例】假如需要进行公司利润下降的专题研究,可采用逻辑树分析法来整理思路,建立利润增长缓慢分析框架。(三)逻辑树分析法利润增长缓慢收入?成本?其他?•客户少?•质量变差?•对手竞争?•……•材料成本?•人工成本?•广告成本?•促销成本?•……•……•……•4P营销理论产生于20世纪60年代的美国,它是随着营销组合理论的提出而出现的。营销组合实际上有几十个要素,这些要素可以概括为4大类,产品(Product)、价格(Price)、渠道(Place)、促销(Promotion),即著名的4P营销理论。(四)4P营销理论•如果需要了解公司的整体运营情况,就可以采用4P营销理论对数据分析进行指导,这样做就可以较为全面的了解到公司的整体运营情况。•现在就以4P营销理论为指导,搭建公司业务分析框架。如下图所示:(四)4P营销理论(四)4P营销理论公司业务分析产品价格渠道促销•公司提供什么产品或服务?哪个产品销量最高好?•与用户需求是否一致?•购买产品的用户都是些什么人?•公司销售收入怎么样?增长?减少?•用户接受的合理价格是多少?•用户购买支付方式是怎样的?•公司在各地区有多少销售渠道?是否未覆盖到或覆盖率较低?•用户通过何种渠道购买?•用户在各个地区的构成怎样?•公司的渠道政策是否有吸引力?•投入多少促销资源?效果如何?•投放多少宣传广告?效果如何?(五)用户行为理论•网站分析的发展已经较为成熟,有一套成熟的分析指标。比如IP、PV、页面停留时间、跳出率、回访率、新访问者、回访次数、回访相隔天数、流失率、关键字搜索、转化率、登陆率,等等。遇到这么多指标,所有的指标都要分析吗?什么指标该采用?什么指标不该采用?各指标之间有何关系?哪个指标先分析?哪个指标后分析?(五)用户行为理论•用户行为理论是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠实用户。(五)用户行为理论•现在我们可以利用用户使用行为理论,梳理网站分析的各关键指标之间的逻辑关系,构建符合公司的实际业务的网站分析指标体系,如下图所示:(五)用户行为理论用户行为轨迹用户的网站行为网站分析指标认知熟悉试用使用忠诚网站访问网站浏览站内搜索用户注册用户登录用户订购用户黏性用户流失ID、DV、人均页面访问量、访问来源平均停留时长、跳出率、页面偏好搜索访问次数占比注册用户数、注册转化率登录用户数、人均登录、访问登录比订购量、订购频次、内容、转化率回访者比率、访问深度用户流失数、流失率Part3数据准备理解数据•字段与记录•数据类型(数字、文本、日期)•数据表(一维表与二维表的转换)【例】一维表与二维表的转换(利用“数据透视表和数据透视图向导”功能)•手工录入数据——如录入问卷调查等•导入数据——Access/SQL等数据库;网站;文本文件数据来源Part4数据处理数据处理步骤•数据清洗顾名思义,数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。•数据加工经过清洗后的数据,并不一定是我们想要的数据,例如身份证号码,其实我们只是想抽取里面的出生年月的信息。所以,还要对数据字段进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据表。数据清洗•清除掉不必要的重复数据•填充缺失的数据•检测逻辑错误的数据数据加工•数据抽取①字段分列:截取某一字段的部分信息。②字段合并:将某几个字段合并为一个新字段。③字段匹配:将原数据表中没有没有但其它数据表中有的字段,有效的匹配过来。•数据计算①简单计算:字段通过加、减、乘、除等简单运算就能计算出来。②函数计算:SUM、AVERAGE、DATEIF等。•数据分组①主要用VLOOKUP函数。•数据转换①数据表的行列互换。②多选题录入数据方式之间的转换。数据抽样•常见的调查方式主要有两种:普查和抽样调查①普查是指对总体中的对象一一进行观察、访问与记录,确定资料。例如人口普查。②抽样调查是指从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析,以此推论总体状况的一种调查方式。•RAND函数:返回大于0小于1的均匀分布随机数•RAND()函数不仅可以生成(0,1)区间的随机数,实际上它可以生成任意区间上的随机数。•假设a,b分别代表两个数字,其中ab,若要生成a与b之间的随机实数,可以用以下公式:“=RAND()*(b-a)+a”。Part5数据分析数据分析方法•前面提到数据分析方法的三大作用为现状分析、原因分析及预测分析,它们基本可分别对应对比、细分及预测三大基本方法。•对比分析法•分组分析法•结构分析法•平均分析法•交叉分析法•综合评价分析法•杜邦分析法•漏斗图分析法•矩阵关联分析法•高级数据分析方法(聚类分析、对应分析等)数据分析工具•数据透视表数据透视表就是对Excel数据表中各字段进行快速分类汇总的一种分析工具,它是一种交互式报表。利用它,我们可以方便地调整分类汇总的方式,灵活的以多种不同方式展示数据特征。数据透视表有机的结合了数据排序、筛选、分类汇总等数据处理分析功能;同时,数据透视表也是解决函数公式速度瓶颈的有效手段之一。【例】如下表所示为某公司文具销量明细的部分数据:•从上述表中,我们需要了解以下几个关于公司运营的问题:①2010年总销量是多少?总销售额是多少?②2010年A、B、C三地区的销量及销售额各是多少?③2010年哪种产品销量最好?哪种产品销量最差?④2010年各业务员中谁的业绩(销售额)最好?谁的业绩最差?⑤2010年公司哪个月的业绩(销售额)最好?哪个月的业绩最差?⑥2010年B地区业务员王五的钢笔销量是多少?问题1:2010年总销量是多少?总销售额是多少?问题2:2010年A、B、C三地区的销量及销售额各是多少?问题3:2010年哪种产品销量最好?哪种产品销量最差?问题4:2010年各业务员中谁的业绩(销售额)最好?谁的业绩最差?问题5:2010年公司哪个月的业绩(销售额)最好?哪个月的业绩最差?问题6:2010年B地区业务员王五的钢笔销量是多少?方法一:方法二:Part6数据展现图表•基本图表:饼图、条形图、柱形图、折线图、散点图、表格等。•复杂图表:平均线图、双坐标图、竖形折线图、瀑布图、帕累托图、旋风图、人口金字塔图、漏斗图、矩阵图(散点图)、发展矩阵图、改进难易矩阵(气泡图)等。平均线图双坐标图瀑布图帕累托图旋风图漏斗图表格•突出显示单元格:把2004年生产总值大于10000亿元的区域突显出来•项目选取:2005年中国东部有哪些地区的国内生产总值高于平均值•数据条:2006年中国东部国内生产总值最高与最低的地区•图标集:将2007年国内生产总值在20000亿元及以上的地区用绿色带钩圆圈表示,大于或等于10000且小于20000亿元的用黄色带感叹号圆圈表示,小于10000亿元的用红色带叉圆圈表示•迷你图:Part7数据分析报告初识数据分析报告•数据分析报告是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出结论,提出解决办法的一种分析应用文体。何谓数据分析报告•这种文体是决策者认识事物、了解事物、掌握信息、搜集相关信息的主要工具之一,数据分析报告通过对事物数据全方位的科学分析来评估其环境及发展情况,为决策者提供科学、严谨的依据,降低风险。•数据分析报告的写作原则:•数据分析报告的作用:•数据分析报告的种类:•数据分析报告的结构:•数据分析报告有其特定的结构,但是这种结构并不是一成不变的,不同的数据分析师、不同的老板、不同的客户、不同性质的数据分析,其最后的报告可能会有不同的结构。•最经典的报告结构是“总-分-总”结构,它主要