基础数据分析介绍张晓军2016.8.11Sumbo创作下面的结论对吗?外长宽尺寸位置Sumbo创作我们的感觉可靠吗?上面的蓝线和黑线哪根长?Sumbo创作人=吃饭+睡觉+上班+玩猪=吃饭+睡觉,代入:人=猪+上班+玩,即:人-玩=猪+上班.结论:不懂玩的人=会上班的猪男人=吃饭+睡觉+挣钱猪=吃饭+睡觉男人=猪+挣钱猪=男人-挣钱结论:男人不挣钱等于猪。女人=吃饭+睡觉+花钱。猪=吃饭+睡觉。代入上式得:女人=猪+花钱。移项得:女人-花钱=猪。结论:女人不花钱的都是猪。男人+女人=2吃饭+2睡觉+挣钱+花钱=2(吃饭+睡觉)=2猪结论:男人+女人就是两头猪思考:问题出在哪里?Sumbo创作提纲什么是数据数据分析可以帮你作什么工作中如何作有效的数据分析一些数据分析的常用方法如何有效地展现分析结果Sumbo创作什么是数据?数据是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。二进制Sumbo创作周围的事物中,几乎所有事物都可以用数据的形式去表达。Sumbo创作数据分析是“神马”数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。以求最大化地开发数据的功能,发挥数据的作用。Sumbo创作数据类别质量管理:定性型数据、定量型数据数据分析:维度数据、度量数据维度数据,更多的是定性类数据,是描述事物的各种属性信息。度量数据,也叫指标数据,是具体的计算用的量化数值我们在做数据分析时,归根结底就是在不停的做各种维度和度量的组合。Sumbo创作抽样与总体抽样研究的目的是要用样本信息推断总体特征和未来趋势,称统计推断死后鞭尸远没有积极预防更有价值由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(必然存在)n30时,样本标准差服从近似正态分布,抽样误差的标准差称为标准误当总体一定时,样本例数越多,标准误越小,可信度越高。XnSumbo创作数据分析可以帮你做什么?Sumbo创作数据分析可以帮你做什么谁的表现最好?我们公司的效益好不好?不良那么高的原因是什么?我们的人是否还可以压缩?你是否适合做股票投资?如何识别恐怖分子?Sumbo创作工作中你做过的数据分析Sumbo创作工作中如何作有效的数据分析Sumbo创作做数据分析的前提熟悉业务流程Sumbo创作明确目的干啥事,总得有个预期!提升利润?增加销量?人员沟通?制订策略?解决段差问题?…Sumbo创作数据收集收集方案:推理、假设、讨论目标分解:数学模型标准化:制定数据记录矩阵表数据记录:检验对象,收集数据Sumbo创作数据收集_收集方案预则立、不预则废Sumbo创作数据收集_目标分解利润=收入-成本如收入再分解:销售收入、服务收入、政府补助,成本分解:薪资、物料成本、水电、房租、差旅、税务、保险等。RMA=累计返修数量/累计出货数量尺寸链A1=A2-A3-A0Sumbo创作数据收集_数据要求数据收集要求:结构化规范化可关联Sumbo创作数据处理数据清洗数据转化数据提取数据计算Sumbo创作数据处理_“脏数据”Sumbo创作数据分析常用数据分析方法:聚类分析因子分析相关分析对应分析回归分析方差分析Sumbo创作崩溃Sumbo创作数据分析_大道至简比较细分Sumbo创作比较的印象Sumbo创作分析前认识几个概念平均数最大值最小值极差偏差标准差CPK绝对数与相对数百分比与百分点频数与频率比例与比率倍数与番数同比与环比Sumbo创作分析前认识几个概念Sumbo创作比较研究比较研究是根据一定的标准或维度,对两个或两个以上有联系的事物进行考察,寻找其异同,探求其普遍规律与特殊规律的方法。实物的相异性和共同性,构成了比较法的客观基础。Sumbo创作比较研究方法的分类按属性的数量,可分为单项比较和综合比较。单项比较是按事物的一种属性所作的比较。综合比较是按事物的所有(或多种)属性进行的比较按时空的区别,可分为横向比较与纵向比较。横向比较(类型比较法):指同一时期不同对象进行对比分析,或同一类事物内部不同部分之间进行对比。纵向比较(历史比较法):指同一对象在不同时期的状况进行对比分析。按目标的指向,可分成求同比较和求异比较。求同比较是寻求不同事物的共同点以寻求事物发展的共同规律。求异比较是比较两个事物的不同属性,从而说明两个事物的不同,以发现事物发生发展的特殊性。。按比较的性质,可分成定性比较与定量比较。定性比较就是通过事物间的本质属性的比较来确定事物的性质。定量比较是对事物属性进行量的分析以准确地制定事物的变化。Sumbo创作通过比较得出什么结论偏差与比较对象的偏离程度,与标准的偏离程度,观察的是一致性的程度趋势不同维度指标在时间轴上的趋势,有什么规律,向好还是向坏,是扩大还是收敛,观察的是动态的变化波动与比较对象均值之间的偏离程度,观察的是稳定性能力关联反映比较对象之间不同维度之间的内在联系Sumbo创作数据分析_比较的工具QC七大手法Sumbo创作数据分析_比较的工具要表达的数据和信息饼图柱形图条形图拆线图气泡图其它成分(整体的一部分)排序(数据的比较)时间序列(走势、趋势)频率分布(数据频次)相关性(数据的关系)多重数据比较Sumbo创作比较训练实例_RMA比较方法属性时空指向性质比较结论偏差趋势波动关联Sumbo创作举例说明经营状况直升边高度家庭开支体重Sumbo创作数据分析_分类所谓分类方法,是根据事物的相同点或相异点,将它们区分为不同种类,从而认识事物共同本质的思维方法。分类方法和比较方法有密切的联系。在认识事物时,总是先进行比较,识别它们的共同点和差异点,然后分类研究。Sumbo创作分类方法分类是数据挖掘的重要基础,也是机器学习、模式识别和人工智能等相关领域广泛研究的基础。分类的方法众多,一般可以按如下的两类方法做基本分类:按现象分类按事物的表现现象分,如不良表现,分为外观不良、尺寸不良、功能不良;如外观不良又可以按现象细分为刮伤、尘点、毛边、偏色等。按本质分类按事物的性质特点,如生产者可按不同地区、不同厂商、不同时段、不同产线、不同班组等进行分类。Sumbo创作分类注意事项分类的根据任何分类都包含三个要素:分类的母项、分类的子项和分类的根据。分类的规则同一根据子项互不相容子项和必须等于母项。分类按层次顺序Sumbo创作决策树是很好的一种分类方法决策树(DecisionTree)又称为判定树,是运用于分类的一种树结构。其中的每个内部结点(internalnode)代表对某个属性的一次测试,每条边代表一个测试结果,叶结点(leaf)代表某个类(class)或者类的分布(classdistribution),最上面的结点是根结点。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。Sumbo创作数据展现用图表的方式,辅于简要的说明,将分析的结果清晰呈现给你的受众。让老板在30秒种内读懂你的数据!!Sumbo创作常用图表类型选择指南Sumbo创作报告_经验总结&传承逻辑严谨结论直观简洁易懂Sumbo创作回归质量观建立预期识别现状分析偏差持续改善数据收集比较&细分对策质量基本原理数据分析原理Sumbo创作•所有的分析要从“结果”出发,没有结论的数字罗列并不是分析;而“结果”就是发现问题和解决问题。•基础数据分析不是一门复杂的科学;•而是一些简单的“commonsense”;•复杂的运算通常只是令分析结果更差而不是更好;•绝大多数是简单的想法和简单的沟通•数据分析有时候是一门艺术•同样的数据会有不同的解读•优秀和平庸的差异,有时候差在一种灵感写在最后Sumbo创作大数据时代·藏无可藏真诚更优秀Sumbo创作Q&ASumbo创作