数据分析方法培训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据分析方法培训目录数据分析前的思考案例分享深层次数据分析数据分析前,我们需要思考3《孙子兵法〃谋攻篇》:故上兵伐谋,其次伐交,其次伐兵,其下攻城;攻城之法为不得已。像一场战役的总指挥影响着整个战役的胜败一样,数据分析师的思想对于整体分析思路,甚至分析结果都有着关键性的作用。问题分析结果呈现分析思路与方法数据选取数据分析前,我们怎么去思考?每一个步骤可能面临的问题以及需要准备的东西???4选取的分析软件以及分析方法(统计学相关方法)。分析问题和解决问题的思路5定义问题第一步首先,要搞清问题的实质,准确、完整、真实地表达问题。其次,弄清楚为什么要解决这个问题?最后,解决这个问题的意义何在?是必须解决还是无关紧要,或是需要马上解决还是不太着急。第二步收集整理信息搜集、整理关于要解决问题的历史资料、类似情况和现状。第三步选取分析方法分析涉及到的主要维度,为后面提取数据需求作准备;第四步数据提取整理根据分析内容以及分析方法,提出分析所需的数据需求;对于反馈回来的数据,需要进行部分加工,以便更能反应所要分析的问题。第五步分析结果及结论根据分析的结果,得出一些当前问题产生的一些结论。这里注意分析的方法以及维度,结果的展示方式等。结论需要求足够的数据做支撑。第六步实施及建议措施针对数据分析结论,给出当前问题的解决建议措施。一方面从业务层面进行建议措施,另一方面,可以就问题点进行更深层次分析,给出数据挖掘层面的解决措施。第七步实施效果评估及报告整理根据措施实施效果进行实际评估,将完成的分析过程,结果以及评估整理报告,为以后出现问题提供经验教训。对于本次没有完全解决的问题,进行说明。例如,从现有的报表数据中就能够看到当前问题点的数据情况或者一段时间的趋势;两个重点步骤精确的陈述问题Where----哪里存在问题?What------存在的问题是什么?Why-------原因在哪里?When-----什么时候开始出现这样的问题?Who------与什么对象有关?Howmany-----发生的次数和数量?Howmuch------损失有多大?爱因斯坦说:“精确的陈述问题比解決问题还来得重要”5W2H法:5W:What,When,Where,Who,Why;2H:How及Howmany;使用这个方法阿根廷队世界杯输球了,如果你是马拉多纳,你怎么去思考?定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理问题展现方式问题现状直接原因最终原因问题的结构如同这座冰山初步的问题分析深层次的问题分析问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的叫初步问题分析,针对最终原因进行分析的叫深层次问题分析。7治标治本定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理问题分解8问题陈述问题/假设1问题/假设2问题/假设3分支问题分支问题分支问题分支问题分支问题分支问题为什么使用逻辑树?1.将问题分成几个部分使•解决问题的工作可以分成智力上能够解决的几个部分•不同部分可按轻重缓急区分•工作责任能分派到各人2.保证问题获得完整地解决•将问题的各个部分解决好,即可解决整个问题•所分问题的各个部分各不相同,而且包括了各个方面(即没有重叠没有遗漏)3.使项目小组共同了解解决问题的框架4.协助重点使用组织框架及理论定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理分析方法统计方法的三大特性,用三句话来简单概括一下:反应客观现象的数据描述性统计(包括统计数据的收集、整理、显示和分析)实用性:除了实情,数据能证明一切;丰富性:统计就像比基尼,露出来的部分固然诱人,没露出来的部分才是最要命的;公平性:我们相信上帝,其它人请用数据说话。概率论(包括分布理论、大数定律和中心极限定理)推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)总体内在的数量规律性9样本数据总体数据定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理描述性统计分析“五点法”:最小值,1/4分位数,均值,3/4分位数,最大值“两度”:峰度,偏度六西格玛:检验统计量的取值空间6∑10定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理2120y-1y-2-2-101-1-20221y0y468负相关相关但非线性相关推断统计分析11回归分析是统计分析思想中最基础、最集中的一个领域。高斯、高尔顿相关分析&回归分析-3-212(a)-212(b)x-2-1012x-3-2-10123x-10不相x关(c)-10正相关(d)变量的选取;预测推断;P值:回归分析就是放“P”,放得好,就合格。定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理变量分析方法选取对象变量的关系类型因变量-自变量预测和解释变量的个数变量的相互关系变量的结构关系多因变量与自变量多因变量与自变量单一变量存在多存在多重关系存在单一关系重关系变量样本因变量测量尺度结构方程式模式数量型非数量型数量型非数量型自变量尺度测量典型相关分析多元方差分析因变量尺度测量多元回归分析结合分析数量型非数量型多元判别分析Logistic回归离散选择模型CHAID因子分析/主成分析聚类分析变量测量尺度数量型非数量型多维尺度分析对应分析一张简单的图胜过千言万语!!!!12定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理数据挖掘分析13按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,其中:统计方法可分为:判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分析(系统聚类、动态聚类等),探索性分析(主成分分析等)等。机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗传算法等。神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特征映射、竞争学习等)。数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。关联规则关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。Ps:多元统计分析中的聚类分析有个阈值,用于确定分类的一个临界值,平时会遇到把它读成fá,误以为它是“阀”字。正确的应该是阈(念yù)值,而不是阀值.定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理•网管中心数据•CRM数据•一经数据•第三方调查数据•……14海量的数据eg数据提取时注意的几点问题。•经分数据•BOSS数据定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理选取分析所需的相关数据制定数据提取需求15人口统计性别年龄户藉职业婚姻状况教育程度收入……客户办理时间地点办理的渠道办理的业务种类生效和失效时间购买行为消费行为沟通记录销售概率帐单信息分群特征离网概率离网原因客户价值高利润率中等利润率低利润率负利润率……服务与产品使用的产品使用的服务功能接受的营销offer享受的客户服务态度形象价值观生活方式心理因素……客户偏好渠道偏好联络时间偏好服务内容偏好帐户信息高级资料性格和爱好反感的业务家庭情况缴费方式使用清单缴费记录行为信息基本资料地址、电话、email、籍贯等语言、行业手机相关信息网络状况业务办理信息行为方式通话时段繁忙和非繁忙通话量漫游服务方便程度行为方式的变化……客户交互信息客户交互概况整合的投诉历史整合的咨询历史主动联络客户历史客户分析信息注意数据提取粒度定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理数据质量的评估•在现实社会中,存在着大量的“脏”数据不完整性(数据结构的设计人员、数据采集设备和数据录入人员)–缺少感兴趣的属性–感兴趣的属性缺少部分属性值–仅仅包含聚合数据,没有详细数据噪音数据(采集数据的设备、数据录入人员、数据传输)–数据中包含错误的信息–存在着部分偏离期望值的孤立点不一致性(数据结构的设计人员、数据录入人员)–数据结构的不一致性–Label的不一致性–数据值的不一致性业务角度对于数据质量进行初步评估!!!16数据类型冲突性别:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String数据标签冲突:解决同名异义、异名同义学生成绩、分数度量单位冲突学生成绩百分制:100~0五分制:A、B、C、D、E字符表示:优、良、及格、不及格概念不清最近交易额:前一个小时、昨天、本周、本月?聚集冲突:根源在于表结构的设计定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理数据质量的评估技术角度进行数据质量评估17定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理数据的清洗处理主要任务:补充缺失数据识别孤立点,平滑噪音数据处理不一致的数据处理方法:分箱(Binning)的方法:聚类方法:检测并消除异常点线性回归:对不符合回归的数据进行平滑处理人机结合共同检测:由计算机检测可疑的点,然后由用户确认……18定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理•指标分析与政策分析并重;•反应重点问题、实事求是;•材料、数据要真实,论据要有说服力。切记……分析角度:缺乏分析中心思想或主干线文字表达:“一图二表三文字”逻辑结构:论点、论据、论证19收集整理定义问题信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理怎样将分析的结果呈现出来?定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理分析结果呈现基本原则20确定表达的主题使用图形的目的:将思想和观点形象化的表达,加深读者或听众的印象。使用图表时,必须明确通过图表要表达的信息是什么。确定对比关系同一类别不同项目间的对比不同类别不同项目间的对比时间对比:把时间作为项目分类的标准频率对比:以部分占整体的百分比为项目分类的标准相关性对比:按照项目之间的函数关系作为项目分类的标准其他对比:逻辑关系的对比(因果,时间序列……)选择图形饼图柱状图百分比柱状图堆积柱状图线形图雷达图面积图点图气泡图矩阵图逻辑图数据分析结果呈现准备工作:如何用图来表示数据?定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理定量数据的图表示对于一个定量变量;用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。定义问题收集整理信息选取分析方法数据提取整理分析结果及结论实施及建议措施实施效果评估及报告整理x10000定性数据的图表示定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。丌同页面内容访问量和累计访问量大众化网页•单类网页访问次数占比大于10%;•累积网页访问次数占比达81.05%;•单类网页访问次数占比5~10%;•累积网页访问次数占比达15.41%;•单类网页访问次数占比小于5%;•累积网页访问次数占比丌足10%;个性化网页小众化网页44.60%81.05%96.42%20%0%40%80%60%100%1003020504060博客娱乐体育游戏女性星座金融笑话音乐彩票搜索微博

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功