大数据应用场景-大数据预测

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据应用场景之-大数据预测01目录CONTENTS021大数据预测概述2描述性数据分析3诊断性数据分析4大预测性数据分析5处方式数据分析6数据分析示例7大数据预测度特征8大数据的其他功能应用领域PART01大数据预测概述大数据预测是大数据最核心的应用,大数据预测将传统意义预测拓展到“现测”。03预测是大数据的核心价值04大数据预测是大数据最核心的应用大数据的本质是解决问题,大数据的核心价值就在于预测,而企业经营的核心也是基于预测所做出的正确判断。大数据预测的优势05大数据预测则是基于大数据和预测模型去预测未来某件事情的概率,让分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据分析的最大不同大数据预测的优势体现在它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的从预测的角度看,大数据预测所得出的结果不仅仅得到处理现实业务简单、客观的结论,更能用于帮助企业经营决策,收集起来的资料还可以被规划,引导开发更大的消费力量数据分析的四个层次06数据分析的根本目的就是要洞察数据背后的规律,企业可以基于数据分析的结果制订决策、并采取相应措施和行动,进而达成想要的结果数据分析的四个层次•描述性分析(DescriptiveAnalysis)•诊断性分析(DiagnosticAnalysis)•预测性分析(PredictiveAnalysis)•处方性分析(PrescriptiveAnalysis)数据分析的四个层次07描述性分析—发生了什么08描述性分析主要是对已经发生的事实用数据做出准确的描述比如某企业本月订单签约额比上月增加100万,至1100万,但是订单履约率从上月的98%下降到了95%,库存周转率从上月的0.8下降到了0.7诊断性分析—为什么会发生09通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心比如经过分析,发现订单履约率下降的原因是成品生产不出来,无法完成交付,而成品生成不出来的原因则是部分原材料的供应商未能按时送货,导致原材料不齐套,无法开始生产预测性分析—什么可能会发生10预测型分析对事件未来发生的可能性,预测一个可量化的值,或者是预估事情发生的时间点比如通过建模可以预测本月该供应商会使我们的订单履约率下降2%处方性分析—该做些什么11处方性分析基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施通常情况下,是在前面的所有方法都完成之后,最后需要完成的分析方法比如,供应商A会导致本月订单履约率下降,可能采取的措施就是把A换掉,但是现在有B和C两个供应商供选择,通过分析和计算得出:选用供应商B会比选C的订单履约率高1%,因此建议选择供应商B数据分析方法总结12传统分析方法只能完成描述性和诊断性分析大数据分析方法使用大量多样化和可变数据来实现预测,在充满不确定性的环境下,能够帮助企业做出更好的决定大数据预测是大数据在很多领域的重要应用PART02描述性数据分析描述性分析做为商业数据分析的第一个层次,主要回答『发生了什么』的问题。13描述性分析14描述性分析对采集到的大量数据进行初步的整理和归纳,对调查总体所有变量的有关数据进行统计性描述,主要包括•数据的频数分析•数据的集中趋势分析•数据的离散程度分析•数据的分布•统计图形绘制数据的频数分析15利用频数分析可以发现一些统计规律比如说,被调查者使用个人支票支付方式的最多,使用信用卡支付的最少数据的集中趋势分析16数据的集中趋势分析是用来反映数据的一般水平平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值中位数:是反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数众数:是指在数据中发生频率最高的数据值如果各个数据之间的差异程度较小,用平均值就有较好的代表性如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性数据的离散程度分析17数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差方差是标准差的平方,根据不同的数据类型有不同的计算方法数据的分布18在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布•偏度衡量的是样本分布的偏斜方向和程度•而峰度衡量的是样本分布曲线的尖峰程度如果样本的偏度接近于0,峰度接近于3,就可以判断总体的分布接近于正态分布绘制统计图19绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明绘制各个变量的统计图形,包括条形图、饼图和折线图等描述性分析方法20了解业务场景•首先要了解和还原数据产生的业务场景,包括:数据涉及到的部门和岗位,这些部门和岗位之间的业务流程,在不同业务流程中有哪些输入,对数据做了什么处理,又是如何输出和传递给下游部门的探索性分析1.提问,理顺初步分析思路和目标2.收集数据3.选择相应分析方法提炼指标•对数据做探索性分析后,可对数据反映的事实有一个直观的感受,但是要想更准确、简洁地描述发生了什么,还应该进行总结和提炼出相应指标,做为企业日常经营管理的KPI•比如描述库存周转的整体情况,库存周转率、库存周转天数等指标更有效探索性分析步骤211.提问,理顺初步分析思路和目标•在了解清楚数据产生的业务场景后,试问一些whathappened的问题•比如,本月销售额是多少?环比和同比变化分别是多少?本财年销售的变化趋势是怎么样的?2.收集数据•有了初步的分析思路和目标以后,就可以确定需要收集哪些数据了•比如销售额分析可能用到的数据为销售订单数据、销售开票数据3.选择相应分析方法•根据分析的思路和目标,就可以对收集到的数据选择相应的分析方法了。具体的方法包括:•对数据位置的探索,包括:最大值、最小值、均值、中位数、分位数等•对数据分布的探索,包括:偏差、方差、标准差、茎叶图、直方图、箱形图、密度图等•对数据趋势的探索,包括:同比、环比、趋势图、条形图等•对数据聚合的探索,包括:排序、筛选、计数、重复项、分组、求和、比例、条形图、饼图等PART03诊断性数据分析诊断性分析可以明确到底发生了什么。22诊断性分析23诊断性分析的目的是明确为什么发生1.寻找相关特征•首先需要知道和结果可能相关的因素有哪些,这依赖于对业务的了解程度,只要是可能相关的,都纳入考虑,也可以基于现有特征构造新特征2.相关性分析•列出和结果可能相关的特征后,就需要验证这些特征和结果到底是否相关3.因果性分析•诊断性分析就是要找到事物的因果关系,即因果性分析•所谓因果性,假设X是因,Y是果,则只要X出现,必然会导致Y的发生相关性分析24二维散点图若分析的仅是一个特征与结果的相关性,则可以通过画二者的二维散点图进行分析,通过图形描述,可以初步且直观判断二者的存在何种相关关系:正相关、负相关、无关;如果相关的话,是线性相关还是非线性相关(抛物线、指数等)。左图为不同性别年龄与身高关系的散点图,可以看出在青少年时期,这二者是呈线性正相关的相关性分析25矩阵散点图当有多个特征与结果相关的情况时需要矩阵散点图进行分析。其实质就是针对每一个特征与结果分别做二维散点图,以分析其相关性。因果性分析26诊断性分析的隐含意思就是要找到事物的因果关系,即因果性分析所谓因果性,假设X是因,Y是果,则只要X出现,必然会导致Y的发生PART04预测性数据分析预测性分析可以明确未来会发生什么。27预测性分析28预测性分析试图基于历史数据来预测未来的结果预测性分析的步骤:建立预测模型,模型评估和预测预测性分析第一步:建立模型29预测性分析第二步:用模型进行预测30预测性分析的数据挖掘算法31回归分析模型SVM神经网络预测性分析的数据挖掘算法32回归分析模型一元回归多元回归非线性回归线性回归非线性回归线性回归两个及两个以上自变量一个自变量回归分析的一般步骤33一元线性回归分析示例34例1:已知工作年限与收入的额关系如下表所示。1.问题:当工作年限为10年时,年收入是多少?2.问题:当工作年限为25年时,年收入是多少?能够用货币计量35由最小二乘法可得到对应的一元线性回归为:y=3.5*x+23.2一元线性回归分析示例36问题:当工作年限为10年时,年收入是多少?将工作年限10带入一元线性回归方程中,可预测出对应的年收入为Y=3.5*10+23.2=58.2问题:当工作年限为25年时,年收入是多少?将工作年限25带入一元线性回归方程中,可预测出对应的年收入为Y=3.5*25+23.2=110.7。PART05处方式分析处方式分析给出问题的解决方案和行动建议。处方式分析回答的问题是:为了解决这个问题,我们该做些什么?或者说,为了达到某个目标,我们该朝哪个方向努力?37处方式分析38处方式分析给出问题的解决方案和行动建议处方式分析回答的问题是:为了解决这个问题,应该做些什么?或者说,为了达到某个目标,该朝哪个方向努力?处方式分析的步骤391.首先,进行描述性分析,通过描述性分析明确现状和问题,及业务人员和管理人员的需求,这样才能做到有的放矢2.其次,进行诊断性分析,寻找和当前问题相关的特征,并对其进行建模3.最后,根据不同的业务场景和需求,给出具体的解决方案和行动建议处方式分析的方法40预测性分析有些情况,仅使用诊断性分析和预测性分析的模型,即可以给出建议比如银行可根据申请人的基本信息,包括学历、收入、是否有车、是否有住房、存款金额、是否有违约记录等,去建立模型预测其信用违约的风险有多大,进而给出建议是否要给这个申请人发放信用卡,如果要发放,信用卡的额度又该是多少处方式分析的方法41仿真仿真就是通过建模模拟真实世界的系统或流程,并通过不同的输入参数或条件查看其对结果的影响,据此制订相应决策主要是通过在电脑上做数学建模仿真,进而根据仿真结果给出相应的解决方案和行动建议比如企业的成本支出和客户服务水平是一个两难问题,往往成本的削减意味着客户服务水平的下降,那如果说企业要制订年度成本削减目标,通过仿真发现成本降低5%,但是客户服务水平仅下降1%,属于可接受范围,但是当成本降低10%时,客户服务水平下降达6%,可能对公司的经营、商誉等产生重大影响,则此时成本降低5%是相对合适的,而10%就不是那么合适了。处方式分析的方法42最优化最优化是应用数学的一个分支,主要指在一定限制条件下,选取某种研究方案使目标达到最优的一种方法最优化问题在当今的军事、工程、管理、商业等领域有着极其广泛的应用比如,企业都希望利润尽量高,那如何在现实的约束条件下,达到上述目标就是一个普遍的最优化问题最优化常用的方法为线性规划、非线性规划、凸优化、整数规划、网络流优化(物流、电网、通讯网络应用)等处方式分析的其他特点43处方式分析除了会给出行动建议外,另一大特点就是需要有一个反馈系统可以收集采取相应行动后的结果数据,以验证行动建议的有效性,若效果不佳,则需要调整,给出新的可行性建议,这个过程会不断循环迭代,直至达到预期目标一个优秀的处方式数据分析系统,迭代过程应该是无须人工干预、智能自动完成的,这也是目前机器学习和人工智能方法的最大优势处方式分析是数据分析方法的最高阶形态,也是在商业环境中对企业最有用、产生价值最大的方法PART06数据分析示例44前面已经详细介绍了商业数据分析的四个层次,本节将通过一个示例将这四个层次串联起来。示例背景45PAS是一家销售企业管理软件的公司,虽然整个行业欣欣向荣,但是这家公司的业务却陷入泥沼,销售额连续八个季度出现下滑。为了扭转此局面,希望能通过数据分析的方法提供有力支撑PAS公司的业务现状和数据情况PAS公司上线了CRM、ERP、HR等系统,针对商机、合同、付款、客户、价格、销售员的入职时间、接受过的培训等信息都是有详细记录描

1 / 75
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功