大数据和人工智能

怀念黑人
2 ℃
2020-04-06

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数字智能介绍人工智能标志性产品人工智能技术的演变大数据带来的历史变革如何构建数据类产品3什么是大数据大数据（bigdata），任何一组或一群可以反映事件发展本质规律，并能预测事件发展方向的数据都可以称为大数据。4工厂车间收益数据品牌产权固定资产无形资产数据资产大数据带来的价值变化5大数据的显著特征大数据最核心的特征——预测！大数据的另一个特征——全样本！6大数据经典案例7大数据经典案例8大数据经典案例9大数据带来的变革InformationTechnologyTechnologyInformation过去的20年，我们为客户提供的是支持业务的信息技术。未来的20年，我们为客户提供的是驱动业务的技术信息。10下一个10年智能经济的浮现工业革命以前，人类认识世界的方法论处在初级阶段，占卜和宗教是人类应对不确定性的重要依据。工业革命带来了一场革命，基于理论推理、实验验证、模拟择优的科学极大地减少了人类面临的不确定性，为人类带来了百余年的繁荣。智能经济是使用决策机制去应对不确定性的一种经济形态。产品、个体、组织、产业、世界都将完成微粒化的解构和智能化的重组。人工智能标志性产品人工智能技术的演变大数据带来的历史变革如何构建数据类产品12什么是人工智能人工智能（ArtificialIntelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。13算法算力数据泛人工智能统计算法机器学习GPU场景传统统计学机器学习（ML）深度学习（DL）什么是人工智能人工智能可以分成两个部分来理解，即“人工”和“智能”。人工，自然就是一些人力所能做到的事情，由人去完成活动。智能，应该理解为智慧和能力。全样本数据落地场景聚类分析回归分析时间序列贝叶斯决策树随机森林卷积神经网络CNN循环神经网络RNN核心4要素14机器学习简介（ML）15机器学习概念介绍机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。三种主要类型的机器学习：监督学习、非监督学习和强化学习。监督学习：涉及一组标记数据。计算机可以使用特定的模式来识别每种标记类型的新样本。无监督学习：数据是无标签的。由于大多数真实世界的数据都没有标签，这些算法特别有用。强化学习：使用机器的个人历史和经验来做出决定。与监督和非监督学习不同，它更关注性能。16机器学习系统的基本原理机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。17回归是最流行的机器学习算法，线性回归算法是基于连续变量预测特定结果的监督学习算法。另一方面，Logistic回归专门用来预测离散值。一般机器学习的应用回归模型Y=aX+b假设a=0.75,b=50，则房价=100*0.75+50=125万。Y:房价X:面积例：如果有100平房子出售应该卖多少钱？18我要买饼干甜的有夹心有夹心咸的椒盐味麻辣味一般机器学习的应用决策树模型分枝根部节点叶节点决策树是一种十分常用的分类方法。就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。19深度学习简介（DL）20神经网络的三个概念：输入层（Inputlayer）：众多神经元接受大量非线形输入讯息。输出层（Outputlayer）：讯息在神经元链接中传输、分析、权衡，形成输出结果。隐藏层（Hiddenlayer）：是输入层和输出层之间众多神经元和链接组成的各个层面。初识神经网路+1代表偏移值(偏置项,BiasUnits)；X1,X2,X2代表初始特征；w0,w1,w2,w3代表权重(Weight)，即参数，是特征的缩放倍数；特征经过缩放和偏移后全部累加起来，此后还要经过一次激活运算然后再输出。21神经网络学习原理训练机器，输入大量的数据进行喂养神经网络做出基本型反应神经网络做抽象概念反应输出预测结构神经网络做复杂结构反应22典型神经网络算法循环神经网络(RecurrentNeuralNetworks，RNN)已经在众多自然语言处理(NaturalLanguageProcessing,NLP)中取得了巨大成功以及广泛应用。卷积神经网络（ConvolutionalNeuralNetworks，CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。人工智能标志性产品人工智能技术的演变大数据带来的历史变革如何构建数据类产品24人工智能突破性的革命2016年3月，阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜；2016年末2017年初，该程序在中国棋类网站上以“大师”（Master）为注册帐号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩；2017年5月，在中国乌镇围棋峰会上，它与排名世界第一的世界围棋冠军柯洁对战，以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平，在GoRatings网站公布的世界职业围棋排名中，其等级分曾超过排名人类第一的棋手柯洁。25AlphaGo是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。专门铺设的赛事光缆3000万个棋局1200多个CPU40个在线网络平台170多个GPUAlphaGo物理组成AlphaGo的物理结构26快速走子网络是一个比较低水平但是计算量也很小的神经网络；专家训练网络通过职业棋手对弈的棋局训练出来的，它的激活函数和具体的卷积核数量自我提升网络通过电脑自我对弈的大量棋局进行提升训练后的网络价值判断进行价值判断的，输入一个对弈局面，黑棋和白棋的胜率.AlphaGo的神经网络结构27Ý棋局判断节点搜索估算结果胜率判断重复计算完成落子1）假设当前棋局状态为St，对于每一种可选择的走法a，选择走a之后的棋局价值Q(St,a)2）将这个叶子节点SL展开，并用“价值判断网络”计算其价值Vθ3）在这个节点的基础上进行多局自我对弈，根据多局对弈的胜负比率来估算胜Z(SL)。最后使用Vθ（SL）和Z(SL)的加权平均来估算此节点的胜率。（4）将估算结果反向更新到这次搜索途经的全部节点，反向更新公式计算。5.之后再从St开始，仍然按照（1）的规则重新搜索。根据落子时间蒙特卡洛结束计算完成棋局落子AlphaGo的计算过程蒙特卡洛博弈树搜索28现在多数企业都上了ERP，但ERP本身不提供决策分析,决策还是靠拍脑袋；企业现阶段需要数据分析类产品提升供应链管理水平。需要多少公司、卖什么如何供应、供多少从哪制造，产多少适合卖那些品类消费者需求变动。趋势配送周期与成本合理吗为什么要做数据类产品29过去两年，阿里巴巴已经用技术为零售业（个人端、消费端的新零售）创造巨大价值，未来这一价值将在制造业（产业端的新制造）、金融业进一步显现。阿里在B端场景应用30数据类产品怎么做用户需求调研基本数据收集异常数据清洗需求分析产品定位数据挖掘数据建模数字资产数据挖掘功能开发测试上线需求完善模型调优快速迭代产品雏形技术初审原型设计需求文档产品规划特征提取产品推荐反馈优化推广应用评估长期收益生命周期管理产品日常运维收益评估31核心概念的解释数据分析：据分析强调使用统计学方法，发现有用信息，支持决策，构造建设性结论。数据挖掘：大数据关联性更加密切，利用人工智能，机器学习，统计学等知识，对于大型数据集进行分析，发现规律，预测未来，辅助决策。数据建模：是对现实世界各类数据的抽象组织，确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。数据建模大致分为三个阶段，概念建模阶段，逻辑建模阶段和物理建模阶段。数据清洗：针对收集上来的数据进行验证，清洗字段不完整的数据或者由于突发事件造成的数据噪点、干扰数据。数据收集：根据业务场景需要，提取业务系统中或手工报表存储的数据，并利用各种手段完善数据质量。32（1）对于每日数据，对于每周数据，剔除掉销量小于15的记录；（2）剔除掉销量处于均值上下两倍标准差之外的记录；（3）留存销量比较高的商品进行分析；（4）产品销售与价格之间的波动趋势分析；（5）进行稳健回归模型计算；（6）剔除掉残差在均值两倍标准差之外的样本点。异常值（Outliers）是指样本中的个别值，其数值明显偏离它（或它们）所属样本的其余观测值，也称异常数据，离群值。在进行量价关系回归过程中，异常值的存在会一定程度地影响需求函数拟合的效果。数据清洗-异常值处理33比如说我们可以假设一个商品真实的弹性服从一个均值为μ，标准差为σ的正态分布，就是一个均值为−3，标准差为1的高斯分布，统计上高斯分布的概率密度函数可以表示为：一个商品存在一个真实固定的弹性值ε，一个数学上更好的描述则是商品在某个时间某个价格下真实的弹性符合一个分布。实际中最常见的分布是正态分布（Normaldistribution）或高斯分布（Gaussiandistribution）。数据挖掘-商品弹性34商品的销量可能受到多重周期性因素的影响，可以将销量描述为关于时间的函数ft，可以通过傅里叶变换将复杂的函数转化成一系列周期性函数之和。傅里叶变换将一个函数转换为sin和cos的和，相当于将一个时间函数映射到频域，在频域空间中正弦波是频域中唯一存在的波形。通过选择能量较高（即较显著）的周期性正弦波，我们可以得出其对应的频率或周期，从而量化地描述商品销量的季节性特征等。数据建模-季节指数35模型校验-校验方法维度一、预测MAPEMAPE（meanabsolutepercentageerror）指标是预测领域标准的一种误差度量方式，是在统计学上较为通用的预测准确度度量方法，其计算公式为：MAPE=1𝑛At−FtAtnt=1其中，At代表N个集合中第t个样本的实际值，Ft代表N个集合中第t个样本的预测值。这种评估标准主要关注整体预测平均的绝对偏差情况，但对预测模型的预测偏多还是偏少的情况难以体现，而且整体指标一定程度上受极差样本的影响。维度二、预测MAPDMAPD（meanabsolutepercentdeviation）指标是计算某个周期内整体的绝对百分比偏差情况，这种方式解决了需求和预测（供应链领域）量化的度量问题，其计算公式为：MAPD=𝐹𝑡−𝐴𝑡/𝐴t其中，At代表集合中某一个的实际值，Ft代表中某一个的预测值，此种评估方式的优点是较为客观地反映了预测绝对值偏差情况，但存在的问题是可能受个别SKU预测偏差极大而影响整体的MAPD值。36谢谢观看！