目录•一大数据与云计算•二机器学习、深度学习和人工智能•三编程语言的选择•四机器学习算法介绍•五算法案例介绍一大数据与云计算什么是大数据?大数据特征定义大数据时代要具备大数据思维维克托·迈尔-舍恩伯格认为:1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。大数据的价值所在?•如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。•未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。云计算和大数据的关系云计算充当了工业革命时期的发动机的角色,而大数据则是电。云计算思想:把计算能力作为一种像水和电一样的公用事业提供给用户。二机器学习、深度学习和人工智能•任何通过数据训练的学习算法的相关研究都属于机器学习。比如线性回归(LinearRegression)、K均值(K-means,基于原型的目标函数聚类方法)、决策树(DecisionTrees,运用概率分析的一种图解法)、随机森林(RandomForest,运用概率分析的一种图解法)、PCA(PrincipalComponentAnalysis,主成分分析)、SVM(SupportVectorMachine,支持向量机)以及ANN(ArtificialNeuralNetworks,人工神经网络)。•深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。•人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。人工智能与机器学习、深度学习的关系三编程语言的选择PKR与Python语言的区别学习难度大入门简单适合处理大量数据功能强大命令式编程统计功能强大Python在线学习推荐----菜鸟教程Anaconda:初学Python、入门机器学习的首选NumPyScipyTensorFlowMatplotlibPandasScikit-Learn四机器学习算法介绍拥抱人工智能从机器学习开始•机器学习最大的特点是利用数据而不是指令来进行各种工作,其学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分。机器学习算法是使计算机具有智能的关键•算法是通过使用已知的输入和输出以某种方式“训练”以对特定输入进行响应。代表着用系统的方法描述解决问题的策略机制。人工智能的发展离不开机器学习算法的不断进步。机器学习算法分类1.线性回归:找到一条直线来预测目标值•一个简单的场景:已知房屋价格与尺寸的历史数据,问面积为2000时,售价为多少?线性回归的应用•预测客户终生价值:基于老客户历史数据与客户生命周期的关联关系,建立线性回归模型,预测新客户的终生价值,进而开展针对性的活动。•机场客流量分布预测:以海量机场WiFi数据及安检登机值机数据,通过数据算法实现机场航站楼客流分析与预测。•货币基金资金流入流出预测:通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。•电影票房预测:依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。2.逻辑回归:找到一条直线来分类数据•逻辑回归虽然名字叫回归,却是属于分类算法,是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中,预估事件出现的概率并分类。逻辑回归从直观上来说是画出了一条分类线。位于分类线一侧的数据,概率0.5,属于分类A;位于分类线另一侧的数据,概率0.5,属于分类B。3.K-近邻:用距离度量最相邻的分类标签•一个简单的场景:已知一个电影中的打斗和接吻镜头数,判断它是属于爱情片还是动作片。当接吻镜头数较多时,根据经验我们判断它为爱情片。那么计算机如何进行判别呢?4.朴素贝叶斯:选择后验概率最大的类为分类标签•一个简单的场景:一号碗(C1)有30颗水果糖和10颗巧克力糖,二号碗(C2)有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。•问这颗水果糖(X)最有可能来自哪个碗?例如上面的例子中:P(X):水果糖的概率为5/8P(X|C1):一号碗中水果糖的概率为3/4P(X|C2):二号碗中水果糖的概率为2/4P(C1)=P(C2):两个碗被选中的概率相同,为1/2则水果糖来自一号碗的概率为:$P(C1|X)=P(X|C1)P(C1)/P(X)=(3/4)(1/2)/(5/8)=3/5水果糖来自二号碗的概率为:P(C2|X)=P(X|C2)P(C2)/P(X)=(2/4)(1/2)/(5/8)=2/5P(C1|X)>P(C2|X)因此这颗糖最有可能来自一号碗。朴素贝叶斯的主要应用有文本分类、垃圾文本过滤,情感判别,多分类实时预测等。5.决策树:构造熵值下降最快的分类树•一个简单的场景:相亲时,可能首先检测相亲对方是否有时间。如果有,则考虑进一步接触,再观察其是否有上进心,如果没有,直接SayGoodbye。如果有,则在看帅不帅,帅的可以列入候选名单。决策树可以应于:用户分级评估、贷款风险评估、选股、投标决策等。6.支持向量机(SVM):构造超平面,分类非线性数据一个简单的场景:要求用一根线将不同颜色的球分开,要求尽量在放更多球之后,仍然适用。A、B两条线都可以满足条件。再继续增加球,线A仍可以将球很好的分开,而线B则不可以。进一步增加难度,当球没有明确的分界线,用一条直线已经无法将球分开,该怎么解决?SVM可应用于垃圾邮件识别、手写识别、文本分类、选股等。7.K-means:计算质心,聚类无标签数据•在上面介绍的分类算法中,需要被分类的数据集已经有标记,例如数据集已经标记为○或者×,通过学习出假设函数对这两类数据进行划分。而对于没有标记的数据集,希望能有一种算法能够自动的将相同元素分为紧密关系的子集或簇,这就是聚类算法。•8.关联分析:挖掘啤酒与尿布(频繁项集)的关联规则•算法中几个相关的概念:频繁项集:在数据库中大量频繁出现的数据集合。例如购物单数据中{'啤酒'}、{'尿布'}、{'啤酒','尿布'}出现的次数都比较多。关联规则:由集合A,可以在某置信度下推出集合B。即如果A发生了,那么B也很有可能会发生。例如购买了{'尿布'}的人很可能会购买{'啤酒'}。支持度:指某频繁项集在整个数据集中的比例。假设数据集有10条记录,包含{'啤酒','尿布'}的有5条记录,那么{'啤酒','尿布'}的支持度就是5/10=0.5。置信度:有关联规则如{'尿布'}-{'啤酒'},它的置信度为{'尿布'}-{'啤酒'}假设{'尿布','啤酒'}的支持度为0.45,{'尿布'}的支持度为0.5,则{'尿布'}-{'啤酒'}的置信度为0.45/0.5=0.9。9.PCA降维:减少数据维度,降低数据复杂度•降维是指将原高维空间中的数据点映射到低维度的空间中。因为高维特征的数目巨大,距离计算困难,分类器的性能会随着特征数的增加而下降;减少高维的冗余信息所造成的误差,可以提高识别的精度。10.人工神经网络:逐层抽象,逼近任意函数•前面介绍了九种传统的机器学习算法,现在介绍一下深度学习的基础:人工神经网络。它是模拟人脑神经网络而设计的模型,由多个节点(人工神经元)相互联结而成,可以用来对数据之间的复杂关系进行建模。•例如利用单层神经网络实现逻辑与门和同或门•多层神经网络的每一层神经元学习到的是前一层神经元值的更抽象的表示,通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。11.深度学习:赋予人工智能以璀璨的未来•深度学习就是一种基于对数据进行表征学习的方法,使用多层网络,能够学习抽象概念,同时融入自我学习,逐步从大量的样本中逐层抽象出相关的概念,然后做出理解,最终做出判断和决策。通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性。深度学习的历史变迁:深度学习经历了三次浪潮:20世纪40年代~60年年代,深度学习的雏形出现在控制论中;20世界80年代~90年代,深度学习表现为联结主义;2006年以后,正式以深度学习之名复兴。•第一次浪潮:以感知机和线性模型为代表不能解决与或问题•第二次浪潮:以多层感知机和BP模型为代表以统计学为基础,应用核函数和图模型的支持向量机算法(SVM算法)等各种浅层有监督的机器学习模型广泛应用,且深度神经网络不可训练•第三次浪潮:以无监督学习为代表。解决了深层神经网络的计算能力问题;解决了深度神经网络后向误差反馈梯度消失的问题。•最初,人工神经网络中神经元之间的连接数受限于硬件能力。而现在,神经元之间的连接数大多是出于设计考虑。一些人工神经网络中每个神经元的连接数与猫一样多,并且对于其他神经网络来说,每个神经元的连接数与较小哺乳动物(如小鼠)一样多,这种情况是非常普遍的。甚至人类大脑每个神经元的连接数也没有过高的数量。•1.自适应线性单元(WidrowandHoff,1960);2.神经认知机(Fukushima,1980);3.GPU-加速卷积网络(Chellapillaetal.,2006);4.深度玻尔兹曼机(SalakhutdinovandHinton,2009a);5.无监督卷积网络(Jarrettetal.,2009b);6.GPU-加速多层感知机(Ciresanetal.,2010);7.分布式自编码器(Leetal.,2012);8.Multi-GPU卷积网络(Krizhevskyetal.,2012a);9.COTSHPC无监督卷积网络(Coatesetal.,2013);10.GoogLeNet(Szegedyetal.,2014a与日俱增的每个神经元的连接数•自从引入隐藏单元,人工神经网络的规模大约每2.4年翻一倍。•1.感知机(Rosenblatt,1958,1962);2.自适应线性单元(WidrowandHoff,1960);3.神经认知机(Fukushima,1980);4.早期后向传播网络(Rumelhartetal.,1986b);5.用于语音识别的循环神经网络(RobinsonandFallside,1991);6.用于语音识别的多层感知机(Bengioetal.,1991);7.均匀场sigmoid信念网络(Sauletal.,1996);8.LeNet5(LeCunetal.,1998c);9.回声状态网络(JaegerandHaas,2004);10.深度信念网络(Hintonetal.,2006a);11.GPU-加速卷积网络(Chellapillaetal.,2006);12.深度玻尔兹曼机(SalakhutdinovandHinton,2009a);13.GPU加速深度信念网络(Rainaetal.,2009a);14.无监督卷积网络(Jarrettetal.,2009b);15.GPU-加速多层感知机(Ciresanetal.,2010);16.OMP-1网络(CoatesandNg,2011);17.分布式自编码器(Leetal.,2012);18.MultiGPU卷积网络(Krizhevskyetal.,2012a);19.COTSHPC无监督卷积网络(Coatesetal.,2013);20.GoogLeNet(Szegedyetal.,2014a)与日俱增的神经网络规模•目前深度学习的应用十