1《人工智能》课程结课论文课题:机器学习与大数据姓名:学号:班级:指导老师:2015年11月13日1机器学习与大数据摘要大数据并不仅仅是指海量数据,而更多的是指这些数据都是非结构化的、残缺的、无法用传统的方法进行处理的数据。大数据时代的来临,随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。然而随着大数据“越来越大”的发展趋势,我们在分析和处理的过程中感觉到的困难也愈加的多了。这个时候我们想到了机器学习。机器学习几乎无处不在,即便我们没有专程调用它们,它们也经常出现在大数据应用之中,大数据环境下机器学习的创新和发展也倍加受到了关注。关键词:大数据;机器学习;大数据时代MachinelearningandbigdataAbstractBigdataisnotonlyreferstothehugeamountsofdata,andtotalkaboutthesearestructured,broken,can'tusethetraditionalmethodofprocessingdata.Comingoftheeraofbigdata,withtheindustrytotheexplosionofdatavolumes,largedataconceptismoreandmoreattention.However,asthedata,thedevelopmenttrendofgrowingintheprocessofanalysisandprocessingwefeelismoredifficult.Thistimewethoughtaboutthemachinelearning.Machinelearningisalmosteverywhere,evenifwedon'thavetocallthemspecially,theyarealsooftenappearinthebigdataapplications,largedatamachinelearningundertheenvironmentofinnovationandthedevelopmentalsohasreceivedtheattention.Keywords:BigData;Machinelearning;AgeofBigData2目录第1章引言.........................................................2第2章机器学习与大数据.............................................32.1机器学习....................................................32.2大数据......................................................3第3章大数据时代下的机器学习.......................................33.1大数据时代..................................................33.2机器学习已成为大数据的基石..................................33.3机器学习帮助数据日志的分析解决..............................4第4章大数据时代应运而生的机器学习新趋势...........................44.1机器学习的研究方向..........................................44.2机器学习适应大数据时代发展..................................4第5章结束语.......................................................5参考文献....................................................5第1章引言机器学习几乎无处不在,即便我们没有专程调用它们,它们也经常出现在大数据应用之中。随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。机器学习是继专家系统后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。随着产业界数据量的爆炸式增长,数据以前所未有的速度积累,大数据(Bigdata)概念受到越来越多的关注。大数据正在给数据密集型企业带来丰厚的利润,大数据是现有产业升级与新产业诞生的保障。3第2章机器学习与大数据2.1机器学习机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。机器学习与人工智能各种基础问题的统一性观点正在形成。例如学习与问题求解结合进行、知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。类比学习与问题求解结合的基于案例方法已成为经验学习的重要方向。学习是一项复杂的智能活动,学习过程与推理过程是紧密相连的,按照学习中使用推理的多少,机器学习所采用的策略大体上可分为4种——机械学习、通过传授学习、类比学习和通过事例学习。学习中所用的推理越多,系统的能力越强。[1]2.2大数据随着大数据时代的到来,大数据逐渐成为学术界和产业界的热点、国际数据公司定义了大数据的四大特征:海量的数据规模(vast)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。[2]“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。[3]在很多领域,如互联网和金融领域,训练实例的数量是非常大的,每天汇合几十亿事件的数据集是很常见的。另外,越来越多的设备包括传感器,持续记录观察的数据可以作为训练数据,这样的数据集可以轻易地达到几百TB。当前全球和我国大数据都呈现了井喷式爆发性增长,大数据已经渗透到各个行业和业务职能领域,成为重要的生产因素,大数据的演进与生产力的提高有着直接的关系。第3章大数据时代下的机器学习3.1大数据时代大数据将成为各类机构和组织,乃至国家层面重要的战略资源。重视数据资4源的搜集、挖掘、分享与利用,成为当务之急。大数据的公开与分享成为大势所趋,政府部门必须身先士卒,机构组织的变革与全球治理成为必然的选择。[4]3.2机器学习已成为大数据的基石机器学习对大数据应用投资回报的贡献主要体现在两个方面:一是促进数据科学家们的多产性;二是发现一些被忽视的方案,有些方案甚至遭到了最好的数据科学家们的忽视。这些价值来自于机器学习的核心功能:即让分析算法无需人类干预和显式程序即可对最新数据进行学习。许多情况下,机器学习是大数据创新的最佳投资回报。对机器学习的投资能够深化任何对企业定制的大数据案例。“深入学习”(deeplearning)成为了大数据科学家的机器学习指令系统中的一个重要工具。利用神经网络开展的深入学习有助于从这些数据流中提取感知能力,因为这些数据流可能涉及组成对象之间语义关系的层次结构安排。[5]3.3机器学习帮助数据日志的分析解决自动化是深入了解日志数据的关键,因为日志数据在大数据领域里成规模分布。自动化可以确保数据的采集,分析处理,同时,它对数据的显示结果规制和事件驱动的履行和数据流一样高速。日志分析自动化主要引擎包括机器数据集成中间件,业务规则管理系统,语义分析,数据流计算平台和机器学习算法。不同的机器学习技术适合不同类型的日志数据以及不同的分析挑战。利用相关性与其它现有模式为机器学习机制构建先验性监督方案才是正确的处理方式。如果日志数据模式无法以预告方式作出精确定义,那么非监督性强化学习机制可能更为适合。这些由机器学习技术支持的日志数据分析方案可谓自动化处理的最理想场景,因为此类方案会自主选择匹配程度较高的处理模式并进行优先级排序,从而在无法人为提供培训数据集的前提下完成既定任务。第4章大数据时代应运而生的机器学习新趋势4.1机器学习的研究方向在整个机器学习的发展历程中,一直有两大研究方向。一是研究学习机制,注重探索、模拟人的学习机制;二是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。随着大数据时代各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的5主要推动力。4.2机器学习适应大数据时代发展大数据时代的机器学习更强调“学习本身是手段”,机器学习成为一种支持技术和服务技术,如何基于机器学习对复杂多样的数据进行深层次的分析,更高效地利用信息成为当前机器学习研究的主要方向。机器学习越来越朝着智能数据分析的方向发展,并已成为智能数据分析技术的一个重要源泉。另外,在大数据时代,随着数据产生速度的持续加快,数据的体量有了前所未有的增长,而需要分析的新的数据种类也在不断涌现,如文本的理解、文本情感的分析、图像的检索和理解、图形和网络数据的分析等,机器学习研究领域涌现了很多新的研究方向,很多新的机器学习方法被提出并得到了广泛应用。第5章结束语大数据具有属性稀疏、超高维、高噪声、数据漂移、关系复杂等特点,导致传统机器学习算法难以有效处理和分析。新的大数据时代的到来意味着处理大数据的工作将有一套新的方式,也就是机器学习与大数据分析的紧密关系,在人工智能领域崭露头角的机器学习将联合大数据在更多领域实现更强大的功能,人工智能技术也会有新的突破。研究机器学习理论和方法,以实现超高维、高稀疏的大数据中的知识发现。参考文献[1]蔡自兴,蒙祖强.人工智能基础[M].北京.高等教育出版社.152.[2]荆林波.大数据时代带来的大变革[J].中国青年报.中国社会科学评价中心,2014-05-26,02版.[3]百度百科.[4]荆林波.大数据时代带来的大变革[J].中国青年报.中国社会科学评价中心,2014-05-26,02版.[5]JamesKobielus.机器学习已成为大数据的基石[J].2014-03-24.