大数据技术与应用计算机中心第2章大数据采集及预处理导学一、内容与要求1.理解大数据采集的基本概念,掌握大数据采集的数据来源,了解大数据采集的技术方法。2.了解大数据预处理的方法和了解大数据采集及预处理的常用工具。二、重点、难点重点是大数据采集的概念,大数据采集的数据来源和技术方法。难点是大数据预处理的方法。2.1数据采集简介2.1.1数据采集大数据的数据采集是在确定用户目标的基础上,针对该范围内所有结构化、半结构化和非结构化的数据的采集。传统的数据采集大数据的数据采集数据来源来源单一,数据量相对大数据较小来源广泛,数据量巨大数据类型结构单一数据类型丰富,包括结构化、半结构化、非结构化数据处理关系型数据库和并行数据仓库分布式数据库2.1.2数据采集的数据来源按照数据来源划分,大数据的三大主要来源为:商业数据、互联网数据与物联网数据。1.商业数据商业数据是指来自于企业ERP系统、各种POS终端及网上支付系统等业务系统的数据,是现在最主要的数据来源渠道。2.互联网数据互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。互联网数据具有的特点:大量化多样化快速化3.物联网数据物联网是指在计算机互联网的基础上,利用射频识别、传感器、红外感应器、无线数据通信等技术,构造一个覆盖世界上万事万物的“TheInternetofThings”,也就是“实现物物相连的互联网络”。其内涵包含:物联网的核心和基础仍是互联网,是在互联网基础之上延伸和扩展的一种网络。用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。物联网数据的特点主要包括:物联网中的数据量更大物联网中的数据传输速率更高物联网中的数据更加多样化物联网对数据真实性的要求更高2.1.3数据采集的技术方法1.系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如:Hadoop的ChukwaCloudera的FlumeFacebook的Scribe2.对非结构化数据的采集非结构化数据的采集就是针对所有非结构化的数据的采集,包括企业内部数据的采集和网络数据采集等。企业内部数据的采集是对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的数据采集。网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。3.其他数据采集方法对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。2.2大数据的预处理大数据预处理的方法主要包括:数据清洗、数据集成、数据变换和数据规约。大数据处理流程1.数据清洗数据清洗是在汇聚多个维度、多个来源、多种结构的数据之后,对数据进行抽取、转换和集成加载。目的在于删除重复信息、纠正存在的错误,并提供数据一致性。大数据清洗工具DataWrangler2.数据集成数据集成是把不同来源、不同格式、不同特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统。大数据集成:狭义上讲是指如何合并规整数据;广义上讲数据的存储、移动、处理等与数据管理有关的活动都称为数据集成。大数据集成一般需要将处理过程分布到源数据上进行并行处理,并仅对结果进行集成。3.数据变换数据变换是将数据转换成适合挖掘的形式。数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异(如统计学中的数据标准化)。4.数据规约数据规约是从数据库或数据仓库中选取并建立使用者感兴趣的数据集合,然后从数据集合中滤掉一些无关、偏差或重复的数据,在尽可能保持数据原貌的前提下,最大限度地精简数据量。数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。2.3数据采集及预处理的主要工具1.FlumeFlume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。官网:.LogstashLogstash是一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理,提供Web接口用于查询和统计。官网:.KibanaKibana是一个为Logstash和ElasticSearch提供的日志分析的Web接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。主页:.CeilometerCeilometer主要负责监控数据的采集,是OpenStack中的一个子项目,它像一个漏斗一样,能把OpenStack内部发生的几乎所有的事件都收集起来,然后为计费和监控以及其它服务提供数据支撑。官方网站:.乐思网络信息采集系统主要目标就是解决网络信息采集和网络数据抓取问题。官方网站:.火车采集器通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。官方网站:.网络矿工(上机应用)网络矿工数据采集软件是一款集互联网数据采集、清洗、存储、发布为一体的工具软件。官方网站:(1)进入网络矿工官方网站,下载免费版,本例下载的是sominerv5.33(通常免费版有试用期限,一般为30天)。网络矿工的运行需要.NetFramework2.0环境,建议使用Firefox浏览器。(2)下载的压缩文件内包含多个可执行程序,其中SoukeyNetget.exe为网络矿工采集软件,运行此文件即可打开网络矿工,操作界面如图。(3)点击“新建采集任务分类”,在弹出的“新建任务类别”中输入类别名称,并保存存储路径,如图。(4)在“新建任务管理”中,右键单击“新建采集任务”。在弹出的“新建采集任务”中输入任务名称,如图。(5)在“新建采集任务”中,点击“增加采集网址”,在弹出的操作页面中输入采集网址,如。选中“导航采集”,并点击“增加”导航规则,如图。(6)在“导航页规则配置”中,设置导航规则:,如图。单击确定按钮。(7)配置采集数据的规则:因为要采集新闻的正文、标题、发布时间,可以用三种方式来完成:智能采集、可视化采集和规则配置。以智能采集为例,回到“新建采集任务”中,点击“采集数据”,然后点击“配置助手”,如图。(8)在弹出的“采集规则自动化配置”中,在地址栏输入采集地址,点击“转到”按钮,可以看到百度新闻的页面。再点击“生成文章采集规则”,可以看到系统已经将文章的智能规则输入到系统中,点击“测试”可以检查采集结果是否正确,如图。点击“确定退出”,这样就完成了配置。(9)点击“保存”和“确定”按钮。在返回的“新建采集任务”中,点击“采集任务测试”,输入示例网址:,点击“启动测试”,如图。(10)任务设置完成后,返回最初操作界面,如图。选中任务右键单击“启动”,可看到下面屏幕滚动,停止后则采集完成。(11)采集任务完成后,任务将以.smt文件形式保存在安装路径的tasks文件夹内。右键单击采集任务的名称,在弹出的快捷菜单内选择数据导出的格式,包括文本、Excel和Word等。如选择导出Excel,导出结果如图。本章小结本章主要介绍了大数据的采集、大数据采集的数据来源、大数据采集的技术方法和大数据的预处理,以及大数据采集与预处理的一些工具和简单的采集任务执行范例。大数据采集后为了减少及避免后续的数据分析和数据挖掘中会出现的问题,有必要对数据进行预处理。数据的预处理主要是完成对于已经采集到的数据进行适当的处理、清洗、去噪及进一步的集成存储。