1山西大学研究生项目设计报告(2015----2016学年第1学期)学院(中心、所):计算机与信息技术学院专业名称:软件工程(专硕)课程名称:大数据处理论文题目:网站用户行为分析授课教师(职称):杜亮研究生姓名:温杰年级:2016级学号:201622405011成绩:评阅日期:山西大学研究生学院2016年12月20日2大数据实例:网站用户行为分析大数据实例:网站用户行为分析...................................................................................................2一、案例简介...........................................................................................................................4二、案例目的...........................................................................................................................4三、软件工具...........................................................................................................................4四、案例任务...........................................................................................................................4五、实验步骤...........................................................................................................................55.1、实验步骤一:实验环境准备.................................................................................55.1.1、linux系统的安装........................................................................................55.1.2、Hadoop的安装.........................................................................................65.1.3、MySQL的安装...........................................................................................65.1.4、HBase的安装.............................................................................................85.1.5、Hive的安装................................................................................................85.1.6、Sqoop的安装..........................................................................................105.1.7、Eclipse安装..............................................................................................125.2、实验步骤二:本地数据集上传到数据参考Hive..............................................125.2.1、实验数据集的下载....................................................................................125.2.2、解压下载得到的数据集到指定目录........................................................125.2.3、数据集的预处理........................................................................................135.3、实验步骤三:Hive数据分析..............................................................................155.4、实验步骤四:Hive、MySQL、HBase数据互导............................................195.4.1、Hive预操作..............................................................................................1935.4.2、使用Sqoop将数据从Hive导入MySQL............................................205.4.3、使用Sqoop将数据从MySQL导入HBase.........................................215.5、实验步骤五:利用R进行数据可视化分析.......................................................225.5.1、R安装........................................................................................................225.5.2、可视化分析MySQL中的数据................................................................234一、案例简介本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。二、案例目的1、熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;2、了解大数据处理的基本流程;3、熟悉数据预处理方法;4、熟悉在不同类型数据库之间进行数据相互导入导出;5、熟悉使用R语言进行可视化分析;6、熟悉使用Elipse编写Java程序操作HBase数据库。三、软件工具图1、软件总体概览图四、案例任务1、安装Linux操作系统2、安装关系型数据库MySQL3、安装大数据处理框架Hadoop4、安装列族数据库HBase55、安装数据仓库Hive6、安装Sqoop7、安装R8、安装Eclipse9、对文本文件形式的原始数据集进行预处理10、把文本文件的数据集导入到数据仓库Hive中11、对数据仓库Hive中的数据进行查询分析12、使用Sqoop将数据从Hive导入MySQL13、使用Sqoop将数据从MySQL导入HBase14、使用R对MySQL中的数据进行可视化分析图2、案例所涉及操作总体概览图五、实验步骤5.1、实验步骤一:实验环境准备5.1.1、linux系统的安装该部分内容略去。65.1.2、Hadoop的安装该部分内容详见另一篇参考文档:《Ubuntu伪分布式安装Hadoop详细步骤》.5.1.3、MySQL的安装⒈使用如下命令进行安装MySQL:2.启动MySQL服务器:3.确认是否成功:4.进入MySQLShell界面:75.解决利用Sqoop导入MySQL中文乱码的问题导致导入时中文乱码的原因是character_set_server默认设置为latin1,可以单个设置修改编码方式setcharacter_set_server=utf8;但是重启后会失效,建议使用以下方式修改编码方式。如下图:重启MySQL服务:servicemysqlrestart;登录MySQL后查看MySQL设置的编码。如下图所示:85.1.4、HBase的安装该部分内容略去。5.1.5、Hive的安装1.下载并解压Hive源程序:Hive下载链接2.使用如下命令进入到解压到的目录,重命名解压目录为Hive-1.2.1,修改Hive-1.2.1目录所有者为wenjie.cd/usr/local/sudomvapache-hive-1.2.1-binHive-1.2.1sudochownwenjieHive-1.2.1–R3.配置环境变量为了方便使用,我们把hive命令加入到环境变量中去,命令:gedit~/.bashrc文件,在其中加入代码:exportHIVE_HOME=/usr/local/Hive-1.2.1exportPATH=$PATH:$HIVE_HOME/bin保存退出后,命令source~/.bashrc,使配置生效。4.修改/usr/local/Hive-1.2.1/conf下的hive-site.xml将hive-default.xml.template重命名为hive-default.xml;新建一个文件touchhive-site.xml,并在hive-site.xml中粘贴如下配置信息。95.安装并配置MySQL这里我们采用MySQL数据库保存Hive的元数据,而不是采用Hive自带的derby来存储元数据。下载MySQLJDBC包:下载链接下载好安装包后将mysql-connector-java-5.1.40.tar.gz解压后放入/usr/local/Hive-1.2.1/lib目录下:6.启动并登陆MySQLShell命令如下:servicemysqlstartmysql–uwenjie–p新建wenjie_db数据库:10配置MySQL,允许hive接入:命令如下:grantallon*.*towenjie@localhostidentifiedby‘wj5810831’;#将所有数据库的所有表的所有权限赋给wenjie用户,后面的wj5810831是hive-site.xml中配置的链接密码flushpriviledges;#刷新MySQL系统权限关系表启动hive:启动hive之前,先启动hadoop集群命令如下:start-all.sh#启动hadoop集群Hive#启动hive启动hive成功后,即hive配置成功!5.1.6、Sqoop的安装1.下载并解压sqoop1.4.6:Sqoop下载链接点击下载链接地址下载sqoop安装文件sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz。下载完成后,执行下面命令:2.修改配置文件sqoop-env.sh命令如下:cdSqoop-1.4.6/confcatsqoop-env-template.shsqoop-env.sh11geditsqoop-env.sh3.配置环境变量打开当前用户的环境变量配置文件,在配