第3章大数据分析概论

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据技术与应用计算机中心第3章大数据分析概论导学一、学习目标1、理解大数据分析;掌握大数据分析的基本方法及流程。2.熟悉大数据分析的技术和作用。3.掌握四种类型大数据的特点及了解典型分析处理系统。4.了解网络与医学大数据的分析。二、重点、难点1、大数据的基本分析方法预测性分析、可视化分析、大数据挖掘算法、语义引擎、数据质量和数据管理2、大数据的分析流程提出问题、大数据理解、大数据的采集、大数据的预处理、大数据分析、结果的解析3、大数据分析的主要技术深度学习、知识计算及可视化等3.1大数据分析简介3.1.1大数据分析大数据分析是指对规模巨大的数据进行分析。通过多个学科技术的融合,实现数据的采集、管理和分析,从而发现新的知识和规律。提出问题数据采集数据分析可视化效果评估大数据分析流程数据质量和数据管理3.1大数据分析简介3.1.2大数据分析的基本方法预测性分析可视化分析大数据挖掘算法语义引擎从大数据中挖掘出有价值的知识和规则,通过科学建模的手段呈现出结果,然后可以将新的数据带入模型,从而预测未来的情况。常用的数据挖掘方法有:分类、预测、关联规则、聚类、决策树、描述和可视化、复杂数据类型挖掘(Text、Web、图形图像、视频、音频)等。能够直观的呈现大数据特点,同时能够非常容易被用户所接受。语义引擎通过对网络中的资源对象进行语义上的标注,以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面的实现用户的检索。为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。3.1大数据分析简介分析结果的解析数据数据分析数据预处理数据采集数据理解提出问题3.1.3大数据处理流程3.2大数据分析的主要技术3.2.1深度学习深度学习是一种能够模拟出人脑的神经结构的机器学习方式,从而能够让计算机具有人一样的智慧。利用层次化的架构学习出对象在不同层次上的表达,这种层次化的表达可以帮助解决更加复杂抽象的问题。德国小镇一瞥梵高的星夜风格的小镇3.2大数据分析的主要技术3.2.2知识计算知识计算是从大数据中首先获得有价值的知识,并对其进行进一步深入的计算和分析的过程。也就是要对数据进行高端的分析,需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析与计算的知识库。心房颤动知识图谱心肌炎知识图谱3.3大数据分析系统简介3.3.1批量数据及处理系统批量数据通常是数据体量巨大,如数据从TB级别跃升到PB级别,且是以静态的形式存储。Hadoop是典型的大数据批量处理架构,由HDFS负责静态数据的存储,通过MapReduce将计算逻辑、机器学习和数据挖掘算法实现。3.3大数据分析系统简介3.3.2流式数据及处理系统流式数据是一个无穷的数据序列,序列中的每一个元素来源不同,格式复杂,序列往往包含时序特性。流式数据处理有Twitter的Storm,Facebook的Scribe,Linkedin的Samza等。3.3大数据分析系统简介3.3.3交互式数据及处理系统交互式数据是操作人员与计算机以人机对话的方式产生的数据。交互式数据处理系统有Berkeley的Spark和Google的Dremel等。3.3大数据分析系统简介3.3.4图数据及处理系统图数据是通过图形表达出来的信息含义。图数据处理的典型的系统,如Google的Pregel系统、Neo4j系统和微软的Trinity系统。3.4大数据分析的应用互联网领域用户行为数据分析用户消费数据分析用户地理位置数据分析互联网金融数据分析用户社交等数据分析3.4大数据分析的应用医疗领域公共卫生循证医学基因组分析设备远程监控病人资料分析疾病预测临床操作3.4大数据分析的应用提出分析方案实际数据导入数据源及数据特征分析硬件设计方案ETL过程系统配置互联网用户行为分析技术上分析测试经验总结例:某互联网公司用户行为数据进行实时分析简单测试ETL:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。NLPIR汉语分词系统(上机实验)本章小结大数据分析为处理结构化与非结构化的数据提供了新的途径。通过本章内容的学习,应该学会大数据分析的方法,掌握大数据分析的一般流程与主要技术为大数据的分析应用奠定基础。

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功