大数据安全与应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1目录一、大数据的来源四、成功案例五、大数据安全二、什么是大数据三、大数据的应用2引言→电影《永无止境》库珀能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视、几十年前的报纸、互联网、小道消息等)挖掘出来,串联起来,甚至将FaceBook、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前,结果在10天内他就赢得了200万美元。这部电影简直是展现大数据魔力的教材性电影,推荐没有看过的IT人士看一看。在企业、行业和国家的管理中,通常只有效使用了不到20%的数据(甚至更少),如果剩余80%数据的价值激发起来,世界会变得怎么样呢?《永无止境》是由尼尔·博格执导的悬疑电影,由布莱德利·库珀、罗伯特·德尼罗和安娜·弗莱尔等联袂出演,所讲述的是一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。3数据本质是生产资料和资产不可再生资源VS数据4数据爆炸式增长(每分钟……)5需要不同“看”数据的方式可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…610万GB10万TB需要更高性价比的数据计算与储存方式数据库DB数据仓库DW计算更快存储更省785%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile7需要不同的数据管理策略当我们想要扩充时,才发觉:•架构只能scale-up,scale-out不易•处理时间过长,time-to-value受限•成本过高,cost-efficiency受限15%结构化的DB/DW遗憾残缺8每天几百GB、几TB的资料,且持续成长中储存Storing在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing超越企业现有IT的数据解决能力9大数据的来源适应新时代,解决新问题10目录二、什么是大数据一、大数据的来源四、成功案例五、大数据安全三、大数据的应用11更结构化没有固定结构的数据,通常保存成不同类型的文件举例:文本文档、PDF文档、图像和视频具有不规则数据格式的文本数据,通过使用工具可以使之格式化举例:包含不一致的数据值和格式的网站点击数据具有可识别的模式并可以解析的文本数据文件举例:自描述和具有定义模式的XML数据文件包括预定义的数据类型、格式和结构的数据举例:事务性数据和联机分析处理什么是数据?结构化半结构化“准”结构化非结构化1212SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是数据?半结构化/非结构化数据133/13/20124什么是大数据?14何为大?—数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes3/13/20126什么是大数据?15《红楼梦》含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB约等于671部红楼梦1TB约等于631,903部1PB约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB=4000倍美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,同时,消费者在PC和笔记本等设备上存储了超过6EB新数据3/13/20127数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务什么是大数据?16对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征.大数据的定义17大数据带来的思维变革18大数据带来的思维变革(更多)19大数据带来的思维变革(更多)20大数据带来的思维变革(更多)21大数据带来的思维变革(更多)22大数据带来的思维变革(更杂)从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;大数据的简单算法比小数据的复杂算法更有效;−IBM的机器翻译VSGoogle的机器翻译;纷繁的数据越多越好;−大数据时代要求我们重新审视数据精确性的优略;−大数据不仅让我们不再期待精确性,也让我们无法实现精确性;−错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;混杂性,不是竭力避免,而是标准途径;23大数据带来的思维变革(更好)佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。佛教关于因果报应的解释原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。哲学范畴的因果关系大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;舍恩伯格对大数据的相关性解释Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”24大数据的构成大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。25大数据的4V特征Volume•非结构化数据的超大规模和增长•总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍Value•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity•实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效Variety•大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义BigData大数据TBPBEBStreamsRealtimeNeartimeBatchStructuredUnstructuredSemi-structuredAlltheabove26大数据的4V特征(Volume)1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和27大数据的4V特征(Velocity)•实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;•1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;28大数据的4V特征(Variety)29大数据的4V特征(Value)•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;•价值密度低,是大数据的一个典型特征;大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体30行业数据处理方式价值银行/金融•贷款、保险、发卡等多业务线数据集成分析、市场评估•新产品风险评估•股票等投资组合趋势分析•增加市场份额•提升客户忠诚度•提高整体收入•降低金融风险医疗•共享电子病历及医疗记录,帮助快速诊断•穿戴式设备远程医疗•改善诊疗质量•加快诊疗速度制造/高科技•产品故障、失效综合分析•专利记录检索•智能设备全球定位,位置服务•优化产品设计、制造•降低保修成本•加快问题解决能源•勘探、钻井等传感器阵列数据集中分析•降低工程事故风险•优化勘探过程互联网/Web2.0•在线广告投放•商品评分、排名•社交网络自动匹配•搜索结果优化•提升网络用户忠诚度•改善社交网络体验•向目标用户提供有针对性的商品与服务政府/公用事业•智能城市信息网络集成•天气、地理、水电煤等公共数据收集、研究•公共安全信息集中处理、智能分析•更好地对外提供公共服务•舆情分析•准确预判安全威胁媒体/娱乐•收视率统计、热点信息统计、分析•创造更多联合、交叉销售商机•准确评估广告效用零售•基于用户位置信息的精确促销•社交网络购买行为分析•促进客户购买热情•顺应客户购买行为习惯13大数据商业价值31Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题32大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题大数据产品RDBMSAnalyticalDBNoSQLDBERP/CRMSaaSSocialMediaWebAnalyticsLogFilesRFIDCallDataRecordsSensorsMachine-Generated大数据管理存储处理过滤大数据终端使用挖掘分析搜索扩充33软件是大数据的引擎•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!34IBMC&PIndustry需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,x86/MPPMapReduceStreamingDataInfiniBandEnterpriseSearch数据分析技术TextAnalyticsEngine自然语言处理、文本情感

1 / 139
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功