物流大数据处理物流大数据处理采集导入/预处理统计/分析挖掘1234567潘果淘宝数据分析挖掘实践及变革百度大数据分析系统架构京东大数据实时处理技术物流大数据处理简介1234目录【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系你知晓大数据在哪些方面有应用?3132架构化1950-1970数字化1970-1990网络化1990-2010+物联网大数据SomethingBigisHappeningNOW移动互联网云计算4信息技术革命的小周期智慧化51:1MarketingNanotargeting和Retargeting62©IBMIBM2013多渠道交通控制交易分析智慧的医疗国土安全制造金融电信欺诈和风险日志分析搜索质量零售:流失、促销©Copyright2011Corporation大数据在各行各业都可以获得应用24©Copyright2011Corporation©IBMIBM2013获得突破性回报了解关于客户的一切作快速大量地创新产品和风险利用工具化的资产利用大数据能力可以帮助企业获得突破性回报利用大数据独有的技术能力可视化和发现Hadoop执行零延迟的操数据仓库流计算文本分析整合和治理多媒体内容通过分析仸意大数据类型交易/应用数据机器数据社交媒体数据实时侦测欺诈411快杂大大数据的新思维13多数据源的集成浮动车GPS:20M/day手机位置信息:18M/day居民调查:80000户视频/图像数据和元数据:100sofTB/dayGIS数据供水系统智能电网睡眠质量出租车运营数据:1M/day交通卡:19M/day高速路收费数据:0.5M/day社交网络情感分析部分数据来源:BeijingTOCC12大数据的新方法学数据极大丰富前提下的新分析思维和技术采样数据全集数据多数据源的整合基于主观因果假设相关关系大数据+小算法+上下文+知识积累描述性分析预测性和处方性分析实时性绝对的精确性数据数据中介服务生态系统数据拥有者大数据的数据中介数据技术公司数据产品和服务16大数据系统的设计权衡大体量基于采样的查询实时性流计算批量计算精确性惰性数据的即席查询Littledata(个人计算)19城市计算增量计算内存计算案例一:大数据分析系统架构的搭建百度的数据规模•100~1000PB•10~100PB/天•千亿~万亿•百亿~千亿•十亿~百亿/天•十亿~百亿/天•100TB~1PB/天数据总量数据处理量网页索引更新量请求日志离线在线离线分析与在线实验相结合快速迭代是互联网产品的主要创新手段算法A算法B算法B通过反馈来验证算法优劣搜索引擎的迭代5%5%OnlineLearningA/Btest策略机器学习平台FeatureTraining数据网页网页库倒排表DataMining想法原型系统快速开发测试产品部署运维开发框架互联网产品的迭代A/B测试,持续优化数据智能验证数据分析应用引擎云测试应用引擎数据架构技术互联网服务enable数据智能IT产业生产力的变化‘60‘70‘80‘90‘00‘10硬件Mainframe软件PCInternetInf+人+数据Cloud迭代的本质是让人参与系统进化,而BigData为迭代指导方向,Infrastructure则加速迭代。软件+人互联网服务的典型技术特点超大规模快速迭代数据智能软件基础架构大数据数据中心、网络、服务器数据中心计算云计算技术体系DiskFlashPipeK/VFileTable统一存储体系–平衡大容量、高并发、低延迟–不同访问模式通过组合满足统一访问与传输数据访问层P2PCDN分布式存储描述能力数据流优化控制流管理资源分配优先级、并发控制隔离、安全执行层模型层MapReduce表示层SQL-like翻译JoinSelectTop分布式计算BCDA实时存储与计算kNN查询平台向量计算引擎流式数据处理引擎PubSub引擎机器学习算法平台OLAP引擎复杂事件处理引擎分布式数据结构超大规模数据仓库图查询平台实时检索平台向量计算引擎VectorLayoutMap-ShuffleOperators/CheckpointSIMDProgram复杂事件处理average(price)trigger(?,b,c)filter(b)pattern(a-b-c)condition(func(a,b,c))流式计算模型windowstepboundtimeM=Streamwindow,step,bound目标•1000PB•10亿维特征训练•100维条件查询•流式•触发式海量高维、多维实时更大、更复杂、更快!数据智能分布式存储与计算大规模人工辅劣标注系统人计算向量引擎MachineLearning算法WebContents流式处理LogsPubSub推荐系统智能交通Apps自劢评估商业智能决策辅劣关于京东营销管理供应商管理仓储管理财务系统客户数据网站前台关于京东京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验。配送管理大规模数据处理更加容易ETL/企业数据仓库(Hive/Pig/MR)数据挖掘/建模(R、Mahout)搜索和推荐日志存储…•••••“NextClick”运营智能风险控制互动分析„一些场景需要进一步的考量MapReduce批量处理=延迟较长无法满足用户的实时需求调度开销较大批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/预处理„数据决策分析/„„大数据包括三部分服务模型性能大数据实时处理的思考•模型–海量数据•数据量大•并发数高–多个数据源整合–预定义好的数据模型•去规格化–数据任务依赖关系简单–推和拉的问题•拉比推好大数据实时处理的思考•性能–高并发需求–大容量需求•GB–TB级后台数据处理吞吐–高速度需求•从数据产生到处理完成结果延迟要求到秒级•计算需要在短时间内完成–批处理预算–硬件支持•内存、CPU、网络–容错–水平扩展大数据实时处理的思考––––关联获取价值,维度按需定制互动分析、报表等完成价值交付与其他在线生产系统进行数据对接(数据反哺)计算即服务大数据实时处理的思考•服务生产数据库企业数据仓库大数据实时处理架构财务数据集市采销数据集市罗盘数据集市分析挖掘数据集数据缓冲区企业消息总线流式计算集群实时数据同步模型日志系统高速存取集群在线实时计算集群持久化PUSHPULL/PUSH订阅ELTELT高速存取集群ETL报表应用分析应用推荐应用...数据推送中心近实时分析集群近实时计算实时计算在线服务离线计算应用分布式消息系统缓存集群––––日志(用户行为、„)批量同步消息队列„•开源技术––––FlumeScribeKafka„大数据实时处理技术•数据传输•Apache项目:•一个分布式的发布/订阅消息系统•术语–Topics•消息分组–Brokers•消息存储–Producers•消息生产者–Consumers•消息消费者Kafka–––––大数据实时处理技术•几个点SinkAgentAgentStorm等Broker(Topic1)Broker(Topic2)HDFSZookeeper解耦缓冲容错透明跨数据中心数据分发FlumeKafka––––––HadoopHBaseCassandraMongoDBRedis„•数据库Sharding•合适的就是最好的大数据实时处理技术•存储–大容量低速存储–高速存储–KV存储•开源NoSQL数据存储––––可加计算、不可加计算实时数据的实时计算实时数据的计算数据的实时计算•开源计算框架–Storm–Impala–„大数据实时处理技术•计算大数据实时分析明细事实表聚合表1聚合表2聚合表3•基本概念–Streams(流)•元组序列–Spouts•流的源头–Bolts•Functions,Filters,Joins,Aggregations–Topologies•优点–可扩展、容错、易用„–在内存中执行流式计算Storm•Twitter开源的分布式处理框架SpoutsBoltTopologies•Nimbus–主控节点,用于任务分配,集群任务监控等•Zookeeper–集群中协调,共有数据的存放(如心跳信息)•Supervisor–对应一台物理机,用于启动worker•Worker–工作进程,负责启动task,以及通过zeromq进行tuple的分发,与接收。•Task–工作线程,任务的处理Storm的部署Storm的应用模式用户查询大数据存储数据视图集(批处理)数据流HadoopStorm数据视图集(实时处理)数据流数据视图集(实时处理)数据视图集(实时处理)流式计算流式计算应用事件收集器Storm前段展现•事件驱动实现•注意–内存泄露–消息堆积–算法模块拆分流式计算––––分析可视化数据可视化数据反哺计算即服务•仔细思考其价值–––––实时的统计:最流行广告CTR预测ETL:格式转换、重复值过滤、„运营需求:资源调派„大数据实时处理技术•服务和应用•价值展现•对系统的压力–数据量–数据展现–数据读写和传输•解决方法–前端和后端解耦•缓存的应用•JS发挥前端的能力–压缩–排队•异步、非阻塞IO模型•线程池•事件驱动–后端更强劲•数据库集群:分库、分表、分区•NoSQL数据库:Hbase、MongoDB等数据应用的问题淘宝数据分析挖掘实践及变革淘宝数据四阶段•被动响应–2007年前•主动变革–2008-2010•优化完善–2011-2012•引领驱动–2013-数据系统变迁2007年前数据库(集群)脚本简单调度数据报表2008-2010Hadoop集群调度监控实时日志传输数据门户多维分析2011-2012Hadoop集群DXP公有云实时Storm调度监控实时日志传输实时数据库同步数据门户自助查询工具元数据管理2013-数据驱动新模式探索调度监控业务库(Mysql)LogServer外部数据数据源数据计算平台数据门户多维自助查询平台OpenAPI数据平台架构数据应用数据收集DBSyncTTDataX……HiveHDFSHbase实时计算Storm…OceanBase分布式集群量子恒道在云端接入数据魔方DXP数据交换平台冷数据集群数据应用格局对外数据产品•数据魔方/淘宝指数–行业趋势–人群特征–成交排行–市场细分•量子恒道–销售分析–营销效果–来源分析•搜索排行榜对外数据产品•淘宝时光机––回忆的感动•排行榜对外数据产品-淘宝指数对外数据产品-量子恒道数据嵌入产品中•搜索匹配、排序•广告匹配、排序•推荐•商家后台数据•营销效果–直通车、展示广告、淘宝客内部数据服务•淘数据门户–用户分析–商家云图–活动效果分析–例行数据报表•在云端–低门槛接入分布式集群–周活跃用户1000+内部数据服务•多维数据自助查询平台–数据仓库和索引技术结合–随意组合维度–秒级返回•日常数据需求管理–数据接口人数据工具•天网调度•元数据管理•数据地图-定位、血缘分析•DataX异源数据传输•TimeTunnel实时日志传输•监控报警•生命周期管理新的探索•金融服务–小微企业贷款–个人消费贷款•全网精准营销–DMP、DSP、ADExchange、RTB•无线与PC数据打通•数据交换一些观点•数据处理是手段,数据应用是根本•云系统运维能力是核心竞争力•整合关联让数据价值指数级增长•数据可视化很重要•想大做小,迭代优化•关于隐私–隐私和服务的权衡–控制使用比控制收集更有效–不针对具体个体初识物流物流信息技术物流信息平台概念发展历程物流的概念(Logistics)•来源于二战军事(运输管理、仓储管理和库存管理)•物流管理:除运输外的需求预测、采购、生产计划、存货管理、配送与客户服务等物流信息技术条码技术射频技术物流信息技术EDI技术G