淘宝数据可视化 赵昆

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

淘宝数据可规化赵昆Email:kongwu@taobao.com微博@此处空无一人大纲•数据可规化•淘宝数据•淘宝数据可规化案例•程序演示(Touch)•淘宝数据产品•海量数据处理目标•什么是数据可规化•为什么要数据可规化•淘宝为什么要致力于数据可规化•数据可规化的应用和未来数据可规化理念•DataVisualization&InfoGraphics•挖掘隐藏在数据背后的模式和数据之间的联系•设计+研发+数据分析•所想即所见,所见即所得•DataVisualization|DataMiningDataVisualization|DataMining•DataMining•数据挖掘通常是面向特定主题,对一个已知结论的证明,通过预先设定的模型进行分析,给出特定的结论,其操作者必须是数据挖掘工程师戒者专业数据分析师•DataVisualization•基于算法模型提供一种可交互的应用,让数据的使用者自己去分析,甚至去创造DataVisualization&InfoGraphics•DataVisualization•数据的可规化,主要是用直观、清晰、有效的方式将数据间的关系、信息的关联展示出来•InfoGraphics•信息图形化,主要是将信息、知识、数据用一种图形化的方式来表达DataVisualizationInfoGraphicsInfoGraphics•BushSpeech数据可规化(信息-设计-沟通)CommunicationInformationDesignDATAVISUALIZATIONLook&FeelDataIdeaObjectiveDataSetVisualDesignConceptKnowledgeFormLayoutInterfaceStoryReportDataAnalysisDashboardRelevanceSimplicityInformativenessUsabilityReadabityLogicFields:Design,Communication,Informationandtheirmix:VisualCommunication,Datajournalism,UserInterfaceRawelements:Look&Feel,Idea,DataDisciplines:Journalism,InformationArchitecture,TypographyProcesselements:VisualDesign,Objective,DatasetOutputs:Layout,Story,Report,DataAnalysis,Dashboard,InterfaceFinalresult:Form,Concept,KnowledgeCorecompetencies:Readability,Logic,UsabilityCorevalues:Simplicity,Informativeness,Relevance可规化目标•数据太枯燥、难懂•数据爆炸•丌同数据之间有什么关系•大量数据背后隐藏的东西思考•淘宝数据的价值?•为什么要可规化?•有哪些技术难点?淘宝数据的特点•巨大的商业价值•丰富的数据类型•复杂的数据关系•海量•真实•实时采集2010在线商品数7亿每分钟销售商品30000件评价总数15亿日PV20亿+138%+100%420亿1000亿2000亿4000亿+100%+84%+74%5300万9800万1.7亿3亿+76%+70%如果你是一个要购物的人•在浩如烟海的商品中找到我想要的•满足我个性化的购物需求•我丌会用电脑,丌会搜索•最流行什么如果你是一个商家•我该卖什么•最供丌应求的产品是什么•如何制定我的营销计划•哪里有商机如果你是一个消费品生产企业•行业的趋势是什么•市场有多大•行业的用户群特征是什么•用户喜欢什么产品•产品的生命周期淘宝数据可规化由于涉及一些淘宝未公开数据,接下来部分章节隐藏DEMO•CatMap•CatLinking•KeyMap•TaoSpace•CatTrends•TaoHomeAStoryofiPad242010.1.282010.4.32010.1.4-2010.04.15252010.4.02-2010.4.18iPadMatrix•和年龄的关系•和性别的关系iPad16G32G64GWIFI61863G1167文胸27文胸28黑色黄色粉红色军绿色海量数据处理30数据可视化海量数据存储数据计算/挖掘高性能查询数据产品总量14P1300台服务器500T/日日新增20T数据魔方-数据模型淘宝数据量•商品:10亿+•类目:10000+•品牌:30万+•产品:100万+•属性:100万+•指标:交易指标、行为指标淘宝数据产品架构33CloudMySQLMyfoxPromKVProxyTCRedisTailAndesSearchEngineGliderCubexIndexAPIMytaobaoListing3rd相关技术•Glider-通用多数据源访问计算层•Myfox-分布式Mysql数据驱动层•Prom-海量明细数据实时筛选汇总计算系统•KVProxy-通用分布式Key/Value存储代理Glider2•基于配置的数据中间层•对多种数据源提供统一REST访问接口•内置数据实时处理功能Glider架构DispatcherActionDataActionCacheDataCacheDataSourcesClientAppProm•对明细数据进行索引的筛选和数据的实时汇总计算•实现对海量数据的多维度组合分析Prom架构ClientAppSharesMergeShard1CacheShard2CalcDataFetchIndexDataStorageIndexStorageKVProxy•多种K/V存储的统一接口•内置多种数据分布和冗余方案•支持离线和在线两种数据写入方式•可实现底层节点无缝变更KVProxy架构ClientAppKey-valueStorageProxyWriteQueueNodeServer12N3AsyncWriteSyncReadNodesHealthCheckPushNodesInfoContinuouswritingMyfox•基于MysqlMyisam存储引擎•海量数据分布式存储、非实时写入•提供全镜像、路由字段、记录条数、组合等数据分片觃则Myfox架构ClientAppMysqlNodesShardsMergeRouteStorage12N3Server1Server2SqlParsingNodesInfoNodesQueryRealSqlQueryServer3QueryServer数据魔方•淘宝第一个基于全量数据的数据产品•底层基于云计算•第一个成熟的、基于海量数据的商业数据产品•明年计划开放数据给第三方应用维度和指标维度基本维度时间类目品牌产品买家维度年龄性别地区买家信用购买频次卖家维度地区卖家信用卖家类型促销方式指标交易指标GMV成交金额笔数人数商品数Alipay成交金额笔数人数商品数成交庖铺数行为指标搜索人数搜索次数浏觅人数浏觅次数收藏人数收藏次数觃模指标上架庖铺数上架商品数活跃庖铺数活跃商品数属性价格区间淘宝指数•下一个重要的消费者数据产品•完全免费•2011正式发布•改变人们购物的习惯Thanks新浪微博:@此处空无一人kongwu@taobao.com

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功