亿级大数据实时分析平台大数据的故事:价值为美•大量,快速,多样,变化等•采样的数据价值明显降低•实时数据的价值为最大•大数据外表光鲜亮丽,内则无可奈何•大数据的变现之殇《大数据的8个小观点》小米的大数据技术框架数据采集数据存储数据管理数据分析算法可视化ScribeETLHDFSHBASEKafkaHueKerberosMapReduceSparkStromHiveImpala机器学习自然语言数据挖掘统计分析JavaScriptE-ChartsH5/AppZookeeperDruidESKUDU小米大数据应用广告营销•点击预估•人群画像•营销DMP•精准营销搜索和推荐互联网金融精细化运营防黄牛图片分析和处理小米大数据实时分析场景案例数据分析的几个步骤数据收集•JS•SDK•Server2Server数据处理•清洗去噪•反虚假数据数据建模•模型管理•模型优化数据分析•数据报告•数据预警•数据洞察数据可视化•热力图•切片聚合战略分析诊断型分析响应型分析商业报表竞品分析,趋势分析智能引擎,预测模型预测型分析行动建议大数据分析工具MOLAPDRUIDElasticSearchkylinPinotROLAPImpalaHiveSparkSQLMySQL开源方案商业方案如何选择数据分析工具小米数据统计分析平台-架构LVS/NGIXAnalyticsServerScribeLogHDFSKafkaStormMapReduceSparkHBaseMySQLESQueryServerRedisDRUIDFE-WEB运营洞察一些分析工具的技术和应用Pinot为什么青睐HBase?•天⽣为了⼤数据•改变Schema的时候平滑•扩容⽅便•成本考虑•Facebook等公司做出了很好的⽰范•⼀些重要的Feature•CheckAndPut•Increment原⼦性•RowKeyTTL•单RegionServer内的强⼀致•⾼I/O我们有三位HBaseCommitter!Hbase在小米的改进HBase在小米的改进HBase在小米如何从MySQL平滑迁移到HBASE?1.双写HBase和mysql2.迁移历史数据(使⽤用⽼老的时间戳)3.双读HBase和mysql,验证数据⼀一致性4.灰度返回HBase结果APPMySQLHBase几种开源MOLAP分析工具的比较DRUIDPinotkylin使用场景实时处理分析实时处理分析OLAP分析引擎开发语言JAVAJAVAJAVA接口协议JSONJSONOLAP/JDBC发布时间201120152015SponsorMetaMarkets/YahooLinkedIneBay技术实时聚合实时聚合预处理,CacheDRUID特点•来自METAMarkets,应用在Yahoo,OneAPM,小米,阿里,Baidu•为分析而设计•为OLAP而生,它支持各种filter、aggregator和查询类型•交互式查询•低延迟数据,内部查询为毫秒级,•高可用性•集群设计,去中性化规模的扩大和缩小不会造成数据丢失。•可伸缩•现有的Druid部署每天处理数十亿事件和TB级数据。Druid被设计成PB级别。DRUIDArchitecture:*Pinot,PowerDrill,DremelDRUID使用场景:广告实时统计分析架构图(非计费部分)FrontDoor点击/展现KafkaHDFSScribeDRUIDDataReplayDataViewer什么是Pinot•分布式的实时OLAP数据分析平台•用于LinkedIn内部,50个场景,250*3节点•“谁看了我的Profile”•“广告创建,跟踪”•“内部数据分析BI等”•功能•SQL-Like查询,不支持JOIN•支持多种数据源Kafka,Hadoop•自动数据过期等•不支持UDF(开发中)PinotComponentsArchitectureApacheKYLIN麒麟:eBay开源的分析引擎•分布式分析引擎•提供大部分SQL查询•与BI工具集成,例如Tableau•完整的工具集合•管理界面•任务监控•增量更新结构图Kylin使用的场景:FastCubing场景一:API请求的分析:响应时间,错误类型等场景二:一些广告返回类型的分析查询延迟:秒级别支持EXCEL客户端的多维表ApacheKUDUHDFS:批处理,大数据高效,高延时HDFS:大吞吐,低延时(1msr/wSSD)HBASE:小吞吐,低延时来源于Cloudera场景:实时数据分析,数据报表,读写数据操作小米应用:服务质量监控,问题排查工具小米KUDU的实践KUDU之前的数据流•ETL:高延时•LOG无序计算•需要等待完整数据,才开始计算简化ETL流程访问性能优良DataSourceKAFKAStormKUDUIMPALA查询ElasticSearch•实时分布式搜索引擎和分析引擎•全文检索,结构化搜索和分析•核心引擎为Lucene,分布式产品一些应用:•Netflix:2000节点,多集群•Wiki百科:全文搜索并且高亮•StackOverflow:全文索引•GitHub:1300亿行代码•高盛:每天处理5TB数据,分析股票行情小米的一些应用:搜索场景-将LOG进行索引,支持文本查询和计数-广告分析和查询数据可视化•Meteorite:•Saiku•Microsoft:•PowerBI•Excel•Baidu•eChartDon’tbeevil:用户隐私保护1890年,沃伦和布兰代斯提出隐私权(TherighttoPrivacy)2012年1月,欧盟增加遗忘全力,(RighttobeForgotten)2006年4月14日,欧盟《GeneralDataProtectionRegulation》•定义了数据控制者,处理者和数据主题(Subject)•保护儿童数据•禁止收集个人特别数据(政治观点,性取向等)•数据可以转移到其他控制者,可遗忘•设立数据保护官(DataProtectionOfficer,DPO)PII相关信息隐私数据属性标签公共信息兴趣,泛地域手机号,姓名等•PII信息:个人标识信息•DifferentialPrivacy:差分隐私方法•Quasi-identifier:若干条件以定位某一用户•K-Anonymity:通过K个人信息推断某一用户•L-Diversity:数据值的多样性和精细粒度大数据实时分析的小结•没有业务应用的大数据都是耍流氓•技术选型没有想象中那么重要,实用和精通为妙•维度不够是一个永远的痛,无尽的伤•向保护你的眼睛一样保护用户的权利和隐私