⼤大数据平台架构技术选型与场景运⽤用张逸⼤眼科技联合创始⼈CTO数据源云端数据库⽂文件WEB监控资源部署其他数据存储数据采集数据处理数据源的特点来源结构⾮结构化内部数据外部数据结构化可变性不变可添加修改删除数据量量⼤⼩数据源的特点决定了数据采集与数据存储的技术选型内部数据来⾃企业内部系统,可以采⽤主动写⼊技术(push),从⽽保证变更数据及时被采集。CRM外部数据api调⽤⺴络爬⾍⾮结构化数据结构化数据不变可添加可修改可删除如果数据源的数据是不变的,或者只允许添加(通常,数据分析的事实表,例如银⾏交易记录等),则采集会变得⾮常容易,同步时只需要考虑最简单的增量同步策略,维持数据的⼀致性也相对变得容易。数据源的数据有些可能会修改或删除,尤其是许多维表经常需要变动。要对这样的数据进⾏分析处理,最简单的办法就是采⽤直连形式。如果要进⾏数据采集,就要考虑同步问题。⼤数据量lambda架构⼀个典型的数据加载架构数据存储的技术选型取决于数据源的类型与数据的采集⽅式取决于采集后数据的格式与规模取决于分析数据的应⽤场景⼤大数据平台特征相同的业务数据会以多种不同的表现形式,存储在不同类型的数据库中,形成⼀种poly-db的数据冗余⽣态。针对某⼿机品牌的舆情分析。客户提出的需求是能够对舆情数据进⾏全⽂本搜索。舆情数据最⾼可能达到70亿条,⽽全⽂本搜索的性能指标要求响应时间控制在10s以内。场景⼀:舆情分析场景⼀:舆情分析kafkakafkakafka内部数据⺴⻚维表SparkStreaming语⾳分析服务器HIVEHDFSElasticSearch规则引擎报表呈现增量计算规则实施通知预警流处理集群HADOOP集群语义分析BI集群BI产品主要针对数据集进⾏的数据分析以聚合运算为主。我们既要满⾜⼤数据量的⽔平可伸缩,⼜要满⾜⾼性能的聚合运算。选择Parquet列式存储,可以同时满⾜这两个需求。场景⼆:商业智能产品数据源不同,采集⽅式也不⼀样。⽇志数据通过发送Kafka事件,⽽线上数据则通过Sqoop同步。数据存储选择HDFS集群,然后通过Presto对Hive表执⾏即席查询。S3是⼀个独⽴的存储系统。场景三:Airbnb的⼤数据平台AirflowScheduling(调度和监控平台)EventLogsMySQLdumpsGoldHiveClusterSilverHiveClusterHDFSHDFSS3PrestoClusterSparkClusterAirpalPanoramixTableauKafkaSqoopReplication查询检索BatchMapReduceSQLStreamingMachineLearningDeepLearning业务⾓度技术⾓度数据处理理的分类数据挖掘统计分析深度分析离线编程模型编程模型内存编程模型实时编程模型结构化数据半结构化数据⾮结构化数据SqoopFlumeJavaNIO实时流数据KafkaHDFSParquetHBaseAlluxioElasticSearchCubeMahoutRMLLibMapReduceSQLStreamingSpark离线模型内存模型流模型深度分析场景统计分析场景OLAP场景查询检索场景扫描二维码或搜索「逸言」关注微信公众号