当移动互联网遇到大数据2014-10数据来源:TalkingData中国移动互联网现状-用数据说话移动互联网大数据特点移动互联网大数据价值和利用移动互联网大数据技术移动互联网大数据未来和挑战数据来源:TalkingData中国移动互联网现状–用数据说话中国移动智能设备•中国移动智能设备超过8亿•Android和iOS设备的比例约为2:1•苹果、三星、小米、华为占据前四•iPhone5S,iPhone4S,iPhone5,iPhone4分列苹果设备的前四名•小米MI3,MI2S,红米和三星GalaxyNote2分列安卓的前四位•iPhone6和iPhone6Plus最近快速普及中,在iOS设备中总计占比已经超过2%•安卓设备中,没有一款机型占有率超过3%,市场更为碎片化数据来源:TalkingData中国移动互联网现状–用数据说话Android和iOS版本情况•Android系统升级缓慢•Android4.2.2仍旧是占比最高的安卓系统•Android4.4.2(2013年12月发布)逐渐普及中•iOS用户升级迅速,iOS7.1.2(2014年7月发布)占比最高•iOS8.0.2(2014年9月26日发布)占比升到第二位2014.7.7–2014.7.132014.10.6–2014.10.12数据来源:TalkingData中国移动互联网现状–用数据说话移动应用使用情况•BAT以及其关联企业所开发应用占据Top10应用中的9席•微信和QQ一直雄踞中国移动应用覆盖率前两名,并且远远超过第三名淘宝•应用覆盖前50名应用中,视频和音频等娱乐类应用占据10款,电商类应用6款,社交类应用5款,游戏类3款。越来越多的人在移动设备侧完成休闲娱乐和购物。•在Android系统前50名中,搜索、助手、浏览器、安全等工具软件多达13款且多为BAT3占领。数据来源:TalkingData中国地区,平均每部设备中安装33款非系统应用,其中3款是游戏。中国移动互联网现状–用数据说话AVG.APP33款5.3%3.6%6.4%11.0%18.7%29.3%24.0%1.6%0%10%20%30%40%70+60-69款50-59款40-49款30-39款20-29款10-19款10款APP款数1.5%1.3%3.8%14.1%79.4%0%20%40%60%80%20+15-19款10-14款5-9款5款Game款数AVG.Game3款数据来源:TalkingData中国移动仍然是最大的移动运营商中国移动互联网现状–用数据说话数据来源:TalkingData•人们在移动侧的联网方式中国移动互联网现状–用数据说话数据来源:TalkingData移动互联网大数据特点•移动互联网大数据的4V–Volume随时随地都在产生数据,数据量更大–Variety随时随地联网的特性,使得移动互联网的数据更具有多样性。在移动侧可以有更为精准的位置数据,各种传感器数据。–Velocity对速度处理的要求性更高,很多的业务场景需要更实时的数据处理才能使得数据产生价值。–Value更多高价值的数据产生•万物皆可联网,数据方便人的生活–IOT逐渐成为现实,万物都在贡献数据–各种智能硬件逐渐普及数据来源:TalkingData移动互联网大数据价值和利用•更好的个性化服务•更为精准的个性化营销•更为便利的生活,各种O2O服务数据来源:TalkingData租房宝——获客推广案例分享数据来源:TalkingData潜在高价值客群居住城市:北、上、广、深等一线城市生活半径:上海内环以外,中环以内年龄:22~30岁生活特征:宅男腐女至少拥有一张信用卡招行、交通、中信卡用户更为优质iphone用户较多三星galaxy、note系列用户较多租房宝潜客定义数据来源:TalkingData移动互联网大数据价值案例•修正IP库对位置的映射–IP库作为互联网的一种数据,是互联网广告做城市定向的一个基础–传统的IP库利用IP到运营商的分配为基础,QQ类似的应用做众包来修正–由于运营商倒卖ip资源,在城市维度就已经有很大误差–很难达到更为精准的从ip到位置的映射–移动侧则可以方便的通过GPS进行IP库校准数据来源:TalkingData移动互联网大数据价值案例•O2O电影在线购票反向导流数据来源:TalkingData移动互联网大数据价值案例•O2O电影在线购票反向导流数据来源:TalkingData移动互联网大数据价值案例•O2O电影在线购票反向导流数据来源:TalkingData移动互联网大数据技术•移动互联网大数据处理的一般流程数据获取数据收集数据存储数据计算数据服务数据来源:TalkingData数据获取移动互联网大数据技术•移动互联网大数据处理系统架构监控和管理数据收集和ETL分布式文件系统元数据离线计算流式计算批量计算机器学习接口层数据应用资源和任务调度NoSQLRDBMS数据来源:TalkingData移动互联网大数据技术•移动互联网数据获取技术–移动App直接获取–通过SDK获取–通过Spider爬取•移动互联网数据收集–一般数据都以日志形式在服务端进行收集–LVS和nginx做为前置–Kafka,Fluentd,Flume,Scribe作为日志收集的技术框架•ETL(Extract-Transform–Load)技术–Kettle–基于Actor模型的并行处理–利用Pig,Hive,甚至MR做ETL数据来源:TalkingData移动互联网大数据技术•分布式文件系统–分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。数据来源:TalkingData移动互联网大数据技术•NoSQL(如下描述来自于维基百科)–NoSQL有时也称作NotOnlySQL的缩写,是对不同于传统的关联式数据库的数据库管理系统的统称。–两者存在许多显著的不同点,其中最重要的是NoSQL不使用SQL作为查询语言。其数据存储可以不需要固定的表格模式,也经常会避免使用SQL的JOIN操作,一般有水平可扩展性的特征。NoSQL的实现具有二个特征:使用硬盘,或者把随机存储器作存储载体。数据来源:TalkingData移动互联网大数据技术•常用NoSQL产品–Hbase•开源的GoogleBigTable的实现•底层是用HDFS存储•与Hadoop完美的结合•多客户端的访问–Cassandra•Facebook开发的一套NoSQL产品•集GoogleBigTable和AmazonDynamo的完全分布式架构于一身•不依赖于底层的分布式存储•相对于Hbase更好的读写性能–MongoDB•10Gen公司开发的NoSQL数据库•文档型数据库,采用BSON格式存储•可以非常灵活的进行字段的增加–Redis•内存式KV数据库•适合做集中式缓存数据来源:TalkingData移动互联网大数据技术•离线计算–HadoopMapReduce对GoogleMapReduce的开源实现,大数据领域分布式计算的基础性的实现。–Hive在Hadoop上的数据仓库,支持SQL语言,SQL语言最终会翻译成MapReduce–Pig利用PigLatin进行MapReduce开发–Spark最近非常火热的基于内存的的分布式计算框架,采用Scala语言开发,相对于HadoopMapReduce,有巨大的性能提高–PrestoFacebook开发的分布式查询和分析引擎–ImpalaCloudera开发的分布式查询和分析引擎数据来源:TalkingData移动互联网大数据技术•流式计算–StormTwitter开发的一套开源的分布式流式计算框架–SparkStreaming基于Spark的一套流式计算框架,事实上是小batch模式的计算数据来源:TalkingData移动互联网大数据技术•批量计算–SparkStreaming如上一张slides所讲–TorchTalkingData开发的一套分布式批量计算框架,支持Count,Sum,Join等计算。数据来源:TalkingData移动互联网大数据技术•机器学习–Mahout在Hadoop上实现的一套开源的机器学习库,包含了主流的机器学习算法的实现包含CF,Classification,Clustering,TopicModel等等主要的机器学习算法最新版本已经抛弃了MR,逐渐拥抱Spark–Weka一个开源的机器学习库,适合学习用,不适合大数据环境–SparkMllib在Spark上的一套开源的机器学习库包含Kmeans,LinearSVM,LR等一些常用的机器学习算法的实现–H2O基于Spark的深度学习库–ParameterServerCMU,Baidu,Google,Intel等等提供支持的一套分布式机器学习系统以及算法实现数据来源:TalkingData移动互联网大数据技术•分布式任务调度–OozieOozie是Apache社区一套开源的进行分布式任务调度的系统。支持将不同的MapReduce任务组合成一个工作流。–AzkabanAzkaban是LinkedIn开源出来的一套分布式任务调度系统,相比Oozie更为简洁。数据来源:TalkingData移动互联网大数据技术•监控和管理–Gangalia一个分布式的系统监控工具,可以很方便的监控系统的内存、CPU、网络等。–Nagios另外一个开源的系统监控工具,除了监控指标,还支持通知和报警数据来源:TalkingData移动互联网大数据技术•其他相关技术–ZooKeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集,是Hadoop和Hbase的重要组件。[2]提供Java和C的接口。–ProtocolBuffersGoogle定义的一套进行数据集成的格式–Thrift类似于PB,来自于Facebook。–JSON适合openapi使用的轻量级的数据传输和格式数据来源:TalkingData移动互联网大数据技术•一个大数据参考技术架构实现(TalkingDataDataManagemengPlatform)数据来源:TalkingData移动互联网大数据未来和挑战•可穿戴设备数据来源:TalkingData移动互联网大数据未来和挑战•智能家居数据来源:TalkingData移动互联网大数据未来和挑战•智能汽车•智能自行车•智能农业•…数据来源:TalkingData移动互联网大数据未来和挑战•移动互联网大数据的挑战–隐私问题–数据安全数据来源:TalkingData谢谢!