大数据工具概览昭远@calio我是谁?微博:@calio邮箱:vipcalio@gmail.comgithub:calio处理收集计算展现挖掘大数据处理的一般过程抽取抓取索引查询数据分析搜索我们的产品我们的做法•收集:网页埋点+webserver日志收集•处理:自定义的ETL脚本•计算:hadoop+实时处理引擎+mysql•挖掘:自定义的hadoop任务•展现:amcharts收集工具收集工具•Needlebase•ScraperWiki™•从多种数据源获取数据(网页,xml,csv文件)•合并,复制和清洗数据•生成自定义视图•编写代码来自动化抓取公共网站•支持ruby,python,php•社区特性:有很多别人写好的开放程序处理工具•Hadoop•GoogleMapReduce架构的克隆,最初由DougCutting开发,Yahoo!是最大的贡献者•运行在跨机器的集群上•巨大的相关工具生态圈计算工具计算工具•Mysql•Hadoop•HBase•Hive•开源的关系型数据库管理系统•成熟的系统,相关资料较多•在大数据环境下需要做sharding•Hadoop•GoogleMapReduce架构的克隆,最初由DougCutting开发,Yahoo!是最大的贡献者•运行在跨机器的集群上•巨大的相关工具生态圈•开源版本的GoogleBigTable•底层使用HDFS存储•与hadoop完美结合•多客户端分布式访问•hadoop数据仓库系统•使用SQL来编写Hadoop任务•延迟较高,不能替代实时数据库展现工具展现工具•Processing•D3.js•FusionTables•图形编程语言•积累了大量的库,示例和文档•processing.js:processing的js实现d3.js•javascript框架,前身为Protovis•包含了全量的易用可视化组件•提供高层次接口FusionTables•提供类似电子表格的在线数据存储•根据地理信息可视化数据•Mahout•scikits.learn•通用机器学习算法在海量数据之上运行•绝大部分代码是基于Hadoop编写的分布式作业•内嵌了很多算法来实现通常的任务,比如聚类、分类、基于用户行为的物品推荐,识别频繁共现的属性•python机器学习工具•标准机器学习技术的高层接口•实验和快速原型实现处理收集计算展现挖掘大数据处理的一般过程抽取抓取索引查询数据分析搜索昭远•微博:@calio•邮箱:vipcalio@gmail.com•github:calioThankYou!