如何实现秒级对大数据的实时分析?人云科技团队人云科技团队组建于2010年底,团队的成员主要来自于IBM中国研究院,渣打银行,上海贝尔阿尔卡特,爱立信和EMC等著名企业。人云科技团队的使命是,推出具有鲜明特色的产品,并不断做精做强,锻炼出自身的核心竞争力和技术底蕴,并且将中国的核心技术产品推广到国外!个人介绍吴朱华云计算与大数据大数据的挑战和机遇挑战–Volume,PB级别为常态–Variety,结构化、半结构化、非结构化–Velocity,快速处理机遇MoreFindings,网络舆情DeepInsights,用户画像PricelessResults,智能交通大数据的处理流程简介:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作;特点和挑战:并发数高;使用的产品:MySQL,Oracle,HBase,Redis和MongoDB等,并且这些产品的特点各不相同;采集简介:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求;特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多;使用的产品有:InfoBright,Hadoop(Pig和Hive),YunTable,SAPHana和OracleExadata,除了Hadoop以做离线分析为主之外,其他产品可以做实时分析;统计/分析简介:基于前面的查询数据进行数据挖掘,来满足高级别的数据分析需求;特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大;使用的工具:R,HadoopMahout。挖掘为什么需要实时分析?数据是有时效性的;催生新的商业模式;YunTable是在分布式数据库和新的NoSQL技术的基础上发展而来的新一代大数据实时分析DB。YunTable最大的特色就是快,它能极快地导入海量的数据,并极快地进行相关的分析,并且扩展能力很强。功能特性大数据,秒级内存计算;采用廉价的x86硬件;自动线性动态扩展至数百台集群;每秒GB级别吞吐量,PB级别存储量;SQL92特性覆盖;数据安全性;产品定位集群规模SAPHanaOracleExadataYunTable110010000GoogleDremel三大核心技术这三个技术是处理海量结构化数据的必备利器,因为这样I/O处理最优化,并能对热数据提供接近内存计算的性能。分布式架构清晰的分布式架构能自动伸缩。性能测试客户是国内著名的互联网广告企业,这个Case的集群规模只用了5台X86服务器,数据规模在百亿行级别,性能和之前相比有几十倍的提升。Infobright(之前)YunTable导入数据2万行每秒30万行每秒常见操作15分钟以上20秒以内客户案例互联网广告行业;海量广告监测;金融行业;证券分析系统;YunTable的路线图1.2012.6-2012.10:完善SQL高级特性,专精大数据实时分析2.2012.6-2012.10:整合封装Hadoop3.2012.10发布企业支持版4.2012.11-:BI模块并新增一些用于数据挖掘的功能模块,包括对R的支持Whychoosebackend?世界级的专注企业级后端领域公司?一个专注产品,专注核心技术的团队一切从开源小项目开始一起携手努力实现技术理想Q&A