Tel:400-00-31368Website:bigdataunion.org普兰大数据解决方案普兰软件HenryTel:400-00-31368Website:bigdataunion.org普兰软件•普兰公司–专业提供hadoop部署优化和大数据抽取存储可视化分析解决方案的公司•普兰解决方案方案一、WEB数据抽取监控情报分析方案二、WIFI数据精准营销方案三、高频交易数据实时营销方案四、海量数据检索查询方案五、hadoop部署、培训、咨询方案六、Hadoop可视化抽取解决方案方案七、Hadoop可视化分析解决方案方案八、数据仓库应用系统迁移到hadoop方案九、系统性能优化提高速度•普兰服务Tel:400-00-31368Website:bigdataunion.org普兰软件–Hadoop平台可视化抽取解决方案Tel:400-00-31368Website:bigdataunion.orgSyncsortTel:400-00-31368Website:bigdataunion.orgSyncsortTel:400-00-31368Website:bigdataunion.orgSyncsort-TheHadoopChallengePROCESSSortJoinAggregateCopyMergeDISTRIBUTECOLLECTEExtractTTransformLLoadTel:400-00-31368Website:bigdataunion.orgSyncsort’sDMX-hintheBigDataEcosystemTel:400-00-31368Website:bigdataunion.orgSyncsortTel:400-00-31368Website:bigdataunion.orgSyncsortUITel:400-00-31368Website:bigdataunion.orgSmarterConnectivityOneTooltoConnecttoAllSources&TargetsNoCoding,NoScriptingConnecttoAnySource&TargetPre-process&CompressExtract&Loadto/fromHadoop•RDBMS•Mainframe•Files•Cloud•Appliances•XML•Cleanse,validate,andpartitionforparallelloading•Compressforstoragesavings•Extractdata&loadintotheclusternativelyfromHadooporexecute“off-cluster”onETLserver•LoaddatawarehousesdirectlyfromHadoop.Noneedfortemporarylandingareas.Tel:400-00-31368Website:bigdataunion.orgDMX/DMX-h:Connectivity•Paralleldataaccess–Parallelizethereadingofmainframedatafrommappers–Parallelizeloadingofdatafromreducers(i.e.,MPPdatabases,DBMS’s)•Native,high-performanceGreenplumDB,VerticaconnectorswithUIintegration•Hiveconnectivity–AbilitytosourceandloadHive...DataNodeDataNodeDataNode...Tel:400-00-31368Website:bigdataunion.orgSyncsort0255075Throughput(MB/Sec/Node)3xFasterPig+Java050100150200250300350400450CombinedLinesofCodeNoCoding,NoScripting,JustFaster!Pig+JavaZero423Tel:400-00-31368Website:bigdataunion.orgSyncsort0100200300400ElapsedTime(m)HiveQL360minDMX-h15min0481216DevelopmentEffort(Weeks)DMX-h4ManweeksHiveQL12ManweeksTel:400-00-31368Website:bigdataunion.orgVolumeTel:400-00-31368Website:bigdataunion.orgSyncsortTel:400-00-31368Website:bigdataunion.org普兰软件–Web数据智能抽取解决方案Tel:400-00-31368Website:bigdataunion.orgWeb数据的价值Tel:400-00-31368Website:bigdataunion.org网页数据Tel:400-00-31368Website:bigdataunion.orgWeb数据抽取方式–1.人工手动–2.编程方式(需要对HTML、DOM或相关技术非常熟悉)–3.混合型Tel:400-00-31368Website:bigdataunion.org比较Tel:400-00-31368Website:bigdataunion.org效率对比Tel:400-00-31368Website:bigdataunion.org可视化抽取过程样本分析人为干预形成规则及代码配置好:交给机器就OK啦!机器学习自动编码类似传统ETL过程可视化Tel:400-00-31368Website:bigdataunion.org块分析Tel:400-00-31368Website:bigdataunion.org应用场景•背景调查•舆情监控•风险管理•金融&市场分析领域•智能竞价•零售&分销•消费者感情分析•新闻和内容聚合•……Tel:400-00-31368Website:bigdataunion.org普兰软件–高频交易数据分析解决方案Tel:400-00-31368Website:bigdataunion.org数据价值链InteractiveReal-timeAnalyticsRecordLookupHistoricalAnalyticsExploratoryAnalyticsMillisecondsHundredthsofsecondsSecond(s)MinutesHours•Placetrade•Servead•Enrichstream•Examinepacket•Approvetrans.•Calculaterisk•Leaderboard•Aggregate•Count•Retrieveclickstream•Showorders•Backtestalgo•BI•Dailyreports•Algodiscovery•Loganalysis•FraudpatternmatchValueofIndividualDataItemDataValueAggregateDataValueAgeofDataTel:400-00-31368Website:bigdataunion.org数据库视图TraditionalRDBMSSimpleSlowSmallFastComplexLargeApplicationComplexityValueofIndividualDataItemAggregateDataValueDataValueDataWarehouseHadoop,etc.NoSQLInteractiveReal-timeAnalyticsRecordLookupHistoricalAnalyticsExploratoryAnalyticsTransactionalAnalyticNewSQLVelocity(“New”OLTP)Tel:400-00-31368Website:bigdataunion.org传统关系型数据库处理能力与成本对应关系图ThousandsTPSHundredsofThousandsTPSMillionsTPSUS$ThousandsUS$MillionsTel:400-00-31368Website:bigdataunion.org与传统数据库和NoSQL对比VoltDBNoSql传统数据库Tel:400-00-31368Website:bigdataunion.org关键特性:线性扩展30增加一个新结点到VoltDB集群可以有限提升集群的最大吞吐量,也可以增加整个集群的内存容量集群的大小对应用来说是透明的Tel:400-00-31368Website:bigdataunion.org评测结果:TPC-C•DellR610,双4核2.66GhzIntelXeon5550处理器•12条4GB(48GB)DDR3-1333registeredECC内存•3块72GB15000转企业级SAS硬盘节点数VoltDB传统数据库153,000TPS1,555TPS12560,000TPS无Tel:400-00-31368Website:bigdataunion.org关键特性:基于网络的数据库集群复制32VoltDB包括一个网络复制Agent这个Agent将事物异步从主集群(可读可写)复制到备集群(只读)异步的方式最大限度容忍网络可能出现的问题分区就是复制的单位事务复制操作(不是更改记录)使用Active/Active同步复制方式应用只有在所有复制节点都提交(或者回滚)后才会收到成功(或者失败)的响应Tel:400-00-31368Website:bigdataunion.org整合:高性能导出•并行导出–接近最大线速•基于事先建立的连接–Hadoop–CSV–JDBC(PostgreSQL,MySQL,Oracle)–Netezza–VerticaVoltDB建立了一个基于事务的,可持久化的导出框架在VoltDB完成高质量、实时分析、实时响应,并把结果数据通过VoltDBExport导出到OLAPTel:400-00-31368Website:bigdataunion.orgVoltDB的一个典型架构ERPCRMHROrdersCartRecom-mendationUserMgt.ClickStreamInvPersonal-izationDatawarehouseHadoopTraditionalOLTPVelocityOLTPloginssensorsimpressionsordersauthorizationsclickstradesInteractiveReal-timeAnalyticsHistoricalAnalyticsExploratoryAnalyticsAnalyticresultsenrichdecisionmakingTel:400-00-31368Website:bigdataunion.org普兰软件–Hadoop可视化分析解决方案Tel:400-00-31368Website:bigdataunion.orgHadoop可视化分析架构Tel:400-00-31368Website:bigdataunion.org分析流程各业务系统ETL无ETL接入支持Tel:400-00-31368Website:bigdataunion.org交互式表格化分析•Datameer为结构化数据和非结构化数据的分析提供最完善的解决方案。即使是最复杂的由大量数据组成的嵌套连接分析也可以通过交互式对话框来实现。Tel:400-00-31368Website:bigdataunion.org可视化智能分析Hadoop下更高效:聚类决策树列式依赖关系相关性预测……Tel: