钱承君---大数据质量保障方案探索26

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

百度大数据质量保障方案探索2014.11,钱承君自我介绍大数据大型分布式系统分布式计算机器学习质量保障体系建设存储体系架构师管理者百度的大数据在做什么“BIGDATA”isliketeenagesexeveryonetalksaboutit,nobodyreallyknowshowtodoit,everyonethinkseveryoneelseisdoingit,soeveryoneclaimstheyaredoingit…当传统测试遭遇大数据对系统或系统原件在特定条件下的运行结果进行观察或记录,并对系统和原件进行某些方面特性的评价–IEEE对“测试”的定义构建输入与上下文验证输出系统正确仅是第一步还需诸多额外工作传统测试数据测试百度地图的案例百度搜索的案例图片搜索的案例启动这一项目的背景年度平衡记分卡(BSC)关键行动项项目的总体目标定义数据质量标准提供实施案例参照形成体系快速复用当传统测试团队遇到数据项目,怎么办?我们希望提供“数据测试体系建设”的解决方案大数据带来的测试挑战复杂算法无验收标准复杂数据流超大数据量平台与应用基础架构算法测试的常用手段•功能测试,数据驱动、蜕变•异常测试,容错、抗压、死锁、健壮性•算法特性,例如线性递增性常规功能测试•基本指标,例如吞吐、并发、时延•伸缩性,例如算法复杂度、性能拐点•资源损耗,计算密集型还是存储密集型非功能性测试•同类算法的交错验证•引入类似真实场景,对算法系统端对端测试•建设获取大数据样本的能力其他常用方法无验收标准的大数据应用大数据应用的质量保障质量标准:相关性、重复度、品类覆盖、排序持续评估:低成本例行评估,采样、众包小流量实验支持研发过程支持,全流程工具链建设运营支持,数据分析、竞品分析推荐、预测、数据挖掘、机器学习等基础数据的质量保障•最终产品结果的正确性•大数据应用可更好逼近理想值上限WHY•上游变更,例如重启重传、扩容、数据升级•数据碎片化,例如非归一化、时钟边缘切割•不满足场景,例如画像与数据分析的混用WHAT数据质量是一个独立的细分行业数据质量利器:数据剖析(DataProfiling)数据理解与规则挖掘数据异常诊断数据问题排查数据后置校验数据监控迁移数据归一化梳理占比分析离群分析我们很快发布了数据质量平台利用算法作一致性拟合消除过多报警构建闭环反馈机制考察指标:误报率、召回率、应答率、应答时延激励,对靠谱值班人进行物质奖励负向激励,引入考评、引入问责超时自动填充,加强问责补充策略与产品机制,降低成本数据类项目研发流程的考虑平台与应用共存渐进放大数据量基于模型生成与模糊数据上线后的持续校验TuningBoxFuzzToolDataGeneration渐进式验证,关注流程的衔接、问题定位与回退复杂系统的特殊考虑•多线程并发、竞争冒险•异步乱序不稳定场景•硬件故障,文件破损、磁头老化、磁盘坏道•网络故障,延迟阻塞、丢包、重包、分割•分布式异常,节点增删、状态不一致异常场景•注意测试环境与真实场景的差异•注意系统的极限与拐点,负载均衡、雪崩•特殊情况,例如核心交换机压力过载系统环境总结:技术与工具•Fuzztool•DGL、Model-baseddatageneration•MetamorphictestingInputGeneration•Consistencycheck•Dataprofiling、dataquality、dataclearance•Prediction、alertcenterOutputVerification•Mockforracingcondition•Collisiontestforlargedistributedenvironment•Robustness、fuzzinjectionSystem•Tuningboxforeverysingledeveloper•Fullcycleautomation•TracingandquickdebuggingEnvironmentandProcess例子:快速拼装测试体系工程升级后对比数据一致(DataDiff)上线后判断数据连续(DataPrediction)数据强关联规则(数据规则引擎)数据弱关联关系挖掘(数据分析)数据弱关联离群分析(DataPrediction)用户为何质疑报表正确性?1.信息不连续2.信息与其它渠道冲突3.信息与领域认知违背更完善专业的解决方案更快速的体系建设源数据预处理结构化数据抽象数据数据应用RawLogStructuredDataDataWarehouseDataMartDataPipeline凤巢移动变现大搜索哈勃高层报表在线数据服务网盟调研支持数据测试(VE)DIFFFUZZLocal数据验收(VA)规则库DataProfiling数据剖析SandboxOffline阈值波动策略持续数据监控挖掘清洗TestAfterRelease数据质量平台问题排查OnlineBizSide基础数据质量报表数据质量应用数据质量专项数据质量(例:用户贯通)数据质量体系建设的一个实施案例大数据技术在质量领域的应用刚刚起步分类器关联分析异点分析预测技术标注获取

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功