3辕圆园18当前袁已经进入大数据时代遥人们的生活已经数据化袁每天产生大量数据袁这些数据对应于日常行为曰另一方面袁人们利用信息技术满足日常生活尧工作尧学习的需要遥不采取大数据技术袁难以应对日益复杂的社会生活所带来的问题曰反之袁采取大数据袁则可以更精确尧更精准地应对个人及社会所面临的问题遥什么是大数据钥一般的定义袁大数据渊Bigdata冤袁是指无法在可承受的时间范围内用常规软件工具进行捕捉尧管理和处理的数据集合遥在维克托窑迈尔窑舍恩伯格及肯尼思窑库克耶编写的叶大数据时代曳中袁大数据指不用随机分析法渊抽样调查冤这样的捷径袁而采用所有数据进行分析处理遥过去我们说的野数据冶袁很大程度上是指野数字冶袁如常说的客户量尧业务量尧营业收入额尧利润额等等袁都是一个个数字或者是可以进行编码的简单文本袁这些数据分析起来相对简单袁过去传统的数据解决方案渊如数据库或商业智能技术冤就能轻松应对曰而如今所说的野大数据冶则不单纯指野数字冶袁可能还包括野文本袁图片袁音频袁视频噎噎冶多种格式袁其涵括的内容十分丰富遥一尧大数据时代的数据清洗大数据技术的战略意义不在于掌握庞大的数据信息袁而在于对这些含有意义的数据进行专业化处理袁即所谓的清洗遥大数据技术袁必须经过数据清洗才是可能的遥最先采集的数据袁称为原始数据袁或基础数据遥这些数据是非结构化的袁在席卷全球的信息化浪潮中袁互联网尧移动互联网尧云计算尧物联网等技术迅猛发展尧加速创新袁其中积淀的数据呈爆炸式增长遥据预测袁中国2017年可能突破20EB数据保有量袁且每两年会翻一番遥由于网民数量的增加尧业务应用的多样化和社交网络的繁荣袁单个文件渊比如日志文件尧音视频文件等冤变得越来越大袁硬盘的读取速度和文件的存储成本越来越显得捉襟见肘遥与此同时袁政府尧银行和保险公司等内部存在海量的非结构化尧不规则的数据曰而只有将这些数据采集并清洗为结构化尧规则的数据袁才能提高公司决策支撑能力和政府决策服务水平遥2015年4月14日袁全国首家以大数据命名的交易所袁即贵阳大数据交易所挂牌成立袁并在当日成功完成了首笔数据交易遥值得注意的是袁贵阳大数据交易所交易的并不是底层数据袁而是经过专业化清洗后的数据遥二尧数据清洗过程中的问题目前袁我国已经形成了基本的数据清洗产业格局袁但因各自利益的追求袁仍存在不少问题袁其中最主要的是侵犯人的隐私问题和数据利用效率问题遥因此袁从国家层面袁未来应重点强化数据清洗环节的规范和标准袁以推动大数据产业健康发展遥一是数据清洗方法层面即公司面对大数据时袁都有相应的数据清洗方法袁不同的方法产生不同的问题袁数据清洗很多不规范的工作都蕴藏在这些具体的方法中遥对于具体方法中存在的问题袁需要方法完善来加以解决遥例如袁数据清洗的任务是过滤或者修改那些不符合要求的数据袁主要包括不完整的数据尧错误的数据和重复的数据三大类遥项目中的数据来源于数据仓库袁其中的数据是不完整的尧有噪声和不一致的遥数据清理过程试图填充缺失的值袁光滑噪声并识别离群点袁并纠正数据中的不一致遥数据清洗的目的是为挖掘提供准确而有效的数据袁提高挖掘效率遥反之袁数据清洗不到位袁则产生数据技术利用的缺陷遥二是数据清洗方法论层面这是指具体的数据清洗遵循何种原则袁或者价值指向如何遥当前的数据清洗以结果为导向袁也就是说袁对公司来说袁数据清洗的目的是有利于产生最好的结果遥由于法律法规的不健全袁这种公司利益最大化的数据清洗袁会带来大量的问题遥首先是隐私侵犯的问题遥一方面袁数据来源不规范袁一些不该被采大数据清洗的方法论考察姻邓线平热点聚焦313辕圆园18集的数据被采集起来曰另一方面袁面对来路不明的数据袁在数据清洗过程中袁对公司有利的袁往往是对隐私不利的袁或者那些越属于隐私的数据袁越有利于公司开采其价值遥对公司短期运作来说袁在法律法规不健全的情况下袁利用开采隐私数据袁是获取利润的捷径袁既节省成本袁数据利用价值也大曰也会刺激公司在数据清洗过程中袁将那些侵犯个人隐私的数据特意清洗出来加以产业化利用遥有时候袁侵犯隐私不是直接通过数据清洗达到的袁而是数据清洗之后袁数据利用涉及到其他领域的隐私侵犯袁这种隐私侵犯虽不直接与数据清洗有关袁却由数据清洗引发出来袁也属大数据清洗过程中的隐私侵犯遥数据后续利用过程中袁往往考虑前置成本袁会忽略后续的隐私侵犯袁或者破坏后续的法律法规袁不断使法律法规朝有利于数据清洗的过程后退遥在过去的野双11冶尧野双12冶中袁隐私保护问题尤为凸显袁各种商家短信以狂轰滥炸之势大肆推广尧营销袁垃圾短信屡禁不绝遥那么袁到底隐私泄露的漏洞在哪里袁又为何屡禁不止钥有人认为袁垃圾短信屡禁不止的根本原因在于惩治不力袁而事实上袁2015年6月底袁国家工信部公布的叶通信短信息服务管理规定曳就有明确的惩治规定遥除政策层面袁大多手机用户会在移动设备端安装安全软件袁以拦截垃圾短信袁不过实际效果仍不尽如人意遥究其最根本的原因袁还是用户隐私泄露的渠道太多尧太复杂遥据DCCI互联网数据中心和360互联网安全中心联合发布的2016中国Android手机隐私安全报告的数据显示袁手机丢失泄漏尧软件泄漏尧系统漏洞泄漏尧点击网络链接泄漏尧WiFi泄漏尧云端网络泄漏和拍照二维码泄漏袁是Android手机用户隐私泄露的七大方式遥其次是数据利用效率问题遥从降低数据利用成本袁提高数据利用利润看袁数据清洗侵犯隐私有利于提高公司效率遥但反过来袁随着法律法规的健全袁个体隐私权益保护意识增加袁这种数据清洗是不利于提高数据利用效率的遥或者说袁数据清洗可能清洗出的是一些无效数据袁或者无效数据与有效数据掺杂一起袁降低数据利用效率袁或者暂时有效的信息袁随着时间推移数据失效了袁但数据存储和清洗的成本依然存在遥总体而言袁数据利用效率低下可以从两方面看袁一是从眼前看袁有用的数据和没用的数据一起分析遥有些数据从公司利用结果看是有用的袁但它一旦运用到现实中袁则与人的隐私权冲突袁变成无用信息遥有些数据从事件处理看是有用的袁但在具体运用中侵犯到人的隐私或其他权利袁变得无用遥二是从长远看袁一些目前从结果分析有用的数据袁未来随着权利意识增强或法律法规健全袁变得无用遥但这些数据在存储和清洗过程中袁都需要增加公司成本遥三尧数据清洗的方法论改进大数据分析不能唯结果论袁避免因唯结果论而产生的问题袁数据清洗应有相应的方法论调整遥首先要树立以人为本的价值理念遥对企业来说袁在维护人的权利与维护企业利润方面袁应首先维护人的权利遥企业利用大数据袁对数据进行清洗袁当然是为了利润袁但利润的获取应建立在人对技术的利用基础上袁换句话说袁大数据利用的根本目的袁不只是为了企业获取利润袁还在于提高社会效益遥只有建立在人通过技术利用提高舒适感和建立在整个社会中的位置上袁大数据技术才是有意义的遥可以说袁企业行为时时刻刻面临着维护人的权利与追求企业利润之间的选择遥对于维护人的权利袁往往是隐性和长远的曰而维护利润袁则是显性和即时的遥数据清洗以人为本袁考验企业发展战略及方法选择遥一是数据分析时加进更多的相关因素遥数据清洗建立在数据分析基础上袁如何进行清洗袁不同的目标考虑袁清洗的方法和结果都不一样遥如果只是单一因素考虑袁容易将数据清洗导向单一结果袁往往这种结果经不起更多因素加进来一起考虑袁也经不起长远考虑遥数据清洗时袁分析更多的相关因素袁有利于数据利用的综合结果袁特别是将数据利用与人的权利保护相结合时更是如此遥单一因素考虑进行数据清洗袁有利于节省成本袁提高数据利用效率遥这是单一目标导向的结果遥然而这种效率提高是不长远尧不稳定的袁随着技术发展越来越趋向满足人的需求袁保障人的利益袁数据清洗会变得越来越没有效率遥二是结果的社会效应分析遥数据清洗如果只针对结果袁则是有利于结果的数据清洗都是必要的遥而往往这种结果只是公司的短期需要袁或者公司特定的需要遥从整个社会来看袁这种结果是不适宜的袁或者有违社会公共价值袁或者不利于社会长远发展遥显然袁只针对这种结果的数据清洗会带来诸多问题遥要避免问题的产生袁对数据利用结果的社会效应分析必不可少遥数据利用结果是数据利用的结束袁但却是社会效应的开始袁越是详尽的数据利用结果社会效应分析袁越有利于数据利用效率袁越有利于维护社会在数据利用过程中的公平正义遥渊作者单位院广东省社会科学院冤揖责任编辑院江民铱热点聚焦32