552014年第6期总第128期新闻大学JOURNALISMBIMONTHLY大数据,以“规模性(Volume)、多样性(Variety)、高速性(Velocity)和真实性(Veracity)”为特征渗透于生产力的各个层面,引发了产业商业模式的变革、公共管理方式的改进及社会生活的转型。物联网、车联网、因特网等以每年60%的增长率不断自动地产生数据,作为后台的数据中心逐渐成为企业的核心资产。数据开放及整合,提升了经济效率,催生了以终端、平台、应用为一体的“泛互联网”式的经济形态,并在网络社会形成一种“数据化民主”趋势,被经济学家和技术专家认为是现代社会发展的必然,是社会进步的不二选择[1],应该大力倡导公共数据开放。然而,“大数据”作为一种技术创新,对人类主体来说是一把双刃剑。现代社会中的每个人在各种各样的信息系统中留下足迹,数据一旦开放,各个系统之间的数据可以彼此印证、互相解释,个人的生活轨迹和全息形象暴露无遗。所以有学者认为,如果说在互联网时代我们的隐私受到了威胁,那么大数据时代我们冒的风险比想象中还要大[2]。亚马逊对消费者的购物习惯即时掌握,谷歌对用户的网页浏览习惯明察秋毫,Facebook对受众的兴趣图谱、社交网络了如指掌。这无处不在的监控显然侵害了个人隐私!“公共数据开放”与“个人隐私保护”不可避免地产生了悖论。就连倡导数据开放的美国政府在“棱镜门”事件中也爆出了侵犯公民隐私权的事实。虽然在2014年5月1日白宫发布大数据报告,建议起草一部“消费者隐私权保护法案”保护公民隐私不被商业机构收集,但回避了最受争议的国安局情报监控项目改革。那么,大数据时代如何看待这种悖论现象呢?其原因是什么?如何解决“公共数据开放”与“个人隐私保护”的矛盾?【摘要】大数据时代,“公共数据开放”作为一种“自由、平等、开放、协作”的人类开源精神,却在公共云端侵害了个人数据隐私权。除了大数据技术上的原因,还存在诸多结构上的因素:被操纵的公共领域与内心领域的融合趋向、技术意识形态的渗透与公众网络社会的抗争、不同文化价值的冲突等。如果摈弃技术乌托邦主义转而采取生态主义的整体观,就容易厘清“公共数据开放”与“个人隐私保护”的矛盾。现实中我们应还原开源精神,尊重个人特别是弱势群体的数据存在方式,尽快出台数据隐私权保护政策,制定大数据产业的行业自律条例,树立公众数据开放观念、提高公众大数据技术素养。【关键词】大数据时代;公共数据开放;个人隐私保护;数据隐私权;悖论【中图分类号】G210.7【文献标识码】A“公共数据开放”与“个人隐私保护”的悖论田新玲1黄芝晓2(1.渭南师范学院人文学院,陕西渭南714099;2.复旦大学新闻学院,上海200433)[作者简介]田新玲,复旦大学新闻学院2013级博士研究生,渭南师范学院人文与社会发展学院副教授黄芝晓,复旦大学新闻学院教授[基金项目]国家社科重大项目(12&ZD033);陕西省社会科学基金项目(13L047)。·新媒体·56一、大数据时代“公共数据开放”与“个人隐私保护”的内涵与信息开放不同,数据开放所指的语境是以大数据、云计算、互联网络及智慧城市为特征的web3.0图景。其中数据主要针对公共领域的,不仅包括结构化数据,更多的是以图表、视频、音频及不同格式的非结构化数据,而且是在物联网、互联网等各种网络中自动实时产生的。所以“开放”也意味着被给予、被接受。公共数据开放的内涵,在万维网联盟看来,是釆用RDF(ResourceDescriptionFramework)的数据模型,在网络空间的不同类型和来源的数据实体之间建立RDF链接,通过这些关联链接使我们能够浏览与一个数据源相关的其他来源的相关数据项,还可以抓取语义网浏览器的搜索引擎提供的先进的搜索和抓取数据的查询功能,最终实现人人都能够通过Web网络的开放共享平台来获取想要的数据[3]。要想理解这个概念,需要结合“数据开放运动”的背景及精神。1983年,麻省理工学院一位资深程序员理查•斯托曼发起了著名的GNU项目,旨在通过程序员之间的自由志愿协作,开发一套自由开放的操作系统,与定价销售的专有操作系统抗衡。这场软件自由运动在互联网的推波助澜下影响极其广泛。挑战者们倡导自由、开放、创新,认为公开不仅能提高软件行业的效率和效能,而且有利于学习、交流和创造,为人类社会贡献最大的价值[4]。后来,这场运动被正名为“开源运动”。虽然如微软这类企业批评这场运动严重破坏了软件市场秩序,但其开放、共享、自由、平等、协作、责任和乐趣等开源精神理念却深入人心。随着大数据技术的传播,由代码和数据组成的开源软件,不再限于源代码开放,而被呼吁数据开放。于是,开源运动深化为数据开放运动,衍生出了开放政治、开放政府、开放媒体等运动,其精神一脉相承。从以上可看出,公共数据开放,不单是技术上的数据采集、整合与共享,也不单单限于在云端支持下“泛互联网范式[5]”的平台开放,更意味着“开放、自由、平等、协作”的人类精神的弘扬。正是这种精神,在大数据技术的支持下,使得社会生产方式发生了变革。比如行为广告,某社交网站用户正在聊天,数字广告效果软件通过云端即时分析出该用户的个人信息、聊天内容、兴趣习惯,然后即时推送针对该用户的个性化广告,获得点击率,引导产品或服务的生产。这种瞬时精准营销是以“意义”——“价值”——“实体”倒置模式来生产的,颠覆了以往“价值”——“实体”——“意义”的生产模式。大数据环境下的新闻生产模式也是这样。在信息碎片化的网络传播中,媒体“数据协作团体”通过对受众数据的分析、评论,发掘数据关系,推送新闻,实现从“意义”(数据)到信息再到知识的转变。随着智慧城市、智能化社会的不断完善,人的所思所想,都可以被数据瞬时反映出来,从而导引产品或服务的生产、流通。这种围绕意义、精神的生产方式创新,其实就是大数据时代数据开放精神的一种体现。关于“隐私”的概念,我国《民法典草案》(第一稿)第4编“人格权法”第25条曾规定:“隐私的范围包括私人信息、私人活动和私人空间。”在美国,隐私权主要是指一种独处的权利,后来逐渐扩张到私人的生活秘密、禁止侵犯个人的自由权利(例如在公众场合不被拍照)、限制接触和使用个人信息(例如所得税申报表,信用报道)和禁止偷听私人谈话(例如使用电子监视器)。进入现代社会后,个人信息资料、决定死亡等也被包括在隐私权之内。大数据时代,隐私的范围进一步扩张,个人数据的收集、传播、使用等应当纳入其中。传统的隐私问题主要涉及私密的、敏感的、非公开的私人领域的个人信息,而新的隐私问题则主要涉及共享的、原本不敏感的、公共领域的个人信息[6]。由此引申出数据隐私权,即数据所有者对个人数据的采集、传播、使用等所享有的控制使用权,是人格权在网络web3.0空间的延伸。它包括两方面意义:在消极意义上,个人理应享有在网络空间里的安宁,享有数据秘密不被他人侵扰、知悉、搜集、利用、公开的权利;在积极意义上,个人能够自由决定个人数据的状况和范围,并能够对其进行利用的权利。然而,在大数据时代,个人数据存在网络媒体的远端服务器,在数据传输、分析、使用中不可避免地被公开,个人根本没有力量支配控制自己的数据。所谓保护个人数据隐私,乃是要透过隐私权保障57的赋予,维护个人自主性以及个人的身份认同[7]。反观上述中谈到的“数据开放”,其初衷也是人的意义共享,也包括在人类自由的范畴里,“公共数据开放”与“个人隐私保护”都是基于人道的目的,但大数据技术环境下,数据不断得到开放,公共领域个人数据隐私问题却日显严峻。二、“公共数据开放”与“个人隐私保护”的冲突大数据时代“公共数据开放”与“个人隐私保护”的冲突表现在如下方面:首先,大数据规模庞大,隐私数据与公共数据模糊混杂在云端,哪些属于保护的范围难以界定。也就是说,作为数据共享平台的云端,对用户信息缺乏物理上的隔离,更容易导致技术性的非人为泄露,而且远端存储会使数据经过大量复杂网络链路导致用户数据安全问题。其次,云计算提供商拥有更高的技术优势和管理权限,可以随意获取用户隐私数据,而当提供跨地域的全球服务出现隐私数据泄露时难以找到合适的政策规制。更令人担忧的是,“大数据”是独立于人的行为自动产生、自动分析甚至自动决策的。即使在采集数据时履行了“告知与许可”的义务,在数据开放过程中也不能保证个人数据不被再次利用。即使用户及时删除了自己的数据图谱,但不要忘记,“大数据”是有记忆的!这些技术上的矛盾使公共云端的隐私问题真正发生实际上是通过各种算法进行数据挖掘的机制。所谓大数据,多数是非结构化的,格式不统一的各种各样的数据。要想在公共云端获得有价值的个人(作为受众或消费者)数据,需要一个“算法选择和分析、数据准备和管理、数据处理和转换、算法开发和应用、结果展示和验证及知识积累和使用的过程。理论算法是数据得以解读的依据,常见的算法有决策树、聚类算法、最大期望(EM)算法、PageRank、邻近算法、贝叶斯分类器等。决策树学习表述了一种树型结构,由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式地对树进行修剪,当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。PageRank(排名算法),是Google算法的重要内容,其核心思想是权威性网页通过超链接向其他网页传输权重[8]。具体来说,PageRank根据网站的外部链接和内部链接的数量和质量衡量网站的价值,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。当然,在现实中往往运用多种算法实现数据的获取和目标的达成。比如在线广告,网络用户访问网页时,广告媒体会对广告网络发出请求,申请投放相应的广告。通常,广告网络会在线下载网页信息并从其内容中提取相关的关键词和类别。为了能迅速匹配广告,从网页内容和广告中所提取出的关键词均会被建立索引。当一个页面请对网页进行聚类,然后用决策树对网页的URL令牌建立一种层次结构。这种层次索引结构支持URL的部分匹配。一次广告推送行为往往运用综合算法,当分析出用户的数据集也就相当于勾勒出用户的数据形象。因为是在公共领域获得的消费者数据,商家在应用各种算法挖掘数据过程中也付出了成本和劳动,所以不会承认侵害消费者数据隐私权。这种公共领域的隐私问题实质上反映了公共利益与个人利益的矛盾。而履行新技术启蒙任务的政府也陷入云端利益的争夺之中。三、“公共数据开放”与“个人隐私保护”产生悖论的结构原因大数据云端中的“公共数据”和“个人数据”之间的悖论表征了数据空间里公权与私权的矛盾,若从社会、政治和文化等结构的层面来分析更显得明晰。58(一)被操纵的公共领域与内心领域的融合趋向使“公共数据开放”与“个人隐私保护”成为矛盾的两级客观地说,大数据技术、互联网技术及其它生物智能技术确实带给人类带来美好的憧憬,而要生活在这样的智能网络社会中,公众不得不受各种权力的制约。谷歌拥有世界最大的用户搜索数据,亚马逊掌握着世界最多的消费数据,Facebook则积累了世界最多的社交行为数据,还有苹果、雅虎、微软等产业巨头。而中国百度、腾讯和阿里为了争夺数据资产也上演着三国演义。这些传媒巨头主导着全球的数据,既能从宏观上预测行业的发展动向,又能明察每个消费者的行踪。在大数据精准营销、即刻分析、智能决策的模式下用户的行为心理、兴趣爱好等内心领域被一一窥见。也就是说,本来属于自由讨论、意义分享的私人领域被追逐利润的传媒巨头所干扰,从而直接与用户的内心领域进行即时沟通,客观上按照侵害隐私权的构成要件这种行为属于侵权,不过借助被操纵的公共领域这种侵权形式变得更加隐蔽。如上图1所示,如果说传统社会的公共领域在权力干预下与私人领域的关系发生了趋于融合的结构转型,文化批判的公众转变为文化消费的公众[9],那么,在大数据时代,失去了自我的内心领域受到新兴传媒的直接侵入,伪公共领域转化为一种超越私人生活的亲密领域,文化消费的公众变为自我消费的公众。比如宅男、宅女,在家上网既是生产者又是消费者,内心领域、私人领域和公共领域都杂糅在一起,没有明确