大数据新闻对传媒行业的颠覆与重塑1、大数据新闻有哪些应用形式?2、大数据新闻的价值在何处?3、大数据新闻存在哪些缺陷?4、大数据时代传媒业有哪些转型之路?一、大数据新闻有哪些应用形式?1、新闻内容采集(1)选题价值的精准判断传统的新闻选题主要是头脑风暴和任务分派的结果,而将大数据引入选题决策环节则使其更为客观、更有效率,真正让用户参与到新闻生产流程中。以腾讯《事实说》为例,制作团队基于腾讯新闻调查入口,同时自制多个H5社交产品,通过了解用户近期的关注点,来针对性地选择议题、策划内容。大数据在发现选题、判断舆论趋势以及发现用户感兴趣的内容上,往往比有经验的编辑更为有效和精准。(2)信息来源的多样化传统媒体时代,新闻信息主要靠记者采访、调查获得,而大数据时代,新闻信息的采集者已经从专业记者向普通人转变,甚至从人向机器转变。①众包:专业记者向普通人的转变众包服务使得新闻来源从专业记者向普通人发生了转变,过去由记者调查收集分析信息的任务被转移到用户身上,而记者完成的是内容的再聚合,在这一过程中,新闻生产中的传播者和接收者的角色都被重构。比如在调查国会议员开销时,由于文件数量众多,多达45万个,但时间有限,于是卫报决定向读者开放项目,让读者帮忙翻看资料,寻找数据中的异常,来发现有报道价值的故事。当记者面临大量的文件、统计数字或者报告需要核查时,采用众包的方式就成为了一个非常明智的选择,它可以高效地帮助调查记者完成任务、降低成本、节约时间。但目前这种资料搜集与信息核实的众包服务在新闻领域还没有被频繁地应用,同时,众包的公众平台与媒体之间还难以真正理解彼此的需要和责任边界,因而合作并不像想象的来得那么容易。②传感器与无人机:人向机器的转变主要在于生产或收集数据,提供了大量的数据来源。记者可以利用实时数据制作实时更新的动态图表,或者基于数据做预测性分析。此外,传感器还开辟了许多过去由于数据不易获得而难以报道的领域。当然它也有一些弊端,比如数据的质量可能会受到很多方面的影响,设备质量不过关、缺乏统一标准或者被人为篡改等。无人机可以看作传感器的一种,是对人们视觉感官的延伸。无人机携带摄像机从高空传回影像数据,记者将这些数据应用到新闻报道中。其他的传感器更多的是数据上的直接回传,而无人机则提供更为直观的影像。(3)信息可信度的验证在新闻领域,目前此类应用主要有两种:一种是工具式的,比如谷歌搜索;另一种则是专题和节目式的,定期推出专题确认近期内重要的或影响较大的信息的真伪,以及指导记者进行识别谣言。①核查工具一系列帮助人们核查图片真实性的工具应运而生。比如,记者们可以通过图片反向搜索引擎功能将图片与数据库进行比对,来核查其以前是否在网上出现过。②核查专题(节目)如哥伦比亚大学数字新闻中心开发的数字信源核实平台Emergement,该平台将自己定义为实时的谣言粉碎机,除了关注政治领域外,还针对热门的事件进行核查,找出所有能搜集到的来源和最原始的出处,并列出在各来源中被分享的次数,最终打上True(真)、False(假)、Unverified(未核实)的标签。2、新闻内容制作(1)自动化写作:机器人新闻机器人新闻是指通过计算机程序将一些数据融入结构化的语言,从而生成新闻报道或者个性化的文章。目前其主要应用领域是财经和体育两大类,因为机器人新闻写作的方式主要是先创造好模板,然后通过计算机程序获取数据后将其填入相关空格里。财经和体育等方面的信息比较程式化,自然成为机器人新闻率先介入的领域。但在目前条件下,机器人新闻写作依然有极大的局限性:新闻模板痕迹比较严重,且语法生硬;人类丰富的情感,程式化的机器人难以习得和模拟;最重要的一点,机器人新闻难以写出深度内容,想要挖掘数据背后更深刻的关系,除了数据作为基础,还需要人工深入的采访调查。(2)可视化呈现:数据新闻大数据背景下的数据新闻中,数据成为新闻的本体,过去以文字为中心的新闻叙事方式被改变。数据的可视化已逐渐成为目前数据新闻报道中不可或缺的重要环节。社交媒体是数据的富矿,因而相继出现了很多专门针对各类社交媒体的数据进行分析的网站和工具。可视化为我们提供了直观的数据分析结果,便于理解和想象复杂的数据结构,不同的数据结构适用于不同的可视化表达方式。(3)沉浸式体验:虚拟现实和增强现实VR(虚拟现实)技术的使用主要在深度报道、突发报道和媒介事件三个方面。如美国纽约时报2015年推出了手机应用NYTVR,并为订阅者邮寄发放了超过100万个谷歌纸盒式VR眼镜。目前国内,在深圳滑坡事故发生之后,新华社联合全景视频制作公司,乐视联合财新传媒的VR团队在第一时间奔赴救援现场,录制了救援工作的全景视频。3、新闻内容分发新闻内容的分发本质在于“信息与人”的匹配。用户时间有限,除了自己感兴趣的话题,要在海量信息中甄别有用或潜在感兴趣的内容很难,因而用户主动获取的信息只能是非常小的一部分。而移动互联网的发展使得推送越来越便利,大数据算法使得推送的内容越来越精准。总体而言,目前的新闻内容分发产品根据算法的使用程度呈梯度分布:一是依赖于与内容生产方合作或者编辑选择;二是人工与算法相结合的推荐方式;三是几乎完全依据算法推荐。二、大数据新闻的价值在何处?1、唤醒:重构沉寂的历史数据大数据新闻报道最重要的数据来源就是那些来自政府、专业机构、社交媒体网站的公开数据。这些数据犹如沉睡的宝藏。因此挖掘出公共数据、原始数据之间的关联,或者只是简单地进行历时性的梳理,就可以让这些尘封的数据焕发出新的生命力。2、关联:连接当下的事实主体大数据新闻的另一个功能在于透过纷繁复杂的数据,挖掘数据之间的关联性,通过事实找到当下主体的内在联系。3、预测:把握未来的信息走向未来的大数据新闻报道,将会更加侧重于数据驱动型深度报道和区域预测性新闻,利用大数据来预测事物的未来发展动向,满足受众的新闻期待。4、“悦读”:展现信息可视化之美能够更精准地监测环境,最大程度上消除社会的不安定感以及提供更丰富更新鲜的社会知识,满足受众的求知欲望。最重要的是,以上这些内容都可以通过提供更有趣的形式来呈现,同时不失严肃,这就是数据可视化图表给新闻报道带来愉悦的阅读体验。三、大数据新闻存在哪些缺陷?1.数据的合法性当企业使用用户在各个平台上的行为数据来为用户提供更具个性化的推送时,用户所有的隐私都可能暴露无遗。在隐私权和个性化之间永远需要一个平衡。要想达到平衡需要多方的努力:技术上,发展加密技术;道德上,要求行业自律;法律法规上,在收集、存储和分析数据的软件中附上工程师们编写隐私政策的要求,并且加强政府监管。2.数据的代表性除了冗余数据太多、价值密度低外,大数据样本的代表性也值得商榷。大样本并不是全样本,甚至在绝大部分领域,它都不可能是全样本。来自于物理世界的科学数据和来自于人类社会活动的行为与关系数据,二者的产生和收集都存在很大的局限性,特别是社会生活中存在的“沉默的大多数”会大大影响到相关数据的全面。在新闻生产过程中使用大数据时,需要对所使用的数据保持审慎的态度,不能因为是大数据就笼统地认为它比传统的随机抽样调查更具代表性。3.数据会说谎互联网本身就充斥着大量的虚假信息——虚假的个人信息、购买的粉丝、雇人刷单的交易等等。另一种虚假则相对容易避免,它主要是源于对于数据的处理、解读和呈现,对统计现象只看结果不重解释,很可能导致错误结论。4.数据的解释性和预测性大数据的解释力并不强,它只能说明相关关系,而无法表明因果关系。因此,还需要通过人工调查、采访、分析等手段完成自身的逻辑链条,从相关推进到因果。不仅如此,轻信大数据的预测也有一定的风险。这是个不确定的世界,有许多决定性的影响因素都无法纳入模型之内,过分依赖大数据及其预测模型是危险的。大数据依托的是已经存在的数据,是基于存量(过去)的;但新闻是向前走的,是基于变量(未来)的。两者存在逻辑上的差异。四、大数据时代传媒业有哪些转型之路?1、数据团队与部门融合:新闻编辑部的功能转变像赫芬顿邮报那样,把新闻采编环节和市场推广环节结合起来,以用户的需求作为媒体内容生产和机构改革的动力之一。简言之,就是要把各部门融合起来,让数据团队入驻新闻编辑部。此处所指的数据团队,就是基于部门融合、跨领域合作的数据新闻创作团队。2、跨界合作与产业升级:大数据时代媒体机构的自我颠覆除了促进编辑部与其他媒体内部部门的融合外,媒体还需要加强与社会化媒体、移动互联网的合作,把不同行业、领域和终端的数据进行聚合,进行关联分析和价值挖掘,通过媒体融合及跨界合作,加速产业升级。不仅可以降低成本,而且可以通过合作碰撞出新的火花。比如说“据说春运”就是央视与百度搜索合作制作的大数据新闻报道,央视负责专题选定和新闻制作,百度负责数据采集和挖掘,这对双方都是利好的事情,后来的“据说两会”“据说就业”等也证明了这种跨界合作的可持续性和良好的合作前景。