大数据与图书馆信息服务工作的变革陈益君2015.66/9/2015引言•随着移动互联网、传感网络、社交网络等的广泛应用和普及,催生了数据资产的爆炸式增长,将人类社会迅速推进到大数据(bigdata)时代。•世界著名的企业,如IBM、oracle、惠普、腾讯、百度、阿里等都纷纷加入到大数据应用研究的行列,通过收购与大数据相关的软硬技术实现大数据的技术整合,力求在大数据时代取得更加有利的竞争地位。•未来六年,互联网将把50亿人连接在一起,同时,它还会把50亿人与400亿台机器设备连接起来,并且机器与机器也将被连接起来。6/9/2015从IT(信息技术)到DT(数据技术)的变革•20世纪是石油为王的时代,21世纪是一个数据为王的时代。•马云:未来制造业要的不是石油,它最大的能源是数据.•IT时代把人变成了机器,而DT时代把机器变成了智能化的人。大数据重建图书馆信息服务模式•大数据及其构成体系•大数据典型应用案例•大数据在图书馆的应用•大数据与科研成果评价•大数据与图书馆的未来6/9/2015大数据(BigData)•研究机构Gartner认为:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。•大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。6/9/2015大数据的特点•大数据有四个层面的特点:•第一,数据体量巨大。•第二,数据类型繁多。•第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。•第四,具有很高的经济和社会价值。•业界将其归纳为4个“V”——Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)6/9/2015大数据的本质•大数据的本质是“内容为王”的数据观。•大数据是一个技术概念,实质上是涉及物联网、云计算、新一代互联网和通讯技术,以及包括采集产生数据、存储数据、数据传输及数据处理分析等的具有“破坏性创新”威力的“新技术群”。•大数据本质上泛指所以的“数字化内容”,大数据技术能够将所以的“数字化内容”转化为“数据化内容”。通过对“数据化内容”的自动化处理分析可以让机器有智能、让人类更智慧。•大数据时代是一个数据驱动的智慧时代。人类社会的每一个领域都将被“大数据”改变。6/9/2015舍恩伯格在《大数据时代》中关于大数据的3个思维变化:6/9/2015个体数据、团体数据与大数据个体数据团体数据社会数据身体数据(身高、体重;健康数据:血压、血糖、血脂等)生活数据(起床、上班、睡觉习惯,交通工具,上班路线,饮食喜好等)消费数据(通过什么方式购物、购物的类型和消费的档次等)资产数据(收入状况,投资状况,固定资产状况,投资的喜好,风险控制如何?)社会数据(有否开通博客/微博?粉丝数量,微信上喜欢原创或转发什么信息,收藏什么信息,朋友圈的人数,朋友圈的特点(年龄、性别、信息行为等)。一个机构或团体组织在网络空间或物理空间中信息活动及其行为的记录。构成人类社会的个人、家庭、机构、团体等社会成员在网络世界或物理空间中所有信息活动行为的记录的总和。6/9/2015高校的数据集•数据挖掘•相关性•趋势分析•综合决策•教学数据•科研数据•管理数据•基础数据•图书馆数据•站点数据•邮箱数据•各种公开数据•基于**生命周期的数据分析6/9/2015信息的数据结构类型结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,如数字、符号等非结构化数据:即不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构化的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。大数据的典型应用•大数据与股市行情•博彩营销和赛事预测•信息检索和信息发现•服装销售与原因分析•产品定制与产品销售•优化模式与效率提升•创新产品与自动驾驶•大数据与农业生产•大数据与智慧医疗6/9/2015人才发现与评价的方法•人才发现与评价的方法途径大致有三:•成果鉴定法•同行认可法•大数据法•运用大数据方法发现评价人才,需要的是三种能力:计算机云计算技术能力,数据收集与挖掘能力,还有实施人才管理能力。6/9/2015大数据与棒球队员的选择•如何组织好一支棒球队就成为一种学问。《点石成金》(Moneyball)中棒球队经理比利•比恩,用大数据作为最重要的参考数据。一般经理寻找优秀球员都依靠猎头公司,他则不然,他是找来一位统计学家前来帮忙,而且尽量将球员的各种能力数据化,并以此作为衡量球员好坏的唯一标准。•比利•比恩则通过他与统计学家共同研制的这套计算机程序和数学模型,专门寻找那些实际价值被低估了的球员,目的是实现最高的“投入产出比”。这么一来,他做到了以有限的投资,寻找最适宜的人才,终于创下了美国历史上职业棒球大联盟连胜20场的空前纪录。大数据与人才筛选•全世界每天都有大量学术论文发表,因此,把他们集中起来分类录入就不是一件难事。为了从中选拔出优异者,可以让同行专家投票,也可以采取别的替代方法。•美国科学家想到了“科学论文引用率”。就是考察科学论文被他人引用的状况,又叫作“引用指数法”。这个方法的产生与持续,确实帮助世界科学界筛选评价出不少杰出科学家。6/9/2015大数据与人才筛选•海量的论文,到底哪一篇创新性强、学术影响大?把它找出来,并不是一件容易的事。•国际知名的汤森路透公司,就是利用这种方法准确筛选而发现诺贝尔奖花落谁家的。汤森路透的专家说,他们的方法就是凭借大数据。只要打开汤森路透公司的网站,你就可以看到不少各种各样的人才排行榜,分专业、分行业,分区域,分国家。6/9/2015大数据与人才筛选•选出各行各业的优秀人才,并且将他们按照一定的规则排队,是一件意义重大的事情,是人才工作领导部门的一项基本功。•汤森路透公司称,利用大数据方法,他们成功预测也就是发现了去年的8位诺贝尔奖获得者,准确率高达8/11,也就是72.7%。6/9/20156/9/2015外科学名家评价姓名简介高被引著作被引频次H指数黄志强中国工程院院士《现代腹部外科学》96547吴阶平中国科学院、中国工程院院士《黄家驷外科学》362945吴孟超国家最高科学技术奖获得者,中国科学院院士《腹部外科学》66844韩德民中国工程院院士《鼻内窥镜外科学》125243郭应禄中国工程院院士《男科学》79139王忠诚国家最高科学技术奖获得者,中国工程院原院士《神经外科学》931238裘法祖中国科学院院士《外科学》1523(316/9/2015外科学名家评价姓名简介高被引著作被引频次H指数吕厚山骨外科博导、教授、主任医师《人工关节外科学》164830周良辅中国工程院院士《现代神经外科学》134927邱蔚六中国工程院院士《口腔颌面外科学》162325王炜主任医师、教授《整形外科学》231225喻德洪外科主任医师《现代肛肠外科学》91125吴在德教授、主任医师、博导《外科学》209024黄洁夫中央保健委员会副主《腹部外科学》1134246/9/2015大数据与人才评价•大数据特别重视事物的相关性。这种相关,可能距离较远,也可能距离较近。•最近面世的两本新书《唐诗排行榜》与《宋词排行榜》,我认为就是利用了大数据原理而实现诗歌排行的新尝试。虽然书名叫作诗词的排行榜,实际上,也对诗家、词家做出了排队。6/9/2015大数据与诗词排行榜•众所周知,对于唐诗宋词,人各有爱。有人喜欢李白的浪漫,有人热爱杜甫的现实;有人称赞辛弃疾的豪放慷慨,有人偏爱李清照的婉约多情。•诗词界没有最高法院,不好评论高低上下。但是,从古至今,人们不住地吟诵评论,总有一个名次之分把?于是有人开始采用新的数学统计方法进行研究,以上两本专著就是凭借方法创新实现的产品创新。6/9/2015大数据与诗词影响力排序•评价者采用了四个方面的数据:历代选本入选唐诗的数据、历代点评唐诗的数据、20世纪研究唐诗论文的数据,以及文学史著作选介唐诗的数据。此外,还参考了网络连接的唐诗数据。•数据采集后,研究者进行了加权处理以及标准化处理,通过数学变换消除各项指标量纲的差异。这么一来,就可以得到一个计算公式,而后通过计算机自动计算出每首诗的综合得分。这样,位居前一百名的唐诗名篇就排列出来了。6/9/2015大数据与诗词影响力排序•1高居榜首的是崔颢的《黄鹤楼》•2王维的《送元二使安西》•3王之涣的《凉州词(黄河远上)》•4王之涣的《登鹳雀楼》•5杜甫《登岳阳楼》•前10名内出现了柳宗元、孟浩然、常健、王勃、李白的名篇。但是,如果全面仔细观察,在这100首唐诗之内,按出现的诗歌篇数排队,杜甫、王维和李白高居前三。6/9/2015•黄鹤楼/登黄鹤楼•(1493人评分)8.2•朝代:唐代•作者:崔颢•昔人已乘黄鹤去,•此地空余黄鹤楼。•黄鹤一去不复返,•白云千载空悠悠。•晴川历历汉阳树,•芳草萋萋鹦鹉洲。•日暮乡关何处是?•烟波江上使人愁。6/9/2015Facebook粉丝的价值?6/9/2015Facebook粉丝的价值?•Facebook全年80亿美元的收入几乎全部来自该公司的广告平台,支配它的是一个极其复杂的排名系统。其原理十分简单:哪个用户人群对广告主越有吸引力,针对该人群的广告成本就越高。比如,面向挪威妇女的广告费就比该网站上的任何其他人群的要高。该结论得自于广告软件公司Nanigans的数据。根据Nanigans的经验,挪威妇女在网上的消费往往是针对她们的广告费的2倍。天猫、华为牵手大数据•阿里巴巴每一次创造性概念的提出,都试图暗合中国电商消费模式的变迁。•华为每一次新业务的试验,都想要给市场竞争格局带来重构。•2012年11月开始,天猫与华为展开了一场日点击量超过24万次的大面积用户调研,天猫给华为开放了大规模的手机消费行为数据,华为则通过分析数据定制生产产品,并通过天猫销售。天猫把这种商业模式定义为C2B,意为消费者定制生产,华为内部则将其称为C2B2C。•阿里巴巴表示大数据开放和金融服务将是未来阿里系服务电商的主要业务模式。•华为Mate是天猫首款和厂商联合定制的C2B2C模式样本,它为年轻的华为手机电商团队提供了一种有效的与消费者沟通的方式,使其从海量信息中捕捉到有效信息。基于数据的定制生产•电商的优势可以支撑多久?什么模式对于未来的电商来说影响最为深远?结论是:未来的电商一定是定制化个人化的,包括产品定制化和营销个人化以及物流社会化。•在华为内部则形成了这样的共识:虽然乔布斯不相信市场调研,依靠本能和悟性创造了iPhone的奇迹,但不是所有人都是乔布斯式的天才,对市场的判断只能基于数据。数据改变生产和营销模式•华为需要数据,以在很短的时间内能够锁定用户,锁定需求和喜好,快速反应。过去,手机的生产流程是,产品经理冥思苦想,然后开始画图做样机,之后几个人坐在一起,看看哪款样机还不错,做成成品、量产、铺渠道。•大数据能够告诉企业消费者需要什么样的产品,包括外观、颜色、材质,通过互联网的聚类效应,把同一种类型的消费者包括进来,为这类消费者做聚众化的定制,销售过程中根据反馈调整再生产,这就是C2B模式。让数据指导设计和定价•华为从天猫拿到的数据让其大跌眼镜。过去的知识以为电商的客户是对价格比较敏感的人群,但分析的结果显示,在特定的价格以下和特定价格以上的产品最好卖,处于两个极端。•从屏幕的角度看,700元这个档位上主流屏幕为3.2寸,700~1200元是4.3寸,1200~2100元是4.5寸,2100元以上屏幕需求变大,如4.7寸,超过3000元左右的时候,5.5寸这种超大屏幕的跨界手机开始出现。从芯片的角度,特性也类似。•调研的结论是:4.5寸以上屏幕,4核芯片,超大容量电池,4000毫安以上电池容量