大数据时代的CNKI云数字图书馆技术敦煌2013/7/11目录一、图书馆中的大数据二、CNKI大数据的实践三、CNKI云数字图书馆的大数据关键技术四、CNKI大数据技术发展计划一、图书馆的大数据图书期刊报纸专利标准工具书古籍学位论文会议论文二次文献机构知识库科学数据硬件软件视频音频图片文字出版物网页博客微博网站短信关联数据状态(行为)数据海量的内容数据出版内容TB,有限,增长缓慢非正式出版物TB,有限,增长缓慢用户生成内容(UGC)PB,EB,巨大,无限,增长迅猛巨大的关联数据•指数增长•关联的规模:–N=wr–N:一个单元关联的总数量规模–W:关联的宽度(广度)–r:关联的深度•以W=6,r=6,为例,一篇学术文献可能的关联点就达4万多个。wrN26643672946409656156256646656动态的行为(状态)数据•登录•检索•浏览•下载•点击•停留时间•位置•时间的函数•与用户数量成正比从哪来到哪去IP检索词PV地区机构设备软件CNKI的大数据实践•每天形成日志:100GB•每天新更新影响的关联:百万文献•每天的行为数据影响:百万文献CNKI的大数据实践CNKI出版的数据论文:6000万题录:1亿外文题录:1.5亿条目:2500万统计数据:2亿条图片:3000万引文数据库:6000万CNKI的大数据实践•户访问•检索:500万/天•下载:300万/天•形成读者行为关联数据:读者推荐文献•输入提示词:3000万•关联数据•5600万引用关联,形成引证网络•作者关联网络•概念关联网络(200万词)–相关词、相似词–双语对照词典文献文献作者读者知识元概念知识元???资源整合要有效建立各种资源类型以及资源内容内部之间的明确的关联知识网络数据CNKI大数据模型核心出版物数据出版物数据互联网数据内容数据关联数据用户行为状态数据XML对象数据库(NXD)科学数据知识元通过大数据挖掘图书馆需求教授硕士博士讲师大数据本科生科研项目项目申报课题选择资料采购成果评价经济的采购及时的响应精准的服务个性化的服务CNKI的大数据关键技术XML数据库XML结构化关联分析查询技术可视化深度学习用户输出反馈社会化搜索主题标引XML数据库技术(NXD)--大数据整合的关键提供全面的基于XML的数据表示与管理技术。文献全文内容可以表示到篇、章、节、段落、公式、图片、表格。从全文表示提升到内容片段表示。支持知识片段的管理、存储、检索。支持Xpath查询支持Xquery支持nativeXML数据库支持EnableXML支持DTD/Schema,支持数据校验高性能的查询技术基于XML的统一发现技术,面向对象检索技术,通过检索实体对象识别技术,智能化接口技术将搜索技术与结构化查询技术进行有机的结合,识别用户检索行为,极大提高用户检索的相关性与有效性。社会化搜索融入学者及其之间的关系,构建精准高效的学术搜索引擎。、章、节、段落分析图片抽取表格抽取公式自动抽取定义自动抽取知识点抽取创新点抽取网络关联分析处理关联分析路径分析范围搜索依赖搜索定位搜索社会化搜索可视化处理趋势分析分布分析关系聚类树分析图分析深度学习技术--解决知识发现未来•“一组针对具有多层输入结构模型而设计的机器学习算法”.•2012年6月,Google公司的深度学习系统在识别物体的精确度上比上一代系统提高了一倍。去年6月,Google演示了有史以来最大的神经网络,这一网络上拥有超过10亿个节点,并成功从YouTube视频中提取了1000万张画面上带猫的图片。为了训练深度学习的多层虚拟神经元系统,Google公司动用了16000个计算机处理器。•012年12月,微软亚洲研究院展示了中英即时口译系统,错误率仅为7%。•深度学习通过组合低层特征形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征表示。深度学习具有多层非线性映射的深层结构,可以完成复杂的函数逼近是深度学习优势之一。是解决知识识别与知识发现的最有潜力的方法之一,是大数据应用的关键。基于XML的期刊多元发布示例未来计划•XML数据转换–期刊数据库XML化、工具书XML化–中外文文献总索引;–知识元数据库:创新点数据库、概念知识元数、图片知识元数据库等;•增强平台基础性前沿性技术的开发–基础软件建设:KBASE/NXDXML数据库开发、内容发现平台、云浏览器、主题语义网建设;–知识标引:主题标引、学者网络等;•合作–通过合作方式,吸引更多国内外出版社、资源厂商、图书馆,将其数字资源通过云平台进行发布,形成超大规模的资源云。谢谢聆听!知识传播工程技术研究院zhenhai@cnki.net