密文全文检索系统中大规模密文文档管理研究报告内容1、选题来源及研究的意义2、国内外研究现状及分析3、主要研究内容4、研究方案及进度安排1、选题来源及研究的目的和意义来源863项目计划分布式密文全文检索系统关键技术研究(国家863计划项目)(2007AA01Z403)(2007-2009)Mimir数据特点Mimir数据属性:(1)密态小文档:(2)结构化XMl文档加密后大小3-10k;(3)数目达到百万甚至千万篇(T级数据)(4)密钥更换(5)全文检索服务管理难点:(1)块数据管理(2)单xml文档管理(3)热点数据的处理目标细化结构上:(1)文档管理模块与上层查询模块松耦合,实现由文件名透明访问文件性能上:(2)实现百万篇级密文文档分布式存储、随机访问(3)查找并内容返显的时间控制在一定范围[目标500ms/30篇](4)文档密钥更换以及安全审计(5)优化的压缩算法和解压速度课题意义有助于加强各行各业文献信息资源建设、开发、利用,其产品的推广也将带来巨大的社会和经济效益,对我国科技进步和经济、社会发展具有十分重要的战略意义。(1)密文全文检索系统(协作)(2)涉密小文档的管理(独立)2、国内外研究现状及分析2.1搜索引擎中的文档管理体系结构2.2搜索引擎中的文档存储策略2.3搜索引擎中的文档数据更新维护策略2.4密文全文检索系统中密文文档管理需求2.1搜索引擎中的文档管理体系结构(1)基于数据库思路的:Yahoo!PNUTS(2)基于文件系统思路的:Google:GFS+Bigtable+MapReduce天网搜索类似Google,但又有差别[blocksize/Read](3)基于网络虚拟存储思路的:目前没有用于搜索引擎的,p2p文件共享的居多2.2搜索引擎中的文档存储策略共性:(1)目标都是一致的,为检索请求提供及时的数据。“三本”方式(2)存储策略的选择依赖搜索引擎选择的存储体系结构。(3)搜索引擎中数据的存储量非常大、单个文件大小不一致、数据格式不统一、数据内容千差万别、数据更新速度不一致等等。(4)对数据进行分类压缩存储,并保证一定的解压速度(5)数据在块级别上一般都实现了冗余备份,具有一定的容错性特性:GoogleBigtable行列Yahool!PNUTStable2.3搜索引擎中的文档数据更新维护策略(1)数据更新维护的范围和粒度局部少、全局频繁、块级别、单文档(2)数据更新维护的类型和内容读、写、删除、移动(3)数据更新维护的代价数据库、文件系统2.4密文全文检索系统中密文文档管理需求(1)块级别管理密态小文档合并成块后,系统对大块数据的管理能够提供扩展性、灵活性。系统能够管理千万篇的文档数据,在大数据集下系统性能稳定。(2)单密态文档管理适应涉密企事业单位的涉密公文的类型、大小、加密和密钥更换需求,同时对热点文档做优化处理。3、主要研究内容1.MStore框架设计2.MStore数据存储策略3.MStore数据操作1.MStore框架设MimirMStoreHDFSPathXMLMTIDMtables(a)(b)MStore1MTControlMtableNMtable1Mtable0。。。2CommonCache3HotCacheAPIforMimirAPICallHDFS452.MStore数据存储策略MtablesIDNun0offset0length0Nun3offset2length2Nun1offset1length1。。。Content0/content1。。。。FilesArrayFilesContentBigtableMtable3.MStore数据操作CommonCacheHotCacheHotMtablesCommonMtables33XmlXmlpathNameLog映射处理12HDFSXml数据4-24-34-14-45-15-26MtableforloginfoMTMap4、技术方案与进度安排主要技术关键包括:1、块的大小选择和属性定义。2、加密粒度和快速解压设计。3、热点文档的处理。4、块数据和单密文文档数据的缓存策略