全文检索需求档案管理系统需求整理1、一个文档有多个附件;2、文档支持格式:pdf,CEB,txt,html,office(world、excel)、wps文档,tf、tff;Ceb格式,目前在档案系统已经存在一个对应的txt文件;现在有两种方案来处理ceb格式:一是把档案系统中的ceb对应的txt文件,迁移过来;二是ceb文件重新转换一次。3、权限管理,权限有个人、角色、部门分类;4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询;可以分多个字段查询(比如:档案类型、查询年份)5、准确显示摘要和高亮显示;6、矩阵分析(智能分析相似文档,数据挖掘的一部分);档案的现在方案a)使用lucene2.x版本;b)系统是二级部署;c)每个网点比如福建,按地市创建索引文件。每个地市的索引文件的大小在800M左右,这样单个档案系统的一个网点的索引总大小应该在10G左右(目前的大小)。d)每个地市只可以单独查询,目前没有实现合并查询。e)新建索引和增量索引是分开处理的。f)权限控制,目前是用户在请求单个文档的时候才验证权限;在索引和检索两个层次上没有做控制。其他特点知识管理系统需求整理1、目前是一个文档对应一个附件,但以后有可能支持多个附件;文档支持格式:知识管理中各种文档都会存在,尽量支持大部分数据格式。2、支持的格式可以灵活扩展。3、权限管理,权限有个人、角色、组织、部门等层次;4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询;5、准确显示摘要和高亮显示;6、智能分析(相似文档,数据挖掘的一部分);目前知识关系系统的方案A)采用Autonomy;B)系统式一级部署,索引总部建一个统一的索引;C)支持分布式部署,包括索引文件相同的重复部署,和内容不相同的分布式部分。D)权限控制:有权查看每份文档的用户名,都创建到索引中。目前的缺点A)有权限查询的时候会比较慢;B)人为控制查询结果比较困难;C)配置繁琐。关联问题1、检查出来的结果在线阅读时,存在多分文档的时候,怎么展示。选型对比LucenceAutonomy对比分析备注