2013-11-291976-、、10··PDFLucene410083〔〕通过建设双层PDF全文数据库、创建索引和全文检索等实现过程来阐述相关技术的研究和运用。以建设全文数据库为基础,研究结构化信息与非结构化数据的合并管理,对目录数据和全文数据的同步索引,基于Lucene技术,实现档案管理系统的一站式智能化档案全文检索,提升档案查全率。〔〕双层PDF;全文检索;档案管理;LuceneDOI10.3969/j.issn.1008-0821.2014.06.015〔〕TP391〔〕B〔〕1008-0821201406-0075-04Research&RealizationofFullTextRetrievalBasedonDoublePDFandLuceneTechnologyXiangYuWuShimingArchivesofCSUChangsha410083China〔Abstract〕ThroughtheconstructionofdoublePDFfulltextdatabase,createdtheresearchandapplicationprocesstotherelevanttechnicalindexesandfull-textretrievaletc.WiththeconstructionofdoublePDFarchivesfull-textdatabaseasthefoundation,combinedwithmanagementofstructuredinformationandnonstructureddata,synchronizationindexonthecatalogdataandtextdata,basedonLucenetechnology,realizedone-stopintelligentarchivesmanagementsystemoffulltextretrieval,toenhancethesearchrate.〔Keywords〕doublePDF;fulltextsearch;archivesmanagement;Lucene、。、、。LucenePDF。1、、、、。。。Lucene1。2Word、PDF、JPGXML、HTMLWebService—57—20146346JournalofModernInformationJune2014Vol.34No.6XML。SQL。2Windows。2.1全文检索思想。。、、、。2.2双层PDF技术。。PDF。PDFTextImagePDFImageTextImageOCR、。。PDFWORD。2.3全文检索引擎LuceneLuceneJava3。4。Lucene。Lucene5、、。Lucene7、、、、。Lucene5Document、Field、IndexWriter、Analyzer、Directory。。3lucenePDF、、、、、、、、。、、、、。3.1创建双层PDF全文数据库PDF。PDF。PDFIDRecidRecidText。PDFImageText。PDF。PDF、、。3.2创建索引PDF。PDFtext、。3、、。Lucene。4Term。1indexWriterindexDocument。2FieldField。3Document—67—20146346PDFLuceneJune2014Vol.34No.6DOC、EXCEL、TXT、HTML、XMLDocumentField。DocumentField。Object2DocumentUtil.classDoc-ument。Analyzer。AnalyzerAnalyzerStandardAnalyz-er。AnalyzerIndexWriter。OCR。。4FieldDocumentDocumentIndexWriter。5indexWriterDirectoryFSDirectoryRAMDirectory。publicvoidcreateIndexWriterStringsDirtrybooleanflag=true∥truefalseFileindexDir=newFilesDir∥Directorydir=SimpleFSDirectory.openindexDir∥DirectoryAnalyzersAnalyzer=newStandardAnalyzerVersion.LU-CENE30∥indexWriter=newIndexWriterdirsAnalyzerflagMax-FieldLength.UNLIMITED∥catchExceptionelogger.error″indexWriterExcep-tion″eindexE/index/T319。lucene1。0.cfxcompoundSegmentcompound.cfx2.fnmField2.frqdocID10.cfx45644KBCFX2013-4-205∶01A2.fnm1KBFNM2013-4-205∶01A2.frq6328KBFRQ2013-4-205∶01A2.nrm106KBNRM2013-4-205∶01A2.prx10383KBPRX2013-4-205∶01A2.tii14KBTII2013-4-205∶01A2.tis731KBTIS2013-4-205∶01ASegments.gen1KBGEN2013-4-205∶01ASegments21KB2013-4-205∶01A2.nrmTermTermTerm。。2.prxTerm2.tii2.tisSegments.gen、Segments2。。3.3索引管理。deleteIndexDataindexData。。、、incre-mentIndexWriterStringsDir、saveIndexDataindexData、updateIndexDatalucenecloseIndexWriterIndexWriter。updateindexWriter.updateDocumenttermObject2DocumentUtil.object2documentindexData“”updateDocumentdeleteindexData+saveindexDa-ta。3.4检索过程及结果处理。—77—20146346JournalofModernInformationJune2014Vol.34No.6QueryScorerqsLuceneHighlighterFragmenter100。、、。3.5原文浏览。PDF。AcrobatReader。ReaderPDF、、“”PDF。PDFPDF。PDF。PDF<OBJECTid='PDF'classid='clsid*****'border='0'WIDTH='100%'height='100%'><paramname='Version'value='65539'><PARAMname='ExtentX'value='20108'><PARAMname='ExtentY'value='10866'><PARAMname='StockProps'value='0'><PARAMname='SRC'value=″<%=read-Path%>″>。4。。JDBCJavaDataBaseConnectivityIDRecidRecidFilepathPDF。Index。。5。“AND”。PDF。、PDFText。1000500、。、。、。Lucene、LucencePDF。PDF6RSS、。[1]管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,(2):489-491.[2]forfuture1978.Lucene学习总结之一:全文检索的基本原理[EB/OL].http:∥forfuture1978.iteye.com/.[3]胡长春.基于Lucene的中文自然语言搜索引擎[D].上海:上海交通大学,2009:32-35.[4]解鹏飞.Lucene搜索引擎技术在国家海洋数字档案馆示范系统中的实现及应用[J].海洋环境科学,2008,(8):117-121.[5]yingsuixindong.全文检索引擎Lucene优点[EB/OL].http:∥blog.csdn.net/yingsuixindong/article/details/5580983.[6]向禹.基于SOA架构的高校档案资源管理系统设计与实现[D].长沙:中南大学,2013:61-67.马卓)—87—20146346PDFLuceneJune2014Vol.34No.6