新闻稿山东我行“类聚NLP分词系统”设计方案本网讯近日,山东我行信息技术有限公司委托省级科技查新咨询单位对公司自行研发的“类聚NLP分词系统”进行两项科技查新,科技查新机构给出的查新结果为“经检索,目前国内未见有与本项目查新点相同的文献报道”,该查新结果说明“类聚NLP分词系统”达到国内先进水平。“类聚NLP分词系统”是一个提供了自然语言处理领域分词的工具包,其包含三种分词模式,采用了七种分词方法分别进行了实现,同时支持扩展命名实体识别模块、索引分词模块、词性标注模块。三种分词模式包括:基于字构词的生成式模型分词器,基于词语构词的生成式模型分词器,基于词典的机械分词器。字构词的模型分词器实现方式:随机场(CRF)模型和隐马尔可夫模型(HMM)模型;词构词的模型分词器实现方式:最短路径(Dijkstra)、N最短分词器、Viterbi分词器;词典分词器实现方式:双数组Trie树实现的最长分词器、自动机双数组Trie树实现的最长分词器。扩展命名实体模块包括:中国人名识别,音译人名识别,日本人名识别,地名识别,机构名识别,数字识别。索引分词模块开启则支持尽可能多的分出词语。类聚NLP分词系统提供的七种分词实现方式,五种命名实体识别模块,索引分词模块和词性标注模块,能够有效的解决NLP中文分词领域遇到的消除歧义,新词发现问题,可以满足绝大多数的中文分词需求。公司申请国内的查新点与查新要求为:分词速度:类聚NLP分词系统最高分词速度达到两千万字/秒。召回率:类聚NLP分词系统的召回率达到98%。科技查新机构针对中国科技成果数据库(万方)1985-2016,山东省科技成果数据库(1986-2008),中国科技经济新闻数据库(维普)1992-2016,中国学术会议论文数据库1979-2016,中国学位论文数据库1977-2016,中文科技期刊全文数据库(1989-2016),中国期刊全文数据库(cnki)1979-2016,山东省成果查新报告数据库(2003.10-2014),中国专利数据库(1985-2016),Internet国际互联网(2016.03),中国化工文摘数据库(1992-2016),中国生物医药数据库(1989-2016)等数据库,采取检索策略围绕(自然语言处理+NLP)*分词系统、分词器*分词*(自然语言处理+NLP)、(自然语言处理+NLP)*(切词+断词+拆词)*自然语言分词NLP技术*召回率*分词。科技查新机构查新结论为:依照查新用户的委托及国家科技部、山东省科技厅关于科技查新咨询工作的有关文件规定,在现有的检索领域内,以从检索结果选出的密切相关文献0篇、相关文献7篇为例,经分析对比,结论如下:相关文献1研究了基于统计的NLP技术在中文信息检索中的应用;相关文献2研究了汉语分词应用需求的多样性,结合网格的特点设计了七个服务算法;均与本项目类聚NLP分词系统最高分词速度达到两千万字/秒不同。相关文献3探讨了基于自然语言处理与非负矩阵分解的中文文本分类;相关文献4提出了一种统一的统计语言模型方法用来汉语自动分词和中文命名实体识别;相关文献5研究了基于N最短路径和隐马尔科夫模型的中文POI分词系统;均与本项目研究类聚NLP分词系统不同。相关文献6研究了基于ActiveLearning的中文分词领域自适应方法;相关文献7介绍了名词聚类在自然语言处理系统中的应用;均未述及分词系统的召回率达到98%。本项目类聚NLP分词系统是一个提供了自然语言处理领域分词的工具包,其包含三种分词模式,采用了七种分词方法分别进行了实现,同时支持扩展命名实体识别模块、索引分词模块、词性标注模块。三种分词模式包括:基于字构词的生成式模型分词器,基于词语构词的生成式模型分词器,基于词典的机械分词器。类聚NLP分词系统提供的七种分词实现方式,五种命名实体识别模块,索引分词模块和词性标注模块,能够有效的解决NLP中文分词领域遇到的消除歧义,新词发现问题,可以满足绝大多数的中文分词需求。经检索,目前国内未见有与本项目查新点相同的文献报道。