熊海涛博士2013年11月19日知识元与知识服务基于知识元库的知识服务:目标与需求基于知识元库的知识服务:服务模式基于知识元库的知识服务:基础结构知识服务的理念从各种显性和隐性知识资源中通过对用户的知识需要和问题环境的分析,将信息析取、重组、创新、集成的知识提炼过程。知识服务的本质是有针对性地解决用户问题的高级阶段信息服务知识服务的本质是个性化的知识服务的基础:信息的知识化知识元不可再分割的具有完备知识表达的知识单位文献服务知识服务文献知识元知识元是显性知识的最小可控单位知识元是完备的,即一个知识元在逻辑上是完整的,能表达一个完整的事实、原理、方法、技巧等知识元是有一定结构的,因此是可以表达的知识元通过一定的语义连接在一起,可以导致知识价值的增值,甚至是催生新的知识。通过知识元的链接和发掘各知识元的相关联系,是知识元服务的重要手段和目的,以此来揭示知识元之间的各种关联,得以创造新的知识数据仓库和数据挖掘等原理和技术仍适用于对知识元的存储和利用百科工具书方法与数字图书馆/出版商合作:权限控制SpringerReference的搜索设计将结果中的条目分三个层次资源Over600books600余种专著Dictionaries,Encyclopedias,Handbooks字典,百科全书,手册Theentire“LittleGreenBook”and“LittleBlueBook”series全套小绿书及小蓝书系列TwoMajorWorkscollatingaselectionofjournalarticles典籍Newlycommissionedvideos视频特点开发了一套社会科学研究方法的分类法方法地图(methodsmap)能够以可视化的方式揭示方法的词条、概念、人物和文献之间的关系图书基因组计划图书推荐与发现FromElsevierFromElsevierFromElsevierFromElsevierFromElsevierFromElsevierClinicalKey实现智能服务的保障:EMMeT(ElsevierMergedMedicalTaxonomy)基于知识元库的知识服务定位向全社会各行业提供知识服务以及所需的基础设施、先进技术、丰富的知识资源。主要内容研发一组知识资源生产、利用、服务的关键性技术开发三个平台:知识资源搜索平台、知识资源管理与服务平台、知识资源生产加工平台集合社会力量开发支持国家科技创新与文化发展、促进社会和谐的一系列知识资源库产品将建立起一套良性的产业化运营机制,形成具有较强社会影响力的知识服务体系全面的、精加工的知识资源先进的知识加工、管理与服务技术模块化的功能面向应用的知识库产品扎实的基础设施个性化的增值服务……以文献资源为基础期刊学位论文会议论文报纸标准专利工具书多种类型知识元图片知识元定义知识元音频知识元视频知识元事实知识元创新点知识元数值知识元……知识资源库采集与搜索平台知识资源库管理与增值服务平台知识元加工与存储平台知识元管理平台知识元发布与知识可视化平台学习研究平台知识元评价平台多样化的知识库产品面向研究创新的知识库产品面向创新管理的知识库产品面向学习的知识库产品个性化的知识服务功能动态的知识服务体系良性的产业化服务机制产业竞争与合作相结合基于知识元库的知识服务平台资源所有知识体系形成知识资源库,实现知识检索、知识引导、知识获取、知识发现、知识挖掘等功能各学科、领域的知识元库构成一个知识体系知识元与知识胞构成一个知识元库不同知识元库间相互关联提供一组术语和概念来描述某个领域知识库则使用这些术语来表达该领域的事实将紧密关联的各类知识元进行组织,形成有特定功能的知识胞从本体中提取出的不同类型不同分类的知识元提供一组术语和概念来描述某个领域,知识库则使用这些术语来表达该领域的事实基于知识元库的知识服务知识表示技术知识挖掘技术知识元加工技术知识管理技术语义词典技术跨媒体知识提取技术知识呈现与可视化技术语义词典技术知识管理技术自动翻译技术自动问答技术自动综述技术知识与创新评价技术基于知识元的知识测评系统基于知识元库的知识服务文献聚类、多样化的搜索排序和资源链接任意位臵搜索标题、作者、摘要、全文……多维度展现搜索结果引文、时间、作者、文献类型……资源聚类词聚类与文章聚类等,协助用户完成搜索资源链接引证文献链接、相似文献链接等,引领用户进入资源网络面向知识的搜索从文献资源深入到文献中的知识元大量文献中所包含的知识元及相关链接的搜索,将产生极大的知识增值采用用户定制、内容过滤及先进的自然语言等智能技术,将搜索结果转变成知识,并对搜索结果进行组织,去掉搜索结果中多余的信息方便快捷地帮助客户获取有用的知识减轻了用户的搜索负担,提供给用户最需要的知识结果基于自然语言理解的智能查询技术用户输入简单的疑问句搜索引擎在对提问进行结构和内容的分析直接给出提问的答案,或引导用户从几个可选择的答案中进行再选择若没有满意的答案,可建立新问题,等待他人回答,从而再次选择。输入简单疑问句搜索引擎进行分析直接给出答案几个备选答案用户选择答案无满意答案建立新问题等待他人回答用户选择答案由IBM公司和美国德克萨斯大学历时四年联合打造,电脑存储了海量的数据,而且拥有一套逻辑推理程序,可以推理出它认为最正确的答案。在美国最受欢迎的智力竞猜电视节目《危险边缘》中击败该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者。知识元数据库图片知识元数据库定义知识元数据库创新点数据库……图片知识元数据库数据序列图结构示意图原理示意图实物照片系统框图实验效果图定义知识元数据库研究型定义(来源于一般学术论文)学习型定义(来源于工具书、教科书,其他图书、综述)科普型定义(来源于科普型文章)新定义(首次提出时间在近年内的)以文献的创新点为主要内容按照科研创新的关键点进行组织研究对象研究方法……简洁直观信息完整以图片为核心的知识组织图片对比(以图找图)图片与CNKI文献库、概念、创新点等的链接Imagetest1cnki1234基于图片区域识别与分割的检索方法基于局部区域特征,采用KBASE指纹字段进行索引与检索应用系统实验抄袭图片检测测试样本:29对抄袭图片,2万张其他图片(掺沙子)测试结果:召回率62.07%,正确率58.62%科研选题帮助研究人员选择具有创新性的研究课题指导创新总结已有的创新模式,指导创新过程创新评价为评价科研创新工作提供素材与工具创新点知网节研究对象知网节、研究方法知网节国内外首个以文献创新内容为单元的知识元数据库面向科研创新与技术创新的内容描述与组织模式直接以创新为目标的科研选题基于创新性评价的科研评价体系框架基于中文自然语言处理及语义分析的创新点及其元数据自动提取技术以创新为目标的选题模式基于研究价值进行选题以“前沿创新”为切入点“实时”学科综述针对科研成果的创新性评价针对机构与个人的创新性评价针对学术刊物的创新性评价学术定义:含文字描述、图片、数值、公式、来源、研究人员、研究机构、相关概念等等。概念内容(文字描述、图片、数值、公式等)中外文概念对照概念的来源文献、作者、评价值专业术语、简称、缩略语等已完成文本挖掘最高90%准确率的知识元抽取方案、数据排重与筛选技术、知识元表示技术、知识元评价技术及产品网站整合设计实现与产品发布预计2012年,完成数据量千万级的全学科素材库权威性高来源于已经发表的学术期刊、博硕士论文、报纸、会议、工具书。区别于不限来源、大众编辑的概念产品经过专家审核,确保概念的权威性可供科研工作直接引用专业覆盖面广如互联网专题,概念数量达40万之多,满足专题研究需要时效性强每年更新,收入最新概念,区别于工具书按时间进行排序,研究概念的演变过程为科研工作提供基础服务为各行业提供概念查询服务提供中外文对照查询服务历史沿革定义为众多定义类型中一种,该定义类型指的是对定义知识元起源及历史发展相关描述的一类定义知识元。即:对于某个术语词,在其多条定义内容的介绍中,由于每条定义会关联其对应出处的文献。我们就可以通过阅读文章,详细了解到,关于该术语词,从起源到发展、创新、转折等的历史演化,及对应学者、期刊,目前的研究现状。从而了解以该术语词为基点,爆炸性展开的关于该术语词的整个知识体系,为需要对该方向进行深入研究的人员提供最方便、快捷的知识服务,从而为知识的传播与发展做出巨大的贡献。基本功能词典查询外文语句查询外文摘要查询译法按频度排序研发功能篇名翻译摘要翻译文献翻译自动翻译技术丰富的学术词汇(概念知识元)实现篇名、摘要、正文等的翻译实现多语种文献翻译(自动+人工审核)涵盖所有学科多语种学术概念,专业性、权威性强语义词典为了提供多种知识服务产品,需要一个包含多种语义信息的词典,该词典收录通用的汉语词汇和专业词汇,并随着产品需求,不断完善语义信息,能跟着语言学和专业学科一起发展。收录规范的词汇词典最基本的功能就是要收录词汇,为了面向知识服务的应用需求,除了收录常见的通用汉语词汇,还要收集规范的专业词汇。目标是总量达到100万。目前已经有大量待审词语和审核流水线,审核规范也参考了现代汉语语义词典规范,并根据项目需求做了补充,根据去年的审核经验,能够完成审核目标。词语生长随着语言和各专业的发展,会产生很多新的词语,因此需要采用自动方法将这些可能是新词的候选串挖掘出来,并且为了节省人工审核成本,要想办法提高准确率和召回率。计划准确率和召回率都超过50%。期刊库有大量的数据,可以作为挖掘对象,通过调研国内现有的词语挖掘方面的论文和专利,认为技术上可行,该功能是词典发展的基础。拼音拼音是一项常见的语言信息,要求标注汉字拼音,并且在此基础上实现汉语文本拼音自动标注系统。已经有规范词数据和大量的工具书,通过调研国内现有技术,结合现有的分词技术可以保证技术上的可行性,能够实现汉语拼音自动标注。同义词、缩略语、反义词同义词、缩略语和反义词是很重要的语义信息,尤其同义词和缩略语,指示同一类事物,在相似计算中有重要作用。要找到可行的同义词、缩略语和反义词的抽取方法。工具书库能够支持挖掘,但是国内外在这方面的研究较少,在其他信息的挖掘方法中有基于模板的方法,通过实验发现该方法可行,能够实现功能。关联关系抽取概念的关联关系也是一种重要的语义信息,但是关联关系有很多种,首先实验iskindof关系的概念抽取,找到抽取方法。和同义词等的挖掘类似,有工具书库为基础,通过基于模板的实验,发现能够实现挖掘功能。辅助主题词标引主题词标引需要建立一个较完善的主题词表,目前的主题词表规模小,比较旧,因此需要找到很多原词表没有的专业词作为入口词和现有主题词对应。审核医学词语,使主题词和新入口词达到平均1:5的比例。规范的医学词量很大,能够支持入口词对应,根据调研入口词的类型,可以通过相似词、同义词等技术,可以找到较多待审入口词。语义词典是知识服务的基础语义词典是一个支撑性质的底层产品能够辅助检索、分词、文本自动分类、关键词抽取、主题词标引、快照、句子检索、句法分析、机器翻译、工具书条目标引、检索推荐、自动摘要、相似文献检索、相似相关词、学术不端检测、统计年鉴等项目。欢迎批评指正!xht@cnki.net