推荐单位意见:项目名称科技情报大数据挖掘与服务平台推荐单位(专家)中国人工智能学会推荐单位(专家)意见:该项目为“研究者社会网络搜索与挖掘系统(ArnetMiner)”,经李德毅院士组成的评审委员会评审,得到了各位评审专家的充分肯定,获得2013年度吴文俊人工智能科学技术进步奖一等奖。此后,该项目相继展开近三年的创新研究,取得了多项进展,主要包括:1)理论研究:在多源异构数据语义集成,面向科技创新的网络用户行为分析,构建多维关系依赖的知识图谱等方面取得突破,新增发表论文30篇(其中CCFA类论文13篇);2)知识产权:积极推动知识产权保护,新增授权专利5项,项目相关授权专利达到了12项;3)经济效益:项目核心技术及工具获得了多个企事业单位的认可,集成应用如搜狗、亿赞普、点通等单位的主流产品中,产生经济效益超过5亿元;4)社会效益:项目系统向科技界免费开放访问接口及各种数据,为KDD,ICDM,WSDM等20余个重要国际会议提供审稿人推荐及语义信息服务;积极参与建设中国工程院主导的“中国工程科技知识中心”建设,成为其12个分中心之一;并参与建设联合国教科文组织主导的国际工程科技知识中心,成为其核心应用之一,为第三世界国家免费提供科技信息咨询及知识挖掘服务。综合上述情况,我会同意推荐该项目申报2016年度国家科学技术发明奖。项目简介:科技数据记载着科学技术的发展和进步,对其进行深入挖掘,可以及时了解和掌握科技动态,加快科技创新速度,提高科技生产力,让学术成果真正服务于经济发展和社会进步,为决策部门提供综合性战略性情报服务。这对于提高我国互联网科学管理水平,促进互联网经济发展,推动数据挖掘、信息检索、情报分析以及网络科学等相关学科的发展,占领下一代信息技术和知识服务的科技制高点具有重要的战略意义。推荐项目针对互联网环境下科技信息资源规模大、分布及异构等特征,率先提出并研发了以知识和研究者为核心的异构网络深度挖掘与服务平台,实现了亿级节点的大规模科技知识图谱的建立;创新性的提出面向科技创新的群体智能挖掘方法,为理解网络群体行为的形成和动态演化奠定了理论基础。项目主要发明及创新点如下:1)提出了多维依赖关系信息抽取方法和基于最小风险的语义集成框架,大大提高了语义信息的抽取精度,实现了亿级节点的大规模科技知识图谱的建立;2)创新性的提出面向科技创新的群体智能挖掘方法,系统性的给出了网络结构和网络用户行为之间的关联关系,为理解网络群体行为的形成和动态演化奠定理论基础;3)提出面向科技知识网络的异构对象统一建模方法将异构对象映射至低维隐空间进行排序学习,解决了知识网络中的异构对象排序难题,实现了异构对象全局权威度的高效计算;4)研发了具有完全自主知识产权的新一代研究人员社会网络的学术信息挖掘和搜索系统ArnetMiner(后更名为AMiner),提供面向学术、专利和科技新闻的搜索、语义分析、科技成果评价及趋势分析等功能。项目获得发明专利授权12项,取得软件著作权6项;发表相关学术论文112篇,GoogleScholar引用超过5800次。项目相关应用系统AMiner自2006年上线以来已经产生了显著的学术影响和社会效益。目前已为全球220个国家/地区700多万独立IP访问提供服务,发表在SIGKDD’08上介绍关键技术的代表论文GoogleScholar引用531次,在该会近8年发表的1508篇论文中排名第7。项目获得中国人工智能学会科技进步一等奖、中国电子学会自然科学二等奖、北京市自然科学三等奖。项目研究成果还在微软必应搜索、搜狗、亿赞普、点通、华为、IBM、通用、美孚、腾讯等企业的合作项目中得到推广应用,近三年相关产品新增销售额超过5亿元。客观评价:1.对项目的评价1)2013年8月29日,教育部对“研究者社会网络搜索与挖掘系统”进行了成果鉴定。鉴定委员会认为:项目成果完善了Web语义集成、主题模型、网络排序以及社会网络搜索与挖掘的理论体系和技术方法……被认为是世界上最有代表性的学术社会网络分析系统之一……鉴定委员会一致认为,项目核心技术达到国际先进、国内领先水平。2)2013年10月,项目“研究者社会网络搜索与挖掘系统(ArnetMiner)”在与国内近40项研究成果的竞争中胜出,获得了中国人工智能学会第三届吴文俊人工智能科学技术进步一等奖(仅一名一等奖)。2.对ArnetMiner系统评价1)2008年,介绍“研究者社会网络搜索与挖掘系统”框架及核心技术的文章“ArnetMiner:ExtractionandMiningofAcademicSocialNetworks”发表在数据挖掘领域的国际顶级会议SIGKDD‘2008上。论文GoogleScholar引用次数540次。2)UIUC大学的知名教授DanRoth在Coling上关于专家发现的论文使用Arnetminer的结果作为评测标准。3)著名研究机构DERI资深研究员P.Buitelaar等人在论文中提到:ArnetMiner是当前著名的学术研究者社会网络搜索工具。4)南安普顿大学Tiropanis等人撰写的综述中多次提到ArnetMiner系统,评价ArnetMiner是“…搜索与匹配方面最有代表性的工具…”3.对项目核心技术评价1)创新点1:信息集成工具RiMOM在国际本体映射竞赛OAEI中连续6年夺得9项子任务第一的好成绩;在2008年OAEI结果分析报告中,RiMOM被认为是“TopMatchingSystem”。2)创新点2:关于大规模社交网络中影响力分析的论文发表在SIGKDD’2009上,在ACM的DigitalLibrary中已经下载3792次,在该会议近六年(2008-2013)所有1208篇文章中下载次数排名第一。3)创新点3:在异构网络排序学习模型的研究中,将用户影响力分析应用在交叉领域协作关系推荐,论文发表在SIGKDD’2012上,被评审认为是“Thisisaverynicepaperwhichproposesanovelapproachforcross-domaincollaborationrecommendation”,论文获得最佳Poster奖。推广应用情况:项目研发成果AMiner系统自2006年上线运行以来,至今已经过8次重大改版升级,吸引了来自220个国家/地区700万独立IP的访问,为公众免费提供了超过200万次数据/代码/工具下载,收集了超过1亿5千万用户日志。GoogleAnalytic分析工具最新结果显示:来自于google搜索的日均访问量超过5000次,其中访问国家排名第一的是美国。AMiner系统除了为公众提供免费信息服务之外,同时其还开放了服务端口,为全球最大出版社Elsevier和SIGKDD’10-13,PKDD’11,ICDM’11-13等20余个国际会议提供论文-审稿人自动指派和专家搜索服务。在企业合作方面,项目相关研究技术成果在国家政府部门及国内外企事业单位获得了广泛的应用,近三年产生的直接经济效益超过5亿元。主要知识产权证明目录:知识产权类别知识产权具体名称国家(地区)授权或申请号授权日期证书编号权利人发明人授权发明专利在大规模社会网络中基于路径评分的个人关系发现方法中国ZL200710177066.82009/3/18480395清华大学唐杰、李涓子授权发明专利基于专家值传播算法的社会网络专家信息处理系统及方法中国ZL200710117719.32010/1/20592945清华大学唐杰、张静、李涓子授权发明专利一种基于词频和多元文法的新闻关键词抽取方法中国ZL200710177074.22009/11/14530956清华大学李涓子、樊绮娜、李军授权发明专利基于元数据分析的新闻事件检测方法中国ZL200710178687.82009/12/4645414清华大学李涓子、常诚,张阔授权发明专利基于约束优化的专家匹配方法及系统中国ZL201010554304.42012/11/141079349清华大学唐杰、唐文斌授权发明专利基于统一概率模型的个性化用户标签建模与推荐方法中国ZL201010546780.12012/11/141079129清华大学唐杰、张宁授权发明专利一种文档的检索方法和装置中国ZL200910238289.X2011/9/14839632清华大学唐杰、杨子授权发明专利获取别称匹配对的方法及装置中国200810118086.22012/8/81019924北京搜狗科技发展有限公司刘珊瑞、张阔授权发明专利一种获取多层信息的方法和装置中国200810102805.12010/8/11655115北京搜狗科技发展有限公司李华北、张阔授权发明专利一种对查询词分类的方法、装置及搜索引擎系统中国200710304182.12011/8/3818950北京搜狗科技发展有限公司张智敏、张阔、茹立云主要完成人情况:(摘自“主要完成人情况表”中的部分内容,公示姓名、排名、行政职务、技术职称、工作单位、完成单位、对本项目技术创造性贡献)完成人姓名唐杰排名1行政职务清华大学科技大数据研究中心执行主任技术职称副教授工作单位清华大学完成单位清华大学对本项目技术创造性贡献:项目总负责人,对创新点1-4都有创造性贡献。具体来说,提出最小风险的网络知识集成方法,被国际竞赛OAEI评价为2006年来最有代表性的方法之一;研究网络用户微观影响力理论,提出基于话题的影响力挖掘和传播模型,部分解决了影响力最大传播模型中的输入假设问题。论文:Arnetminer:extractionandminingofacademicsocialnetworksSocialinfluenceanalysisinlarge-scalenetworks专利:基于约束优化的专家匹配方法及系统(201010554304.4)完成人姓名李涓子排名2行政职务清华大学计算机软件研究所副所长技术职称教授工作单位清华大学完成单位清华大学对本项目技术创造性贡献:完成人对创兴点1,3,4有创造性贡献。具体说来,针对不同资源类型,提出不同的语义信息抽取模型,针对异构资源,提出最小风险的网络知识集成方法,解决了网络资源信息自动获取问题。论文:RiMOM:ADynamicMulti-StrategyOntologyAlignmentFrameworkArnetMiner:ExtractionandMiningofAcademicSocialNetworks专利:基于专家值传播算法的社会网络专家信息处理系统及方法,ZL200710117719.3完成人姓名张阔排名3行政职务技术总监技术职称教授级高工工作单位北京搜狗科技发展有限公司完成单位北京搜狗科技发展有限公司对本项目技术创造性贡献:对创新点1、4有创造性贡献,提出查询词深层语义意图理解方法,解决了用户自然语言查询的结构化理解问题;提出一种语义同义词、短语的获取方法,解决了用户多样性需求表达的归一化问题,为知识化信息的精确检索提供基础。专利:一种对查询词分类的方法、装置及搜索引擎系统(200710304182.1)一种获取多层信息的方法和装置(200810102805.1)获取别称匹配对的方法及装置(200810225407.9)完成人姓名张静排名4行政职务技术职称博士生工作单位清华大学完成单位清华大学对本项目技术创造性贡献:对创新点2,3有创造性贡献。具体来说,研究网络用户微观影响力理论,提出基于话题的影响力挖掘和传播模型,部分解决了影响力最大传播模型中的输入假设问题;提出了异构对象统一建模方法,建立了ArnetMiner中的ACT模型。论文:Socialinfluenceanalysisinlarge-scalenetworks专利:基于专家值传播算法的社会网络专家信息处理系统及方法(200710117719.3)完成人姓名茹立云排名5行政职务搜狗公司副总裁技术职称工作单位北京搜狗科技发展有限公司完成单位北京搜狗科技发展有限公司对本项目技术创造性贡献:对创新点1有创造性贡献。提出利用上下文无关文法、基于机器学习的