项目计划书项目名称:材料基因创新研究平台____所属组别:创意组__作品类型:“互联网+”信息技术服务_立项背景新材料是目前社会上极有前景的朝阳产业之一。美国自2011开始,将新材料列为影响经济繁荣和国家安全的六大类关键技术之首。我国也将新材料列为七大战略新兴产业和“中国制造2025”重点发展的十大领域。工信部的权威数据中,2015年新材料产业总产值达到2万亿元,这些数据都在不断佐证新材料的重要性。人类社会的发展和材料的发展密切相关,我们从石器时代一路走到信息时代,材料科学的作用不容小觑。然而,传统的材料科学研究,最大的痛点仍然是材料科学的“试错”(TrialandError)研发模式:在面临一种材料的研发需求的时候,我们必须反复的进行试验,来找到我们需要的材料。这个过程中,不仅研发周期漫长,而且成本居高不下。而我们团队因为有着计算化学的背景,希望利用计算机技术,来解决材料研发中的这个头号痛点。美国于2011年和2014年启动了两轮“材料基因组计划”,希望解决这个问题,这与我们的想法不谋而合。我们的想法是,在材料科学研究的实际需求,与材料科学的基础理论(包括:物理学、化学等)之间加入两个中间层:材料的宏观属性(如光学、力学、电磁学等的相关特性)以及材料的微观属性(如材料的组成、键连、电荷分布等),并使用计算机技术——包括传统的量子化学计算,以及新兴的机器学习、大数据挖掘——来找到这四个层次之间的相互联系,降低“试错”的次数,也为材料科学节约成本,提高效率。“材料基因”为美国等发达国家复兴制造业带来了希望,也为我国改变材料领域的落后局面和调整经济结构提供了机遇。材料基因组计划主旨是结合实验工具、科学计算、大数据技术打造全新材料开发流程,通过搜集海量的新材料实验和计算数据,经过高通量科学计算验证,构建专门的数据库实现共享,攻克新材料从概念与需求到实验制备并最终到工厂这个放大过程中的问题。海量的材料数据收集和高通量科学计算是发展材料基因的前提和关键。然而,相对美国、欧盟等在材料数据收集方面的率先布局,我国在数据库建设方面几乎全面落后。美国坐拥ACS(美国化学学会)和APS(美国物理学会)等众多科学出版资源,囊括了全球各国花费巨量资源打造的材料研发数据。欧盟的研究组织已然在全球布局数据收集和存储节点,意图效法美国,坐收各国材料研发成果。2014年,德国Springer出版社通过集成科学文献数据推出材料检索服务,各国科学家们在检索本来就由科学家们所发展的材料数据时均需支付高昂费用。因此,我国材料数据库的缺失相比我国在科研经费和人力上的投入以及不断提高的科研产出极其不匹配,在国际合作中处于被支配地位。缺乏自有数据库,对我国材料基因组计划开展和新材料产业是致命的。美国和欧盟都对文献数据资源的网络访问设置了次数、IP、下载等重重限制,使得外部无法开展任何系统性的数据分析,材料基因的挖掘和清洗甚至简单定义都无从谈起。同时,我国材料行业产业起点较低,承担的往往是产业链中利润空间极低的粗加工业务,因此材料大数据的缺乏已成为我国材料企业往高端升级的瓶颈,具有远见卓识的集团公司例如华为每年面向科研院所发布大量新材料研发项目,旨在突破材料生产的瓶颈。团队构成主要产品和服务针对我国目前严重缺乏材料基础数据的现状,我们团队决定率先建立材料基因创新研究平台(以下简称平台)。平台主要包含材料基因收集、基因数据库构建、基因数据图谱分析以及性质模拟四个主要部分,主要提供三大服务:1.材料大数据检索和订阅服务;2.材料基因定制服务;3.材料电商与产学研中介转化平台。材料大数据检索和订阅服务此服务面向国内高校和研究所的科研用户,通过计算机Web技术,整合各种渠道来源的材料科学原始数据,提供专业的材料检索服务,包括:(1)功能分子、高分子、分子晶体、纳米结构、固体材料等材料的搜索;(2)材料性质的检索和分析;(3)基于量子化学计算的数据检索以及文档服务,包括优化空间构型、计算量子态结构等;(4)利用量子化学计算预测物理与化学性质,模拟多种谱学响应,揭示实验机理,如分子电子学与光子学、化学反应、光催化、光电转换、传感与探测、生物化学等。我们希望通过量子力学计算、机器学习等手段对数据库进行完善,以期从数据库中获取新的材料科学知识,指导材料科学学者的研发工作。在这个方面,我们已经研发并且上线了早期版本(如图1),这是一个用于检索材料信息的网站,目前已经可以完成基于分子结构(如图2)、名称和性质的检索、过滤和实时可视化。而检索到结果之后我们会提供数据库中收录的所有性质列表,以及经过量子力学优化的结构下载(如图4)。在团队所属课题组经过努力,以及国家超算中心等的配合下,已获取上千万级的功能分子、百万级别的晶体结构的材料特征数据,构建了实用的材料基因数据库。图主界面图绘制结构进行检索图检索结果列表页面图材料全部信息的检索界面而在此方面的短期计划中,我们需要尽早地实现平台的主要部分,即利用计算机数据库技术,实现对各种材料(分子材料、周期性材料、复合材料)的基本物理化学性质的分类管理;建立Web服务系统,逐步实现材料科学数据的社会性收集;开发适用于材料大数据研究的人工智能和互联网核心技术:开发互联网和移动网络的App实现数据的自动化大规模收集、通过深度学习实现材料数据智能分类、基于物理化学分析挖掘优质的材料构效关系描述符;需要开发出高效的材料基因关联、图形和模糊检索技术,为学术用户提供更友好的材料检索服务。这方面的研发工作在2017-2019年实施完成。材料基因定制服务此服务面向企业和科研用户,提供定制的材料研发及其产业化服务,具体包括针对具体应用的分子与固体材料设计、针对特征性能参数(光、电、磁、热、吸附、活性等)优化的材料基因数据服务(小型数据库或软件)、实用器件性能(化学反应、发光、导电、光催化、储能、探测等)仿真。在此方面,我们已经和中航工业西安飞机工业公司、贵州瓮福集团、北京泊菲莱公司等达成了合作,成功完成材料筛选设计工作,产生良好经济效应。材料电商与产学研中介转化平台次服务面向学术机构与企业,搭建材料相关的学术创新成果收录与转化平台。(1)为学术和研发用户提供材料产品的在线订购服务,实现在线下单、订购、支付和快递全链条服务;(2)实现有产业化潜力的材料的智能挖掘,并展示于材料基因大数据库的信息平台上,并按层次向付费的VIP企业用户推荐最新学术成果;(3)收集并展示行业和产业中的材料研发需求,提炼生产实践中的基础科学问题,主动沟通企业家与科学家,推动成果转化。(4)面向行业企业,基于特定应用(化学反应、发光、导电、光催化、储能、探测等)的某类材料,整合全面的物理、化学、生产、来源、应用、趋势等信息,撰写大数据报告分析,为企业研发和投资分析提供战略性指南。技术选型在综合考虑之后,为了更方便地收集和检索材料科学数据,我们决定使用Node.js技术进行“前端”部分的构建,而后端则对接各种超算平台,利用这些服务来进行大规模的材料科学的数据挖掘分析。由于材料数据的多样性,在数据库方面我们使用了CouchDB这个非SQL文档数据库作为主要的存储引擎,然后将数据库中的内容同步到ElasticSearch,利用ElasticSearch实现高性能的全文检索。而为了实现基于分子结构的搜索,我们使用了AP/TT特征来为每一个收录的分子结构进行特征向量化,让我们可以使用ElasticSearch的引擎来实现分子结构搜索,和一些相关的数据分析、机器学习分析等。而在数据订阅服务所用的用户验证方面,则使用ASP.NETCore构建服务,数据库采用较为传统的PostgreSQL实现。在检索服务所用的量子化学计算,以及材料基因定制服务方面,我们使用Gaussian、VASP等软件进行量子化学的相关计算,同时我们也在积极参与量子化学计算专用FPGA硬件加速卡的研制工作,来提高计算的效率和准确性。根据我们的估计,VASP在这个计算卡上可以比使用CPU提高10倍以上的性能。机器学习在这个方面的作用也十分重要,我们主要使用Theano来进行相关的机器学习和数据分析。初步成果我们团队在该方向已有较好基础,围绕理论化学模拟、材料基因科学、大数据服务三个重要研究方向,已形成了学术优异、结构合理、优势互补的科研人员队伍。团队所属课题组在新材料领域承担了国家科技部、自然科学基金委、中科院等重要任务,涵盖了量子功能材料、生物医药、分子材料、纳米材料等应用。围绕“科学大数据挖掘、第一性原理计算、材料基因组学研究、材料数据检索、云计算服务”的主题,团队所属课题组经过努力,已将材料检索服务的先行版本上线运行,并完成了若干次成功的材料信息定制案例。此次通过本团队开展产业化运作,推出材料大数据检索和云计算业务,将在材料大数据分类、清洗和归纳方面发展基于人工智能和互联网的核心技术,从而为学术和企业用户提供材料基因挖掘与设计定制。所建设的平台将实现下列五个目标:公共服务:承担国家级“材料基因组学计划”重大项目,提供官方认证的权威性材料数据检索和收集业务,并发展新材料云计算服务;大数据挖掘:整合全球材料科学多年研究成果,去伪存真,清洗转化;科学研究:提供材料设计第一性原理“起点”,解决新材料研究的瓶颈问题;新兴产业:实现科学研究与新兴产业之间的成果转化平台,直接服务于新材料产业和先进制造业,降低研发门槛,缩短开发流程,降低生产成本,聚集上下游,延伸产业链。长期研发计划平台的建设依赖于理论计算、计算机科学、高通量实验技术和信息工程等多方面工具的协同攻关。我们的远景计划中,具体建设模块如下图所示分为四个部分:材料基因的收集子平台:包括初期的材料基因定义,多层次多角度结合目前大数据挖掘技术中的分类、回归分析、聚类、关联规则、特征和偏差分析等方法,建立基因数据收集模版,开放Web模式的基因数据收集平台。计划于2017年子平台初步建设完成,四年后实现稳定运行并占据主要市场份额。基因图谱描绘子平台:采用基于化学信息学的材料筛选和大数据分析处理工具,从材料基因出发构建材料结构和分子模型,应用第一性原理模拟获得材料信息,进而将通过高通量实验验证和多维度的表征研究来进行机理分析,所得信息反馈于理论计算实现构型优化和理性设计,并在过程中提升定义新的材料基因,最终针对应用需求描绘基因图谱。计划于2018年子平台建设完成,六年内实现稳定运行并占据主要市场份额。基因数据库子平台:对材料基因数据进行甄别和清洗,结合基因数据特点计数据库格式,实现高效分类管理。利用海量数据训练机器算法,发展材料基因定义和复合体系功能化设计的机器学习技术。计划于2018年子平台建设完成,六年内实现稳定运行并占据主要市场份额。基因库云服务子平台:利用高性能超级计算服务器,与新材料企业就功能分子和材料进行应用需求分析,以分布式计算方式为企业新材料研发提供前期数据基础和性能预测数据包,定制新材料研发方案。计划于2019年子平台建设完成,八年内实现稳定运行并占据主要市场份额。市场分析上述三类服务皆属于新的市场领域。在材料检索订阅服务方面,该类服务可参比德国Springer与美国ACS出版集团分别推出的SpringerMaterials和SciFinder服务,根据中国科学技术大学图书馆的反馈数据,他们每年为订阅SpringerMaterials的花费为70万元;ACSSciFinder的费用则是25万元。根据这些数据我们估算,仅在中国市场,此项服务的估值即有50亿。显然地,我们将面临国外出版商的竞争,考虑到材料数据库的战略意义,我们将极力争取政府层面对本土材料检索提供方的倾斜支持(包括资源上的以及政策上的)。在材料数据库的构建过程中,解决数据来源问题非常关键,在这里我们希望采用美国ProteinDataBank的模式,即通过先期的数据质量,吸引文献作者以及其他研究者向我们的服务上传数据,同时在文献中引用我们数据库的链接,这样既提高了我们数据库的权威性,也丰富了数据的来源。除了直接在文献中出现的数据,研究者在研究过程中产生的数据不少也有收录的价值,我们也会开