1中国中医科学院中医药信息研究所崔蒙超过100年的时间中医发展缓慢,其原因之一是未能与现代科学技术紧密结合:二十世纪中医学发展遇到的问题(还原论:纳米、基因、单体)小数据时代中医学发展遇到的问题(精确性:RCT、数据清洗、结构化、经验挖掘)大数据时代中医学发展的机遇(三大特点:与中医学理论吻合)大数据时代中医学发展机遇与中医药信息学的关系(仍然缺乏资源、方法与工具)引言一、大数据时代二、中医药信息学三、发展机遇四、小结内容大数据时代2008年,《自然》“BigData”,从互联网技术、互联网经济学、环境科学、生物医药等多个方面介绍了大数据应用所带来的技术挑战以及可以预见的未来的发展方向2011年,《科学》“DealingwithData”专刊,主要针对多个学科相关科研数据的膨胀问题,以更好地应对大数据带来的数据组织与访问挑战2011年,企业界和学术界共同面对“大数据”的机遇和挑战:概念、组成、关键技术、服务模式、管理方式,2011年,e-Science、数据密集型科学促成大数据大数据时代通过提高从大型复杂的数字数据集中提取知识和观点的能力,加快在科学与工程中的步伐,加强国家安全,改变科学研究……六个联邦政府部门和机构2亿美元的投入,用于提高大量数据的访问、组织、收集、发现信息的工具和技术水平,解决大数据带来的机遇和挑战官方的行动2012年3月29日,美国奥巴马政府发布了“BigDataBigDeal”与工业界、研究界、非盈利机构与管理者合作开设一门全新的研究型课程,培养下一代的“数据科学家”建立大数据论坛,对公益性的数据进行采集、分析和可视化等2.大数据特点大数据时代数量:海量,数十TB以上多样性:数据类型多样速度:快速处理需求1秒定律价值:沙里淘金或者Vitality(活力)图注:大数据的4V属性2.大数据特点大数据时代Volume:海量数据Velocity:快速处理需求Variety:多样性分析处理Complexity:结构复杂性Complexity3.处理数据的工具大数据时代Complexity谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使得人们可以处理的数据量大大增加更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列,这使得互联网公司顺理成章地成为了最新处理技术的领头实践者4.大数据的特点大数据时代精确性因果关系随机采样整体性混杂性相关关系①大数据特点之一:关注“整体”而非“抽样”不再依赖于随机采样,这样能更快更容易地发现问题,从而能够更多地关注到小数据研究所不能发现的细节谷歌预测流感:唯一关注的是特定检索词条的使用频率与流感在时间和空间传播之间的关系;4.5亿个模型,与2007、2008美国CDC记录的实际流感病例进行对比,发现45条检索词的组合,用于特定的数学模型后,他们的预测与官方数据的相关性达到97%,并且非常及时大数据的“大”不是绝对意义上的大大数据是指不用随机分析法这样的捷径,而是采用所有数据的方法在“大数据”时代,由于大数据可以抵消小数据中的错误数据,对于某些事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多人们认识和理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设,只要掌握大体的发展方向即可适当忽略微观层面上的精确度会在宏观层面拥有更好的洞察力②大数据的特点之一:混杂性谷歌语料库的内容来自于未经过滤的网页内容,包含一些不完整的句子、拼写错误、语法错误以及其他各种错误,并且没有人工纠正后的注解,但它是布朗语料库的好几百万倍,这样优势压到了缺点怎样看待使用所有数据与部分数据的差别,怎样选择放松要求并取代严格的精确性,应该开始从一个比以前更全面的角度来理解事物,将样本等于总体植入脑中;每个问题只有一个答案是不成立的,一旦承认了这个事实,我们离真相又近了一步“大数据”精髓之三是不再热衷于寻找因果关系,转而将注意力放在相关关系的发现和使用上相关关系通过识别有用的关联物来帮助人们分析一个现象,而不是通过揭示其内部的运作机制。建立在相关关系分析法基础上的预测是大数据的核心③大数据的特点之一:相关性美国折扣零售商塔吉尔与怀孕预测相关关系提示的是“是什么”,而不是“为什么”;相关关系可以帮助我们捕捉现在和预测未来整体性:人体自身、人与自然社会混杂性:证候及疗效的模糊性与中医学的相似性相关关系性:治病求因与个体化诊疗;捕捉现在和预测未来(平衡与和谐)大数据可以在开放环境下通过整体、模糊、相关的数据的分析发现近似真实的结果中医学可以在开放环境下通过对人体自身整体平衡状态及其与周围环境和谐关系状态的模糊体验,发现近似真实的失衡与不和谐•数千年前实验科学:描述自然现象•过去数百年理论科学:采用的是模型和归纳•过去几十年计算机科学:对复杂的现象进行仿真•今天数据密集型科学:将理论、实验、计算仿真统一起来(中国科学院计算机网络信息中心阎保平院士)(中国科学院地理科学与资源研究所孙九林院士)222.34acGaa5.科研模式的转变大数据时代科研活动所产生的海量数据结果,使数据资源的保有量日益增长,数据具有多样性、数据量大和数据复杂性等多种特质,这使得开发新的方法、构建和管理科学数据集和数据流成为当前科研模式转变的驱动力——“数据密集型”科学第四科学范式:数据密集型科学5.科研模式的转变(中国科学院计算机网络信息中心阎保平院士)(中国科学院地理科学与资源研究所孙九林院士)第四科学范式:数据密集型科学核心:以数据为中心,通过数据采集、数据保存与管理和数据分析三个基本活动流程完成数据密集型科学的发现过程:“数据生命周期”的循环,每一活动流程通过数据流和“工作流”配合完成的主体:科学家在工作流的后期介入,审核相关的数据或可视化结果(中国科学院计算机网络信息中心阎保平院士)(中国科学院地理科学与资源研究所孙九林院士)虚拟世界即基于电子计算机技术的发展,在互联网、手机网和有线电视网内由数据“运动(计算)”而呈现的空间,该空间实际上是现实空间和思维空间的数字化显现目前,虚拟世界是由三网组成的,在虚拟世界中唯一存在的就是数据,正是数据的流动构建了虚拟世界。虚拟世界对真实世界的影响正在不断增大虚拟世界——新的世界or第三世界?大数据时代6.大数据时代的虚拟世界我们以为虚拟世界是人对本原世界体验的再现,它只能丰富和加深对本体论的认识,而不发生本体论的转移虚拟世界虚拟世界使本体论问题比任何时代更加突出,它已经大大地拓展了自然本体的范畴。哲学家们必须回答从虚拟世界向真实世界的映射究竟达到何种程度的真实;虚拟世界能否代替物理世界或创造一个物理世界的替代品;它是实现当前人类所说的可能性情景,还是能够揭开我们这个世界所难攻克的奥秘或者仅能揭开另一种世界的实在规律;它从物质向精神的转变的成功是否意味着传统物质观念的倾覆,原来意义上的本体论是否发生了转移,技术与符号融和的虚拟世界本体论又该怎样理解等一系列的问题(中央党校哲学部科技教研室陈晓荣)从本体论上看,虚拟世界既不是有形的物理世界,也不是根本不存在的虚无。它是一种特殊的现实世界,是一种由物质向意识转化的中间环节,形成了事物的过度态虚拟世界从认识论上看,它能虚拟认识过程,加速认识的发展。它扩展了认识对象,对人类的认识产生着重大的影响,并且实现了“客体”本身的“主体化”,即认识活动双方都具有主体性因此,它是一种客观实在,这种客观实在不仅指与思维相对的物质,而且指实在的东西(中央党校哲学部科技教研室陈晓荣)虚拟世界的认识论意义恰恰在于实现了“客体”本身的“主体化”,即认识活动双方都是有主体性的。虚拟世界在认识论意义上具体表现为五个方面:虚拟世界一、使人类获得了一种认识世界的新工具。虚拟世界是人类社会的科学技术高度发展的产物,它是信息社会出现后才表现出来的,如同想像、梦和潜意识等等。二、使人类认识的客体域得到极大的拓展,即它使人类对现实世界中的复杂系统的认识由可能变为现实,成为复杂性科学认识的重要的和必不可少的辅助手段。(中央党校哲学部科技教研室陈晓荣)三、它使主体能动性和主体优势得到了充分发挥。在虚拟世界中,主体通过认识它达到对客观现实世界的认识,充分发挥主体在认识过程中的能动作用虚拟世界四、它使人的超前认识和创造性思维能力得到极大发挥五、虚拟世界还将改变人类思维方式(中央党校哲学部科技教研室陈晓荣)中医药信息学1.定义中医学与信息学交叉产生以中医药信息为研究对象(体验信息)以中医药信息的运动规律为研究内容(意象世界)以中医药信息学方法论为研究方法(大数据)以提高中医药信息获取、转化、传播、利用能力(处理开放环境下复杂巨系统数据)为目标的一门新兴科学中医药信息学1.中医药信息学是一个中医学与信息学本身所具有的多学科相互交叉协同所产生的新兴学科领域;2.中医药信息学是中医学的一个分支,在中医学理论和信息科学方法论指导下,研究中医药体验信息、知识密集型数据、意象世界及其在虚拟世界中的部分再现,以及如何处理开放环境下的复杂巨系统的数据等问题;3.中医药信息学的研究目标是通过提高中医药信息利用的能力,解决阻碍中医药学发展的瓶颈问题,推动中医学理论与方法学的继承与创新发展,促进临床疗效的提高2.内涵中医药信息学什么是信息?什么是中医药信息?中医药信息的主要特征及与大数据特点的相似性?中医药信息的形成、获取、转化、反馈、传播等大数据时代中医药数据的特点及科研模式的转化3.中医药信息的原理及任务中医药信息学什么是信息?“信息就是信息,既不是物质也不是能量”——《控制论》诺伯特•维纳(英)数学家、控制论创始人“可以认为物质,能量(运动)和信息是一起构成宇宙形形色色、丰富多彩现象的三大基本要素”——《复杂适应系统的进化》周光召理论物理学家信息:通讯系统传输和处理的对象,泛指消息和信号的具体内容和意义,通常须通过处理和分析来提取。信息和物质、能量是构成系统的三大要素《辞海》(1989年)信息是事物存在方式或运动状态,本体论与认识论信息(钟义信)数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”美国数学家、控制论的奠基人诺伯特·维纳在他的《控制论——动物和机器中的通讯与控制问题》中认为,信息是“我们在适应外部世界,控制外部世界的过程中同外部世界交换的内容的名称”英国学者阿希贝认为,信息的本性在于事物本身具有变异度如果世界是由物质、能量和信息组成,传统的中医学因其产生时条件的限制,没有能力深入研究物质和能量,那么它的主要研究对象就是信息,即事物存在的方式或运动的状态中医学是根植于中华文化、基于中国哲学、以天人合一的整体观及辨证论治的个体化诊疗思想为特征的一门研究人体生命运动的科学中医学信息是在中医实践过程中,主体在开放环境中对客体变化过程中内外关系整合后生成的综合状态及其改变方式的体验,具有明显的主客相融的特征什么是中医药信息?①相对重视客体内部与外部相互间影响后产生的整体变化状态与方式(整体信息,与部分信息相对)②相对重视主体认识与客体信息融合后包括观察在内的体验(认识信息,与本体论信息相对)③相对重视客体包含了大量稳定与不稳定关系的包括本质在内的现象变化状态与方式(现象信息,与本质信息相对)④相对重视体验对象在时间上延续变化的状态与方式(时间信息,与空间信息相对)中医药信息的主要特征①中医药信息特征之一:整体信息中医药信息是完全开放环境下的信息,人体与自然、社会交流和联系产生的综合状态中医药信息的开放性决定了中医药信息的系统性和整体性自身信息社会信息自然信息整体性在证候中的体现证候即人体生命发展变化过程中一定阶段机体与环境等因素有机联系的多因素反应状态,强调的是天人合一以及时间的阶段性和延续性,较少以具体的器质性的机体组织变化的空间切割来认识人体变化信息对中药的认识包括药物的性、味、归经等基本信息,产地、种属、药用部位等资源信息以及炮制配伍、功效主治等与人体发生作用后表现出来的动态变化信息,这些信息的整合形成了中医对中药的整体认识,而较少探