项目名称:海量信息可用性基础理论与关键技术研究首席科学家:李建中哈尔滨工业大学起止年限:2012.1-2016.8依托部门:信息产业部一、关键科学问题及研究内容2.1关键科学问题为了适应海量信息管理基础设施建设的需要,针对国内外海量信息可用性管理的研究现状和发展趋势,本项目将围绕多种类型(不仅仅是关系数据库中存储的关系型)和以多种方式存储(不仅仅是集中式存储)的海量信息,以信息一致性、精确性、完整性、时效性和实体同一性为核心,针对前面提出的五大挑战,以保障信息可用性以及源于信息的知识的可用性为目标,拟解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题,创建一套完整的海量信息可用性理论、方法学和技术体系。下边定义拟解决的三个科学问题。1.量质融合管理量质融合管理是指数据、信息和知识三个层面上的量与质的融合管理机制。现有的海量信息基础设施只关注信息的规模、系统的处理能力和可扩展性,重在“量”的管理,忽视了信息“质量”(简称“质”)的管理。目前,劣质信息普遍存在,已经在实际应用中产生了严重后果,造成了巨大损失。信息质量的管理已经成为目前的巨大挑战问题。为此,我们必须研究信息“质”的管理问题,将信息管理从“量”的管理拓展到“质”的管理,最终实现“量”与“质”的融合管理。信息来源于数据,知识来源于信息。数据的质量决定了信息的可用性,信息的可用性影响知识的可用性。为了彻底实现量质融合管理,我们必须在数据、信息、知识三个层面研究量质融合管理问题,提出完整的理论体系,解决关键技术问题。2.劣质容忍原理劣质容忍原理是指在包含错误的信息和知识上完成正确或近似计算和推理的原理。数据、信息和知识的错误几乎无处不在已成为不争的事实。“劣质容忍”是指在信息和知识存在错误的情况下,如何完成正确或相对正确的计算。为了实现劣质容忍,我们必须完成如下两个挑战性任务:第一,自动发现并修正信息和知识的错误,将可校正的劣质信息和知识修复为完全正确的可用信息和知识,支持正确的计算和推理。第二,很多信息和知识的错误无法完全修复,经过部分错误的修复后,这些信息成为部分正确的弱可用信息和知识。在这种情况下,我们必须解决如何在弱可用信息和知识上完成满足应用精度要求的近似计算和近似推理,取得满足用户质量要求的相对正确结果。3.深度演化机理深度演化机理是指信息和知识的多维度、全方位演化的内在机理。信息不是一成不变的,它会随着时间和物理世界的变化而发生演化。源于信息的知识会随着信息的演化而进化。现有海量信息和知识管理在演化方面只关注完全正确的信息和知识,并仅限于探索随时间演化的过程。实际应用要求我们探索信息和知识的深度演化机理,即以可用性为核心的多维度、全方位、趋利、竞合演化机理。在信息的深度演化方面,我们需要研究多源信息在时间、空间、形态、粒度等多个维度上正向协同的演化机理。在知识的深度演化方面,我们需要研究由原始物理数据到有简单语义的信息、再到有丰富语义的知识的纵向演化机理以及知识被不断发现、聚合、更新的横向演化机理。2.2主要研究内容本项目将围绕“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题,针对各种类型和不同形式存储的海量信息,以一致性、精确性、完整性、时效性和实体同一性为核心,沿着“数据→信息→知识→应用”的路线,深入系统地研究多模态海量数据高质量获取与整合的理论和技术、海量信息可用性与量质融合管理的基础理论、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法、海量弱可用信息上知识发现、演化与服务的理论和技术,提出完整的海量信息可用性的基础理论和关键技术,并将基础研究成果转换为有效的实用技术和算法,研制确保可用性的海量信息与知识的量质融合管理原型系统,以中国数字海洋(国务院908专项)和社保与经济普查信息为对象,建立复杂物理信息和管理信息两类主要信息的可用性保障应用示范,验证基础研究结果的可用性和有效性。本项目的具体研究内容如下。2.2.1高质量多源多模态海量数据的获取与整合的理论与方法研究由于信息源于数据,本课题将在数据层面围绕数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,针对数据的多源性和多模态性,以最大化数据质量为目标,以多模态数据融合计算为核心,研究高质量多源多模态海量数据的获取与整合的理论与方法,实现高质量的数据到信息的整合,在信息和知识的源头设置质量关,继而研究信息演化的机理。具体研究内容如下。1.高质量多源多模态数据获取的多模态数据融合计算的理论与方法首先,研究数据源的质量评估模型理论,包括物理信息系统等多数据源的综合质量评估、高质量数据源的选择方法等。然后,研究多模态数据的质量评估模型理论,包括一致性、精确性、完整性、时效性、实体同一性等单指标质量评估模型以及多指标质量评估模型。最后,针对各种模态数据的特点,研究高质量多模态数据获取的多模态数据融合计算方法,包括支持物理世界高精度重现的高质量多模态数据采集的理论与技术、多模态数据的保质转换模型及算法、多模态数据真实性验证的理论与技术、多模态数据错误校验技术、缺失值估计的理论与技术等。2.多源数据实体识别的多模态数据融合计算的理论和算法首先,研究来自物理信息系统等多数据源的多模态数据的实体识别模型,包括多模态数据的关联模型、多源数据的关联模型;然后,研究多源多模态数据实体自动识别的多模态数据融合计算的理论和算法,包括:物理信息系统中的实体特征表达和建模、针对多模态数据实体识别的高效、实时、分布式多模态融合计算的算法等;最后,研究多模态数据实体识别效果的评估理论和算法,包括:实体识别效果评估模型、评估测试算法。3.数据到信息整合的多模态数据融合计算的理论和算法首先,研究多源多模态信息集成模型,包括:支持物理信息系统复杂语义的多层整合模型,以及信息整合的可用性模型和评价方法等;然后,研究多模态数据融合计算的理论与算法,包括:动态多模态数据智能转换模型、多模态信息融合的智能模式抽取和模式匹配算法、自动的容错映射和转换模型、支持动静态数据结合的多模态数据融合计算方法等;最后,研究融合信息的正确性验证和保证的理论和方法,包括:信息整合的正确性模型和评价方法、多维度多目标清洗技术、分布式近似推演技术和延迟乱序纠正技术等。4.可用性驱动的海量信息演化机理以最大化海量信息可用性为目标,研究海量信息的演化过程,建立海量信息演化的世系模型及追踪技术,主要包括时空、多粒度、多路径和不确定的海量信息演化的理论模型;演化模式的正向性评估模型与方法;演化的可逆性判定与近似求解算法;演化描述的复杂性理论和低复杂性演化描述方法;网络化、多粒度、概率化的世系追踪技术。5.研制多模态海量数据获取与整合原型系统把上述基础理论研究成果转化为高效实用的算法和技术,研制一个多模态海量数据获取与整合原型系统,验证基础研究成果的可用性和有效性。2.2.2海量信息可用性与量质融合管理的理论基础研究围绕信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,以各种类型和不同形式存储的海量信息为对象,针对海量信息可用性与量质融合管理的关键问题,建立统一的逻辑框架,提出完整的理论体系,为海量信息可用性管理奠定坚实的理论基础。具体研究内容如下。1.海量信息可用性的理论模型首先,以各种类型和不同形式存储的海量信息为对象,分别研究海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的理论模型,分别解决这五个特性的判定问题及其计算复杂性理论。然后,研究海量信息一致性、精确性、完整性、时效性、实体同一性的理论模型之间的交互影响。最后,基于五种理论模型及其交互关系,在统一的逻辑框架下,综合这五种理论模型,建立海量信息的综合可用性理论模型,研究海量信息可用性判定问题的计算复杂性理论及其求解算法。2.海量信息可用性公理系统与推理机制首先,根据海量信息的可用性理论模型,以各种类型和不同形式存储的海量信息为对象,以信息一致性、精确性、完整性、时效性、实体同一性为核心,研究海量信息可用性语义的表示机理,建立海量信息可用性公理系统,分析其描述语言的表达能力,研究公理系统的一致性、完备性、独立性,并研究信息可用性公理存在性问题和相关计算问题(如最大一致性规则子集求解问题)的计算复杂性和有效算法。然后,研究从各类海量信息中自动发掘可用性公理问题的可计算性与计算复杂性,并设计从各类海量信息中自动发掘公理的有效算法。最后,建立海量信息可用性推理机制,研究海量信息可用性自动推理问题的可计算性与计算复杂性,并设计有效的自动推理算法。3.海量信息可用性评估理论首先,以各种类型和不同形式存储的海量信息为对象,分别建立海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的单指标定量评估理论。然后,研究上述五种单指标评估理论之间的相互影响,提出海量信息可用性的综合定量评估理论。最后,研究海量信息可用性定量评估问题的可计算性理论与计算复杂性理论,并设计有效的海量信息可用性定量评估算法。4.海量信息量质融合管理的理论和算法首先,研究支持海量信息“质”管理的信息模型和理论,包括信息的逻辑结构、信息的运算系统、信息的语义约束理论。然后,研究信息“质”管理的模型和理论与传统信息管理模型和理论的融合问题,建立海量信息量质融合管理的模型和理论。最后,研究海量信息量质融合管理关键计算问题的可计算性和计算复杂性理论,并设计求解这些问题的有效算法,包括信息逻辑结构的物理实现问题、信息运算系统的实现算法问题、数据定义与操纵语言的优化处理算法问题等。5.研制原型系统基于上述理论研究成果,研制信息可用性公理自动发掘和自动推理原型系统、海量信息可用性自动评估原型系统、海量信息量质融合管理原型系统,验证基础研究成果的可用性和有效性。2.2.3海量信息错误自动检测与修复的理论和技术研究围绕海量信息的“量质融合管理”和“劣质容忍原理”这两个科学问题,针对各种类型和不同形式存储的海量信息,以海量信息可用性与量质融合管理的理论为基础,在高质量多模态数据获取与整合的前提下,研究海量信息错误自动检测和修复的可计算性理论和计算复杂性理论、信息错误自动检测和修复方法的可信性理论、高效海量信息错误自动检测与修复的算法。具体研究内容如下:1.海量信息错误自动检测和修复的可计算性理论首先,以各种类型和不同形式存储的海量信息为对象,分别确定信息的一致性错误、精确性错误、完整性错误、时效性错误及实体同一性错误(以下统称这些错误为个性错误)自动检测和修复的关键问题,研究每个关键问题可解的充分必要条件,建立每个关键问题的资源需求模型,判定每个关键问题的可计算性。然后,以各种类型和不同形式存储的海量信息为对象,确定多种个性错误同时发生的错误(以下简称综合错误)的自动检测和修复的关键问题,研究每个关键问题可解的充分必要条件,判定每个关键问题的可计算性。2.海量信息错误自动检测和修复的计算复杂性理论首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复的关键问题,研究每个关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计个性错误检测和修复关键问题的高效求解算法奠定基础。然后,以各种类型和不同形式存储的海量信息为对象,研究每类信息综合错误自动检测和修复的关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计综合错误检测和修复关键问题的高效优化求解算法奠定基础。3.海量信息错误自动检测和修复的可信性理论首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误,建立描述个性错误检测与修复结果的可信性模型,研究个性错误检测与修复结果可信性的定量评估方法,进而建立信息个性错误自动检测与修复方法的可信性评估模型,给出设计可信的个性错误检测与修复方法的基本准则。然后,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误,建立描述综合错误检测与修复结果的可信性模型,研究综合错误检测与修复结果可信性的定量评估方法,进而建立综合信息错误自动