项目名称:网络海量可视媒体智能处理的理论与方法首席科学家:胡事民清华大学起止年限:2011.1至2015.8依托部门:教育部二、预期目标3.1总体目标本项目总体目标是开展网络环境下海量可视媒体智能处理的理论与方法研究,在网络海量内容的视觉感知高效计算与分析学习、符合人类感知的可视媒体交互、融合与呈现、异构多源可视媒体的关联挖掘等重要方面上取得突破性进展,建立可视媒体的认知与学习、分析与挖掘、交互与合成、搜索与服务等一整套网络海量可视媒体智能处理理论与方法,支持网络可视媒体高效利用与智能服务、数字内容生成与服务产业等国家重大需求;同时,培养一批优秀的青年科技人员,形成一支具国际水平的研究队伍,为国家在相关领域的持续发展提供重要的技术支撑。3.2五年目标五年内,在可视媒体智能处理的基础理论,关键技术和系统应用平台方面,取得有国际影响的研究成果,争取在以下六个方面取得进展和突破:1)在人类视觉感知和认知计算模型研究上取得进展,提出符合认知行为的认知计算模型和面向可视媒体大规模计算的神经计算方法。2)提出融合结构语义的可视媒体分析学习的新方法,在可视媒体信息的本征表达、高维数据空间到低维流形空间的映射模型等方面,提出一系列理论和方法,解决海量、复杂可视媒体的分析学习问题。3)基于人类视觉认知先验,构建新的可视媒体视觉信息表达机制,提出融合运动特征和视觉显著特征的运动目标时空关联分析方法和基于上下文信息的跨视域可视媒体语义分析与信息整合机制,解决大范围场景可视媒体智能感知问题。4)提出网络环境下的可视媒体安全新方法,包括可视媒体的质量评价、内容合成检测、源辨识方法等。5)提出基于互联网数据集的可视媒体内容生成与呈现方法,包括面向内容生成的海量可视媒体分类与组织方法,提出非精确标注与交互的分析与匹配方法,以及基于语义的可视媒体一致性编辑与融合算法等。6)提出复杂网络环境下海量可视媒体信息的有效搜索和个性化推荐服务机制,包括基于统计流形学习的概念建模与检索,结合网络环境下的多模态信息和用户群体智能的可视媒体多模态关联挖掘方法。以上成果,预期发表百篇以上有重要影响的国际学术期刊和会议论文;其中,在ACMSIGGRAPH,IEEEInternationalConferenceonComputerVision等最高水平的国际会议和ACMTransactionsonGraphics,InternationalJournalofComputerVision,IEEETransactionsonPatternAnalysisandMachineIntelligence等顶尖国际刊物上发表重要论文30篇以上,授权发明专利30项,在国际上产生较大的影响。在优秀人才培养等方面,争取培养一批优秀的博士生,获得全国百篇优秀博士论文、中国计算机学会优秀博士论文奖和国际学术会议优秀论文奖3名以上。参加项目的青年学术骨干中,培养一批优秀的学术带头人,其中教育部长江学者特聘教授、国家杰出青年科学基金获得者或中科院“百人计划”获得者等3人以上。三、研究方案本项目研究符合网络海量可视媒体智能处理的理论与方法,按照从重大需求归纳科学问题和关键技术问题,从知识创新(理论研究)到技术创新(技术突破)的思路,分解六个课题,通过严格的组织管理、课题间密切的交流协作、以及高水平的国际合作,争取获得有重要影响的成果。4.1学术思路本项目研究思路是针对互联网信息高效利用与智能服务、面向三网融合的数字内容产业和泛在网络视觉智能感知等国家重大需求,归纳为可视媒体认知的可计算性、可视媒体高效表达的结构分析与学习机理、多源异构网络可视媒体的归一化表示的三个关键科学问题。总体学术思路为:①按照认知机理、认知计算模型、神经网络计算三个层次,借鉴人类视觉认知机理,面向海量可视媒体信息,探索高层视觉特性与底层可视媒体刻画特征的关联关系,构建基于认知行为的计算模型和基于生物感知与人类认知的神经计算模型,以高效信息处理和减小认知负荷为目标,提供认知计算模型和模拟生物视觉感知信息处理的神经计算工具。②以结构分析为主线,以几何与函数分析方法作为数学工具,从数学理论基础、分析学习方法、交互合成关键技术三个层面开展研究。探索流形结构与学习算法本质的数学描述,提出融合高层结构语义分析的可视媒体机器学习理论与分析方法,研究可视媒体认知原型的可视交互、语义匹配与一致性合成,解决可视媒体符合视觉感知的高效构建问题。③以语义分析为主线,研究可视媒体信息的视觉结构语义分析与动态时空关联分析,实现可视媒体信息的纵向语义分析与挖掘,探索基于多模态信息融合的视觉关联与语义关联之间的转化机制和知识迁移,形成多模态特征级融合模型与归一化语义表示方法,提出多模态融合的网络海量可视媒体关联计算的基础理论、数据组织与挖掘方法,支持海量可视媒体信息的分析整合与有效搜索。5.2技术途径本项目的特色是借鉴认知科学的研究成果,以可视媒体的认知计算模型为基础,以分析学习理论为工具,以交互构建和搜索服务为两条主线,支持国家重大需求。从总的技术思路上,我们将注意以下几个关键环节:①符合认知特性的可视媒体计算理论研究与应用验证平台的研发同步进行。针对关键科学问题的研究,集中力量重点突破。同时,要尽早搭建“有数字内容安全保障的可视媒体高效构建与搜索服务的系统原型”,作为理论研究的应用验证,并用于其他课题研究的验证。②理论研究与实践紧密结合。本项目的特点是,有明确重大需求的驱动,可视媒体的高效处理算法,必须由实践检验其实用性。算法的实践与应用,可以产生新的思路,从实践中提出新的问题,促进理论研究的深入。③强调不同课题的协同研究,注重项目整体创新。本项目六个课题的研究内容各有侧重,可视媒体认知计算模型是基础,机器学习方法和语义分析整合是工具,可视媒体安全是保障,构建与交互、搜索与服务面向国家重大共性需求并提供验证手段,从而在整体上构成研究体系。从具体的单元技术上,将研究内容分为“可视媒体认知计算模型”、“可视媒体结构分析与高效构建”、“可视媒体语义表示与搜索服务”三个方面开展研究和技术创新,既聚焦突破关键科学问题,又直接面向解决国家重大需求。5.3创新点与可行性1.创新点1)可视媒体处理的认知计算模型:采用心理物理法研究物理变化量与感知、记忆、分类判断绩效的关系,面向海量可视媒体信息,探索高层视觉特性与底层可视媒体特征的关联,基于视觉显著特征感知、自适应的动态记忆系统和视觉分类判断机理建立可视媒体计算模型(PMJ模型),提高海量可视媒体智能处理的效率和准确性。2)面向可视媒体的大规模并行神经网络计算:传统的人工神经网络基于少量的神经元模型,与生物视觉感知不符,也不能适应可视媒体智能处理的需求,本项目基于回复式神经网络,建立基于人类神经系统原理的神经计算模型,研究大规模神经网络求解的并行化和集群环境下的数据表达、传输、可扩展性等实际问题,实现机器模拟生物视觉感知信息处理的神经网络计算3)运动目标时空关联分析及多模态异构可视媒体数据挖掘:利用大脑对运动的感知机制,基于连续吸引性的运动感知神经计算模型,将运动特征和视觉显著特征引入到跨视域运动目标时空关联分析,建立运动对象关联分析的模型,并研究多模态特征级融合模型与归一化语义表示方法以及面向多模态特征描述对象的相似性度量方法,有望在异构可视媒体数据挖掘方面取得突破。4)基于结构语义的可视媒体表达与合成:现有的可视媒体分析与合成方法基本采用底层特征或单个对象,缺乏对高层结构语义的应用。本项目研究基于统计思想的流形学习与分类,以及内隐特征与结构的流形表达,实现可视媒体海量信息结构提取与存储,结合视觉原型的可视交互与语义提取,实现互联网上可视媒体基于结构语义的表达与合成。2.研究体系特色本项目以可视媒体为研究对象,借鉴人类视知觉感知机理和神经元工作机理,以可视媒体认知计算模型、可视媒体结构分析理论与机器学习方法、网络可视媒体交互与合成为主线建立可视媒体内容的构建和呈现研究体系;以可视媒体认知计算模型、网络可视媒体语义分析与挖掘、网络可视媒体有效搜索与服务为主线构造可视媒体智能服务体系,并通过可视媒体的内容认证、真伪鉴别等的研究为可视媒体提供内容安全保障,形成满足数字内容产业和海量可视媒体搜索及服务等国家重大需求的完整的研究体系。3.可行性分析本项目以计算机科学理论为基础,借鉴人脑的组织结构、计算方法及视觉认知等方面的重要研究成果,开展网络海量可视媒体的智能处理理论与方法的研究,研究目标是基于研究队伍对可视媒体智能信息处理和网络技术的长期研究积累和对信息网络战略性新兴产业国家重大需求的高度凝练,按照从重大需求归纳科学问题和关键技术问题、从知识创新(理论研究)到技术创新(技术突破)的思路,分解成六个紧密协作的课题,技术方案各部分已经经过充分预研和技术储备,具有较好的研究成果积累。5.4课题设置课题设置的原则是:理论研究要有新的学术思想、为重大应用需求提供理论基础,应用平台要实现对理论和关键技术的验证。本项目研究网络海量可视媒体智能处理的理论和方法。依据以上原则,本项目包括可视媒体的认知计算模型、可视媒体的结构分析与机器学习、网络可视媒体的语义分析与信息整合、网络可视媒体安全、网络可视媒体信息的交互与合成、网络可视媒体的有效搜索与服务六个课题。课题间的关系如下图所示:如图所示,项目中六个课题的相互关系总体上可以用三个层次、两条主线、一个保障来概括。从横向看,可以分为三个层次:第一课题“可视媒体的认知计算模型”作为底层基础向中间层的第二课题、第三课题及上层的第四、五、六课题提供认知方面的理论和方法;中间层的第二课题“可视媒体的结构分析与机器学习”和第三课题项目“网络可视媒体的语义分析与信息整合”为上层的第五课题和第六课题提供可视媒体的表达、分析与学习方法;上层的第五、六课题则在此基础上实现“网络可视媒体信息的交互与合成”和“网络可视媒体的有效搜索与服务”。从纵向看,可以分为两条主线:课题一“可视媒体的认知计算模型”课题二“可视媒体的结构分析与机器学习”课题五“网络可视媒体的交互与合成”的主线主要为了满足媒体内容生成的重大需求;而课题一“可视媒体的认知计算模型”课题三“网络可视媒体的语义分析与信息整合”课题六“网络可视媒体的有效搜索与服务”的主线则主要为了满足网络智能服务;第四课题“网络可视媒体内容安全”则为各课题提供认证取证、真伪鉴别等可视媒体内容安全的保障。各课题的名称、主要研究内容和目标、承担单位、课题负责人及经比例如下:1.可视媒体的认知计算模型负责人:傅小兰承担单位:中国科学院心理研究所、清华大学、四川大学主要研究内容:①视知觉认知机理a.视觉显著特征的感知机理b.自适应的动态记忆系统c.视觉分类判断机制②视觉计算模型a.认知的可计算性b.认知可计算模型c.视觉认知负荷的数学模型③神经网络计算a.学习记忆的神经计算模型b.面向可视媒体的大规模神经网络计算研究目标:提出实现生物感知和人类认知可计算性的认知计算模型,实现机器模拟生物视觉感知信息处理的神经计算工具,为海量可视媒体的表示、分析和智能处理提供符合认知机理的计算模型。经费预算:14%2.可视媒体的结构分析与机器学习负责人:查红彬承担单位:北京大学、清华大学、东南大学主要研究内容:①可视媒体结构分析计算的基础理论与方法a.可视媒体信息与结构重建的几何计算b.可视媒体几何结构分析的基础理论②高维可视媒体数据的本征表达a.内隐特征与结构的流形表达b.基于核映射机制的特征提取和表示③可视媒体分析与处理的机器学习方法a.融合结构语义的海量可视媒体机器学习方法b.基于流形变换的知识迁移与内容映射c.基于大规模并行神经网络的深层学习方法研究目标:提出可视媒体几何结构分析计算方法,解决可视媒体数据非线性近似表达的问题;提出保持可视媒体数据内隐特征与结构的流形表达方法,提出融合可视媒体结构语义的机器学习新方法。经费预算:15%3.网络可视媒体的语义分析与信息整合负责人:刘允才承担单位:上海交通大学、清华大学、北京交通大学主要研究内容:①基于视觉先验的可视媒体结构分析