多源异构大数据的机器学习关键技术研究进展徐增林zenglin@gmail.com电子科技大学大数据研究中心计算机科学与工程学院统计机器智能与学习实验室统计机器智能与学习实验室(Statistical Machine Intelligence & LEarning, SMILE)•网址:研究目标:•复杂多源异构数据处理技术:分类、聚类、半监督学习、多核学习、特征选择、多任务学习、多视角学习、集成学习、网络分析、张量分析•统计机器学习理论研究: 近似算法、随机投影算法、稀疏学习等的理论•贝叶斯图模型研究:高斯过程、主题模型、隐变量模型•机器学习的优化与推断研究:最优化算法、VariationalInference、先进采样算法、混合算法•机器学习大数据平台研究:在线学习、分布式学习•机器学习在社会网络、神经信息学、健康、安全等领域的应用大数据挖掘与推理研究所大数据挖掘与推理研究所(InstituteofBigDataMiningandReasoning)@电子科大大数据研究中心研究目标:•异构多源大数据处理与建模•实时数据处理、多源数据处理、时间空间数据分析、复杂网络数据分析、金融大数据建模、媒体大数据建模、医学大数据建模、移动大数据建模•大数据智能计算与分析技术•分布式大数据查询技术、先进机器学习与数据挖掘理论研究、并行化机器学习和数据挖掘算法研究、随机化算法与在线学习、社会网络分析、Web挖掘与检索、商业智能、排名与推荐算法、深度学习算法、大数据降维技术•大数据分布式计算模型与系统•大数据分析平台Hadoop/Spark性能优化与功能增强、大数据机器学习平台研究、面向行业应用(如医疗、教育、安全、移动数据)的大数据分析与学习平台设计等•大数据知识表示与推理技术研究•大型本体知识库构建方法和本体映射等知识深层理解的关键处理算法、知识的深层表示、大型知识库上逻辑推理机制和机器学习大数据挖掘与推理研究所电子科大大数据研究中心大数据挖掘与推理研究所(InstituteofBigDataMiningandReasoning)主要人员:•周涛(大数据中心主任、优青、拔尖、教授)•申洪涛(大媒体计算中心主任,千人计划入选者)•徐增林(青年千人计划入选者,教授)•符红光(863子课题负责人)•邵俊明(校百人、教授)•邵杰(校百人、教授)•杨阳(校百人、教授)•尚明生(教授)加入我们研究助理/博士生/硕士生特聘教授/特聘副教授/骨干教师/在职和脱产博士后中组部“青年千人计划”入选者徐增林教授团队,因科研和教学工作需要,面向海内外诚聘优秀青年学者加盟。团队的研究着重于机器学习、统计学习、数据挖掘技术及其在社会网络分析、医学图像处理、空间安全数据分析、神经信息学等方面的应用。详情:,人力资源部在研项目:1.运维大数据平台设计与实现2.医疗大数据分析平台设计与实现3.基于异构计算的大数据平台设计与实现报告提纲大数据的发展大数据分析面临的挑战大数据机器学习算法与平台大数据发展历史大数据在计算机科学中处于最前沿大数据改变未来战争大数据摧毁暴力恐怖大数据维护公共安全•美国大数据研究和发展计划、欧盟Horizon2020计划都把大数据提到了国家安全战略层面•数字主权是继海、陆、空、天四空间之后另一个大国博弈的空间•基于海量数据分析决策的“近传感器计算”将成为未来战争的典型形态•阿富汗反恐战争中针对每股恐怖分子的全方位情报侦监系统每天产生数据量平均达到53T•美国国家安全局局长亚历山大在众议院特设情报委员会听证会时指出,通过“棱镜”等监视项目所获得的情报数据及相应分析,美国政府至少防止和挫败了50起恐怖袭击事件•通过大数据采集分析,监测异常行为,发现和制止不法行为•通过大数据分析,提高犯罪行为实施前的预防能力和实施后的出警效率•通过大数据分析,提高刑侦队伍的破案率大数据维护安全•个人基因测序数据可以对已患疾病进行针对性治疗,对可能疾患进行提前预防•非干预穿戴设备通过实时采集脉搏、血压、体表导电率、压力等等指标对预警突发疾病、实时监控个体健康情况,为残疾人、老年人、婴幼儿和特定疾病患者提供实时的个性化服务•通过对诊疗过程数据的分析,可以为初级医院疑难病例的治疗提供智能决策辅助、发现患者骗保行为、监测医院、诊室甚至个别医生不正常的过度医疗和用药行为•加拿大StudentSuccessSystems基于学生个体数据分析给出发展状况评估、学业成长预测和个性化引导方案•美国DreamboxLearning和MyLab根据不同学生在线学习的情况,设计个性化自适应的学习方案•大数据最终帮助形成在定量化基础上的教学引导和教学管理大数据辅助健康管理大数据实现个性教育大数据改善民生报告提纲大数据的发展大数据分析面临的挑战大数据机器学习平台数据量大且复杂,而分类数据太少,如何充分利用对未分类数据的质量分析来提高分类算法性能?多源异构数据语义丰富,如何构建融合多源数据的泛化模型?或发现多源数据间的关联关系?复杂数据对象存在多个方面,如何通过数据分析来刻画多个方面之间的相互关系?12312挑战挑战一:未分类数据多样性大量未分类数据已分类数据未分类数据具有无序性,分布多样性等特点--相同分布或弱相关、结构相似、有杂质、高位等。不相关有偏差大象犀牛•提高数据分类的准确率•节省专家对数据标记的成本研究意义研究意义•未分类数据的复杂性和多样性•数据的高维度难点所在难点所在•利用图的性质(GraphLaplacian)对图进行分割:GraphCut=1GraphCut=2GraphCut=1半监督学习示例:基于图的算法•S3VM的原理是在照顾已分类数据的情况下,保证相对于未分类数据的决策面边界最大,且决策面应尽量穿过低密度区域。半监督学习示例:半监督支持向量机未分类数据分布多样性建模相同分布Semi-supervisedLearningXuZ.,etal(2007),Efficientconvexrelaxationfortransductivesupportvectormachine.NIPS分布有差异Covariance-shifting存在弱相关关系AdaptiveRegularizationXuZ.,etal(2009),Adaptiveregularizationfortransductivesupportvectormachine.NIPS.结构上存在相似关系Self-taughtLearningHuangK.,XuZ.,etal.(2009),Supervisedself-taughtlearning:Activelytransferringknowledgefromunlabeleddata,IJCNN.好的数据与不相关数据的混合Generalizedsemi-supervisedlearningHuangK.,XuZ.,etal(2008),Semi-supervisedlearningfromgeneralunlabeleddata.ICDM.Lable不足,无unlabeleddataActiveSemi-supervisedLearningXuZ.,etal(2008).Semi-supervisedtextcategorizationbyactivesearch.CIKM.维度太高Semi-supervisedfeatureselectionXuZ.,etal(2010),Discriminativesemi-supervisedfeatureselectionviamanifoldregularization.IEEETNNLS.挑战二: 多源异构数据建模难点所在难点所在研究意义研究意义•多数据源的组合方式的多样性•数据源的异构性和不确定性•结合多个数据源的互补信息来提高数据分类的准确率•发现数据源之间的关联关系数据源对分类的贡献是不同的,如何学习各自的权重来辅助诊断?17病人的信息来自于多个数据源数据源之间存在依赖关系,是否基因信息的异常可以解释大脑区域的异常?医疗诊断多核学习算法--学习数据源(子空间)之间的权重多视角学习样例:多核学习Sun et al (2010), ACTA AUTOMATICA SINICA方案:提出了一种基于LevelSet的快速多核学习算法,其利用历史梯度,并将当前解投影到LevelSet当中来进行正则化。方案:提出了一种基于LevelSet的快速多核学习算法,其利用历史梯度,并将当前解投影到LevelSet当中来进行正则化。问题:优化过程中,传统方法或者没有对过去的梯度进行正则化,或者没有使用历史梯度。多核学习算法优化Ours优化速度快7-10倍代表性工作:多核学习优化算法Z.Xu, R. Jin., et al (2009), NIPSXu Z., et al (2010), ICMLYang H., Xu Z., et al (2011),IEEE TNNLS稀疏泛化多核学习使用GroupLasso和多核学习之间的等价关系Genetic variations (discrete)提出一个异构多视角学习算法。该算法基于隐变量模型,对数据源之间的共性和差异性进行建模。Intermediate phenotypes (continuous)ZheS., Xu Z., et al (2014), PSB应用:Alzheimer疾病的关联分析ZheS., Xu Z., et al (2015), AAAI图模型诊断信息基因信息磁共振图像应用:Alzheimer疾病公共隐变量稀疏投影矩阵稀疏投影矩阵•大脑区域与基因的相关关系ADNI 数据库应用:Alzheimer疾病挑战三: 多元关系建模难点所在难点所在研究意义研究意义•多方面交互机制的不确定性•数据的异构性和复杂性•现实世界存在大量多元关系•张量分析抽象描述数据多个方面之间的交互机制23(参与者,问题,答案选项)形成的张量张量因子分析完整的张量方案:提出了一种基于高斯过程隐变量模型的张量分解算法,能处理不同数据类型及缺失值。方案:提出了一种基于高斯过程隐变量模型的张量分解算法,能处理不同数据类型及缺失值。代表性工作:非线性张量分解问题:传统方法多为线性分解算法,且不能处理非连续数据张量分解算法Z Xu., et al (2012), ICML,Chen S.., Xu Z., et al (2013),NIPS元素定义在张量上的稀疏隐高斯过程PatientsMedicines药品组的隐权重向量病人组的隐权重向量生物特征组的隐权重向量代表性工作:非线性张量分解协方差矩阵表示相似度PatientsMedicines药品i和r之间的非线性关系-每一维采用单独的协方差/核函数-隐向量越相似,协方差越大代表性工作:非线性张量分解张量上的高斯过程•无限张量空间中的随机过程•任意确定大小的张量的分布都是基于张量的高斯分布Tensor代表性工作:非线性张量分解图模型表示观察数据隐张量稀疏因子:高斯连续数据Probit二进制/有序数据Possion数量同样对和采样未知数据代表性工作:非线性张量分解NIPSauthorsCo-authorship数据库:co-authorship链接统计于NIPS1-17中100位合作最多的作者.2D应用: Coauthor 网络•安然数集:–2001年破产前安然公司高级管理层的往来邮件.•3D 张量表达:–发送方‐接收方‐邮件主题OursAreaUnderCurve3D应用: 安然(Enron) 邮件报告提纲大数据的发展分析大数据面临的挑战大数据机器学习平台机器学习机器学习统计学大数据机器学习平台核心技术研究SingleMachine:GraphChi,TurboGraphMap-ReduceGra