基于激活力的复杂网络分析郭军北京邮电大学内容复杂网络研究背景我们所研究的问题:网络构建及节点相似度判定提出的方法:基于激活力的加权连接和亲近度测度实验1:词网建模实验2:PPI网络建模讨论:脑的学习机制、特征表达、功能相似蛋白质的判定复杂网络对现实世界各类复杂关系建模的有力工具现实世界中的复杂关系:词间联系、蛋白质相互作用社会关系网络、互联网节点关系、科学引用与合作关系网络模型:用节点和连接表示实体之间的联系复杂网络(Complexnetworks)大规模:大量的节点和连接节点的连接通常符合power-law分布小世界模型、尺度不变性:存在hubnodes和edgenodes问题如何根据源数据建立复杂网络模型源数据:蕴含词关系的文本集、标注蛋白质相互作用关系的数据库、蕴含用户关系的微博数据集…现有方法二值模型:节点间的连接无权重缺点节点的关系被均匀分散在所拥有的连接上节点的特征不突出易形成连接稠密的(link-dense)网络模型现有的网络加权方法Independentpaths,betweennesscentrality基于二值网络而不是源数据进行计算算法极其耗时激活力(ActivationForces)如何对连接加权,以获得连接稀疏、节点特征突出的网络模型?Activationforces:一类新统计量afij=(fij/fi)(fij/fj)/dij2fi:节点i在数据集中的出现的频度fij:节点i和节点j在数据集中的共同出现的频度(fij/fi):节点i出现条件下节点j与其共现的概率估计(fij/fj):节点j出现条件下节点i与其共现的概率估计dij节点i和节点j共现时的距离与万有引力公式具有同样形式物理意义:度量广义神经网络节点i被激活后,节点i激活节点j的程度实验表明:Activationforces使节点的特征得到突出各节点的连接强度符合power-law分布通过删除大量的弱连接,网络的连接被稀疏化基于激活力的亲近度(Affinity)如何度量加权网络节点间的相似度?通过比较两节点所拥有连接的重合度来计算不同于常规的在向量空间度量的方法Aaf被定义为两节点入连接(in-link)和出连接(out-link)重合度的几何平均1/211A[(,)(,)]||||ijijafijkikjiljlklijijORafafORafafKLKL{|00}ijkikjkaforafK{|00}ijiljllaforafL(,)(,)/(,)ORxyminxymaxxy亲和度计算方法示意图文本语境(context)建模文本语境:任意一个文本集合句子、段落、文章、文本集现有的模型VSM(VectorSpaceModel)orBoW(BagofWord)特点文本的向量表示低计算复杂度缺少结构信息词激活效应在人的头脑中存在词网,激活一个词会引发对其相关词(有连接的词)的激活DoctornurseDogcatBoygirlDrinkwater词激活效应在不同的领域中都得到了大量研究计算语言学(computationallinguistics)认知心理学(cognitivepsychologies)认知神经科学(cognitiveneuralsciences)…词激活力(WordActivationForces)应用我们提出的激活力公式对词激活效应进行定量描述,获得词激活力网络模型词激活力wordactivationforces,简称wafs将wafs作为个人语言经验的训练结果利用大的公共文本集来近似一个普通人的语言经验词激活力可通过文本集中的词频和词共现频率等统计量算出所有词间的双向激活力构成一个有向的词网络基于wafs对BNC建模BNC英国国家文本集(TheBritishNationalCorpus)包含1亿字的有标注的多样性的英文文本基于词激活力对BNC建模取频度最高的10,000个词构成词汇表,计算词汇表中任意两词间的激活力W={wafij}i,j=1,2,…,10,000W是包含10,000个节点的有向图矩阵的第i行和第i列分别是词i的出连接(out-link)和入连接(in-link)W的性质节点的入连接和出连接强度的分布符合powerlaw每个词都高度选择性地分配其连接的强度强连接总是指向关系最密切的词可以删除弱连接来大幅简化网络结构,等效于对W进行稀疏表示W中的节点举例由Aaf找出的关联词大量的词都与其最密切的关联词之间保持最高的亲近度a~theability~capacityabove~belowabroad~elsewhereabsence~presenceabundance~diversityabuse~violenceacademic~scientific…基于Aaf的词聚类基于Aaf的词层次关系与人工自由联想结果的比较TargetsNeighborsofournetworkAssociatesoffreeassociationbreadmeatcheesetoastbutterdoughloafbuttercreamcheeseflourbreadmargarinemilkmilkmeatcreamwinecowdrinkhoneydrinkdrinkingcoffeesleepwaterbeerthirstbeerwinewhiskychampagnedrinkwinedrunkwinecoffeebeerchampagnebeerdrinkdinedrunkasleepaloneguiltyalcoholbeerdrivedrivedrivingwalkpushcarfastwaywalkwalkingmoverunruntalkstrollrunrunningplaymovewalkjogfastsleeptalkdrinkbeddreamrestawaketalkspeaktalkingleavespeaklistenchatterleavestaytalkstopcomegoarrivelivelivedstayplaydielifedeadplayplayingplayedmovefunballgamemoveturnmovedtalkleaveawaystayballshotmatchstraightbatroundthrowthrowpullpickpushballcatchtosscatchpickthrowpullfishthrowballfishanimalsbirdsspecieswaterswimseawaterfoodlightairdrinkcoolwetfoodmaterialwaterlandeatdrinkhungereattalkpicklosefooddrinkfatfatsugarbutterdietskinnythincat基于激活力的PPI网络建模选择HumanProteinReferenceDatabase(HPRD)做源数据包含约3万个人类蛋白质间的3万9千个相互作用信息只处理拥有不少于10个相互作用关系的约5千个蛋白质利用激活力公式定义proteinactivationforces,pafs将蛋白质相互作用关系用加权网络编码与词激活力网络不同,蛋白质激活力网络是无向的,即pafij=pafji蛋白质激活力网络的性质连接的强度分布符合powerlaw节点拥有连接数的分布也符合powerlawHubnodesvs.edgenodes采用阈值1.0e-5对网络进行了连接稀疏化获得了一个只包含约3万条连接的稀疏网络节点举例癌症相关蛋白质网络采用所提出的亲近度测度,获得任意两个蛋白质之间的亲近度(功能相似度)基于这些亲近度,可以对蛋白质进行功能聚类令人惊喜的是:通过设置连接数和连接强度阈值的方法,获得了一个癌症相关蛋白质的紧凑网络在140个蛋白质构成的网络中,包含58个已知的癌症蛋白质癌症相关蛋白质网络Tp=4;Ta=0.03Tp=4;Ta=0.04讨论词激活力可能与人脑中的词网络的形成机制有联系,隐含的假设:连接强度决定于词的共现概率,万有引力公式可能被用于连接强度的定量度量连接可以是稀疏的,词网络的结构可以因此而避免复杂节点的连接结构是其特征的有效表达(模式识别的基本问题)由于各节点的连接强度具有power-law的分布性质,使其特征得到突显基于蛋白质激活力的功能相似蛋白质的判定方法对生物学和医学有重要价值谢谢!