复杂网络中关键节点查找和链路预测应用研究随着网络科学的不断发展和信息数据的不断扩充,网络规模日益增大,大规模网络数据的研究也逐渐成为研究热潮。鉴于表示学习算法对大规模网络研究的优势,关键节点分类以及链路预测等基于网络知识的传统研究内容开始结合知识表示学习算法进行探索研究,并取得显著成果。本文结合网络科学知识和表示学习算法提出关键蛋白质分类和基于Probase知识库的链路预测两种算法框架。首先,本文提出了一种结合生物信息知识的关键蛋白质分类的方法。在关键节点搜索的相关研究中,很多实验已经证明结合多源信息的方法比仅考虑单一知识的方法更加有效。而现有的搜索方法并没有充分的考虑网络本身蕴含的知识,使得很多关键信息被丢失。本文提出的关键蛋白质分类方法则是结合STRING数据库中体现的PPI网络中蛋白质节点的生物信息,同时结合表示学习算法提取网络中蛋白质节点的拓扑结构特征和生物信息特征,实现关键蛋白质节点的分类。通过实验对比分析,本文提出的关键蛋白质分类算法的准确率、召回率及Fsub1/sub值均高于其对比实验,这表明表示学习算法在网络关键节点识别任务中具有一定的优势。其次,本文提出了基于Probase知识库的链路预测方法。链路预测即通过分析网络结构以及节点属性,探索网络中相似的节点,进一步预测与已知节点具有潜在连边的节点。本文提出的链路预测方法主要结合网络嵌入的表示学习算法将网络进行向量化表示,并基于相似度的计算方法确定节点之间的相似程度,实现网络的链路预测。通过统计预测结果的top-k命中率、计算预测节点与给定节点的相似性和统计最短路径长度来验证算法的有效性和稳定性,从而证明表示学习算法对链路预测任务有很好的提升作用。综上,本文利用多源信息并结合表示学习算法可以有效的提升网络中关键蛋白质节点分类的准确率。同时利用表示学习算法将网络进行向量化表示,借助相似度计算方法来计算节点的相似性,完成链路预测,可以提高预测的命中率,保证预测的稳定性。