由于图结构的普适性,诸如生物医学、分子制药、天体物理等越来越多的高精尖领域已经将图学习视为智能化、规模化、高效率、低成本创新的关键技术。尤其在生物医药领域,图学习已在分子性质预测、蛋白质结构预测、药物靶点亲和力预测等方面发挥了巨大价值,受到了学术界及工业界的广泛关注。
近日,国际顶级图学习标准OGB(Open Graph Benchmark)挑战赛公布了最新排名。在与微软亚研、Twitter、腾讯、百度、字节跳动、帝国理工、北京大学、上海交大等众多科技巨头及顶尖高校的竞技中,第四范式、清华大学电子系机器学习课题组联合团队使用基于AutoML打造的AutoGraph(自动化图神经网络)算法在3项任务中斩获2项第一、1项第三,继去年摘得OGB双料第一后再创佳绩。
OGB是目前公认的图学习基准数据集“标杆”,由图学习领域的国际顶级学者斯坦福大学Jure Leskovec教授团队建立,于2019年国际顶级学术会议NeurIPS上正式开源。该数据集囊括了节点性质预测、边性质链接预测、图性质预测等多项赛题,以质量高、规模大、场景复杂、难度高著称,素有图学习领域“ImageNet”之称,成为众多科技巨头、科研院所和高校团队试验技术成色的试金石。
继去年摘得2项知识图谱链接预测冠军后,第四范式今年参与了ogbg-molhiv、ogbg-molpcba、ogbg-ppa等3项数据量庞大且极具挑战的图分类任务。其中,ogbg-molhiv、ogbg-molpcba是用于测试分子特性的知名机器学习数据库MoleculeNet中最大的数据集之一,对多种疾病的有效药物筛选和开发具有重要意义和参考价值。
本次大赛中,联合团队使用了基于第四范式AutoML打造的PAS(面向图分类任务的自动池化图神经网络搜索算法)参赛。由于图数据和任务的复杂性,不同任务需要使用最为合适的图神经网络模型才能达到最佳效果。PAS算法的优势是可在任意图分类任务上自动搜索效果最优的图神经网络,最终在比赛中超过了业界一系列基于图神经网络的图分类模型,进一步印证了该技术的领先性及有效性。