目录
导读
本文将分享腾讯在大规模图神经网络应用和最新范式方面的探索。首先总体介绍大规模图神经网络应用中解决大图内存/计算问题的三个范式,接着会介绍基于图采样方法的发展,以及针对大规模GNN的优化,最后对大规模图神经网络应用和探索的未来方向进行展望。
分享嘉宾
荣钰
腾讯 AI Lab
高级研究员
荣钰博士,AI Lab机器学习中心高级研究员。深圳市政府认定海外高层次人才。荣钰博士于2016年于香港中文大学获得系统工程与工程管理博士学位及进行博士后研究。2017年6月加入腾讯AI Lab。主要研究方向是深度图学习算法以及大规模图系统。在相关方向发表高水平学术论文数十篇,包括KDD,WWW,NIPS,ICLR,CVPR,ICCV等数据挖掘和机器学习顶级会议。荣钰博士在图卷积神经网络,大规模深度图学习算法,的研究和应用上取得了一系列创新成果。主要应用领域包括社交推荐,药物研发,物理系统模拟等。
01 解决大图内存/计算问题的三个范式
在两年前做的tutorial里面,我们有介绍过关于大规模神经网络,并且对20年以前的大规模图神经网络的进展有过一些介绍。在那个时候,考虑的是这样三个范式:layer wise,node wise layer wise和graph wise sampling。
现在来看,归根结底是要去减少图数据在内存和计算上的需求。最简单的方法是对图进行采样。回顾一下当年的一些总结,从14年的图神经网络开始走进人们的视野,到17年GCN的爆火,其实一直以来,对于大规模图神经网络的研究都是一个非常连续的过程。大家都是在朝着如何构造更好的采样和如何减少采样造成的偏差两个方向思考问题,也涌现出了非常多的优秀工作。
我们真的解决了大规模GNN的问题吗?我的答案是解决了,但没有真正解决。首先,确实解决了在实际工业中的应用,尤其是基于子图采样的方法,永远都可以采样出一个子图,Apply一个很复杂的模型,最后得到一个合适的预测。这个在腾讯的一些业务场景,比如推荐,已经有了很好的实践。
但是这个问题并没有真正的解决,因为这个方法其实是回避了核心问题,不能真正在大图做GNN更新。在真正做实践的时候会发现,由于各个地方的系统可能不一样,数据存储格式不一样,图采样的效率本身会依赖于系统实现。而图采样的时间消耗,很可能比训练的消耗更大。另外,这种采样会带来精度下降和信息缺失的风险。尤其是在制药和生物的一些场景里面,是不能随便的对比进行采样的。
那么近两年大规模图神经网络的进展到底怎样呢?可以总结为一句话,“我不想去做采样,但是要把大规模的GNN给做了”。
02 针对大规模GNN的优化
文章评论