BGRL¶
LARGE-SCALE REPRESENTATION LEARNING ON GRAPHS VIA BOOTSTRAPPING
-
Motivation: 传统的图表示学习方法通常需要大量的负样例和复杂的数据增强来达到好的性能,从而难以应对处理大规模图数据。因此,作者提出 BGRL ,通过预测输入的替代增强方式,且无需与负样例对比,来学习图的表示,降低复杂性,实现可扩展性。
-
主要增强方法:随机节点特征遮掩和边遮掩
-
建模过程:
-
首先用两种图增强手段(作者采用了随机节点特征遮掩和边遮掩)对同一张图进行增强
-
之后采用online-encoder和target encoder分别对两个增强图进行编码
-
对于第一个online encoder后的结果加一个预测器进行预测得到结果,最后通过对比预测和真实表征从而更新参数
-
-
核心公式
-
对online encoder参数的更新:通过计算余弦相似度,降低预测的表征和真实表征的差距
-
对target encoder参数的更新,\(\tau\) 是衰减系数,平滑地更新参数\(\phi\) ,使其逐渐接近online encoder的参数\(\theta\) 的值
-
-
-
实验
-
中等规模的图上的半监督学习的节点分类任务,验证了当可扩展性不是性能瓶颈的时候,相比于GRACE等其他对比模型,BGRL 的模型表现更好
-
作者对比了GCA,共同采用了标准增强方法、度中心性增强方法、pagerank增强、特征向量增强四种方法,验证了BGRL 即使采用简单的增强方法也可以达到很好的性能,而其他模型需要采用比较复杂的增强手段才能达到最好的性能
-
作者在PPI任务上进行比较,验证了BGRL在大型图上表现更好;另外分析学习到的注意力权重的熵来研究通过BGRL和GRACE训练的GAT模型的内部结构。观察到使用GRACE训练的GAT模型,特别是在对负样本进行少量子采样时,注意力熵非常低,性能较差。而BGRL 能够训练模型产生有意义的注意力权重
-
为了进一步验证BGRL 的可扩展性,评估了BGRL 在超大数据环境下的性能,作者进行了MAG240M的节点分类任务;由于图数据过大,不能进行全图训练,因此验证了BGRL 在采样子图下训练的表现也很好
-