Skip to content

SUGRL

Simple Unsupervised Graph Representation Learning (aaai.org)

  1. motivation: 现有图对比学习的方法需要进行数据增强得到view进行encoder的对比输入,然后利用互信息最大化进行对比学习,这样导致计算量大而效率低,且在大图数据集上的可扩展性较差,为了解决这两个问题,作者提出了SUGRL,简化了对比增广的计算过程,省略了图增广和相似度判别的步骤,并利用提出的multiplet loss,增大类间差异,减小类内差异,以实现简单高效的图对比学习

  2. 主要增强方法: 语义信息嵌入后的特征洗牌 SUGRL

    • 语义信息embedding:将图数据的节点特征输入到一个MLP中得到anchor embedding,然后做一个row shuffling(这一步本质上可以看作数据增强手段的**feature shuffling**)来产生负样本 \(H^-\);另一方面,对anchor embedding做一个邻居采样(graph sampling,会先存储邻居节点的索引之后平均采样)得到具有邻居信息的正样本 \(\tilde{H}^+\)

    • 结构信息embedding:将图结构和特征都输入到一个GCN就得到一个正样本 \(H^+\)

    • loss:作者采用了多重损失,上面两者衡量类间的距离,尽量将正负样本拉开;第三个 \(\mathcal{L}_U\) 衡量类内的距离,对负样本以及正样本的距离进行约束,使得这个距离不会无限大,减小类内差异。其中,\(\beta\) 可以理解为一个上界

      \[ \begin{aligned} \mathcal{L}_{S} & =\frac{1}{k} \sum_{i=1}^{k}\max\left(\left\{d\left(\mathbf{h}, \mathbf{h}^{+}\right)^{2}-d\left(\mathbf{h}, \mathbf{h}_{i}^{-}\right)^{2}+\alpha\right\},0\right) \\ \mathcal{L}_{N} & =\frac{1}{k} \sum_{j=1}^{k}\max\left(\left\{d\left(\mathbf{h}, \widetilde{\mathbf{h}}^{+}\right)^{2}-d\left(\mathbf{h}, \mathbf{h}_{j}^{-}\right)^{2}+\alpha\right\},0\right) \\ \mathcal{L}_{U}&=-\frac{1}{k} \sum_{i=1}^{k}\min\left(\left\{d\left(\mathbf{h}, \mathbf{h}^{+}\right)^{2}-d\left(\mathbf{h}, \mathbf{h}_{i}^{-}\right)^{2}+\alpha+\beta\right\},0\right) \end{aligned} \]

      最终

      \[ \mathcal{L} = \omega_1\mathcal{L}_S + \omega_2 + \mathcal{L}_N + \mathcal{L}_U \]
  3. 方法评价: 作者打破了固有的图对比学习框架,去除了数据增强生成view和复杂的encode,提高了计算效率;同时简单的shuffling和sampling的生成方法也达到了很好的效果,实现了可扩展性。