Skip to content

GCA

Graph Contrastive Learning with Adaptive Augmentation

  1. motivation: 目前大部分图对比学习对输入图进行随机增强,增强的方法大多采用统一的数据增强然后再对比学习,但是很少探索其中图增强手段的设计,因此作者提出一种自适应的增强手段,使得模型可以更好地学习到数据中更重要的信息(贴近data-centric,从数据入手)

  2. 主要增强方法: 在 view 视角下进行删边操作或者特征扰乱遮盖的操作 GCA

    • 联合执行拓扑和节点属性级别的增强得到增强手段,之后对输入图进行图增强得到两个views

    • 两个views被输入到一个共享的GNNs 以得到表征

    • loss

      $$ \ell\left(\boldsymbol{u}{i}, \boldsymbol{v}\right) = \log \frac{e^{\theta\left(\boldsymbol{u}{i}, \boldsymbol{v}\right) / \tau}}{\underbrace{e^{\theta\left(\boldsymbol{u}{i}, \boldsymbol{v}\right) / \tau}}{\text{postive pair} }+\underbrace{ \sum e^{\theta\left(\boldsymbol{u}{i}, v\right) / \tau}}{\text{inter-view negative pairs} }+\underbrace{ \sum e^{\theta\left(\boldsymbol{u}{i}, \boldsymbol{u}\right) / \tau}}_{\text{intra-view negative pairs}}} $$  

    • 总体loss

      \[ \mathfrak{J} = \frac{1}{2N}\sum_{i = 1}^{N}\left[\ell\left(\boldsymbol{u}_{i}, \boldsymbol{v}_{i}\right) + \ell\left(\boldsymbol{v}_{i}, \boldsymbol{u}_{i}\right)\right] \]
    • 自适应数据增强:删除不重要的边以及不重要的节点属性

      • 拓扑级增强:即删边操作,定义边重要性系数\(p_{uv}\) 来依照该系数按概率选择要删除的边,其中该系数由边的两个节点的中心性来度量,之后取平均;中心性\(s\) 可采用**度中心性,特征向量中心性以及PageRank中心性**来度量

        \[ p_{u v}^{e}=\min \left(\frac{s_{\max }^{e}-s_{u v}^{e}}{s_{\max }^{e}-\mu_{s}^{e}} \cdot p_{e}, p_{\tau}\right) \]

        其中 \(p_e\)  是一个控制边去除的总体概率的超参数;\(p_{\tau}\) 用于截断概率,因为极高的去除概率将导致过度损坏的图结构

      • 节点属性级别增强:即在节点特征中依概率向节点属性添加噪声;同样的,计算每个节点的中心性表示节点的重要性,然后作者认为特征的每个维度与节点中心性有关,也就是一个特征维度在较重要的节点中,那么该特征维度也是重要的 \(w_i^{f} = \sum_{u\in\mathcal{V}}|x_{ui}|\cdot\varphi_c(u)\)  因此最终mask的概率

      \[ p_{i}^{e}=\min \left(\frac{s_{\max }^{f}-s_{i}^{f}}{s_{\max }^{f}-\mu_{s}^{f}} \cdot p_{f}, p_{\tau}\right) \]
  3. 方法评价: 作者从数据增强的角度,不同于以往的图对比学习方法,从数据角度入手,自适应的调整图数据增强手段,使得模型能够更好地学习到图的拓扑信息和底层语义信息,符合 data-centric 的理念且在同类型的对比学习模型中表现优秀,不过自适应的数据增强方法可能会增加计算复杂度,特别是在大规模图数据上。计算节点中心性和根据中心性调整数据增强策略可能需要更多的计算资源