Skip to content

NASA

Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations

  1. motivation: 目前有一些图数据增强的方法的提出来提升 GNN 的准确性和泛化性,但是缺乏对图数据增强手段质量的评估,作者认为有一致性(consistency)和多样性(diversity)两个指标,但是通常这两个指标是相互矛盾的,为了解决这一矛盾,作者采用标签传播和一致性正则化的方法设计了 NASA

  2. 主要增强方法:采用伪标签技术进行邻域约束正则化,然后进行锐化

    • augmentation(edge perturbation):将部分一阶邻居随机替换为二阶邻居;具体方法如下:对于节点 \(v_i\) 随机采样(Bernoulli)它的邻居 \(v_j\) ,然后将 \(v_i, v_j\) 之间的边删掉,让 \(v_i\)\(v_j\) 的随机一个邻居节点\(v_k\) 相连,其他边都保持不变

    • regularization:对于有标签节点,如同之前的研究一样定义交叉熵损失函数来监督 GNNs 的预测结果对于没有标签的节点,作者采用伪标签(pseudo label)技术,来实现邻域约束正则化,以加强邻域预测的一致性;具体做法是使用邻居的预测作为当前中心节点

      \[ \tilde{y_i} = \frac{1}{\tilde{N}_i}\sum_{j\in\tilde{N}_i}\tilde{h}_j \]

      然后采用锐化的技巧 ( \(C\) 是最终输出特征层的维数)

      \[ \tilde{p}_{ij} = \tilde{y}^{1/T}_{ij} / \sum_{c=0}^{C-1}\tilde{y}^{1/T}_{ic} \]
    • loss:  

    • 带标签节点 label node:

      \[ \mathcal{L}_{CE} =-\frac{1}{N_{L}} \sum_{i \in V_{L}} \mathbf{y}_{i} \log \widetilde{\mathbf{h}}_{i} \]
    • 无标签节点 unlabel node

      \[ \mathcal{L}_{C R}=\frac{1}{N} \sum_{i \in V} \sum_{j \in \widetilde{\mathcal{N}}_{i}} \text{KL}\left(\widetilde{\mathbf{p}}_{i} \| \widetilde{\mathbf{h}}_{j}\right) \]
  3. 方法评价:作者提出了一致性(\(\mathcal{C}\))和多样性(\(\mathcal{D}\))两个重要指标来评判数据增强的好坏,其中 \(\tilde{\mathcal{F}}\) 是通过增强后的数据的模型

    \[ \begin{align} \mathcal{C} &= \text{Acc}(\tilde{\mathcal{F}}_{\theta}(D_{\text{val} }) , Y_{\text{val} }) \\ \mathcal{D} &= \parallel\tilde{\mathcal{F}}_{\theta}(D_{\text{val} }) - \mathcal{F}_{\theta}(D_{\text{val} }) \parallel_F^2 \end{align} \]