Skip to content

NASA

Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations

  1. motivation: 目前有一些图数据增强的方法的提出来提升 GNN 的准确性和泛化性,但是缺乏对图数据增强手段质量的评估,作者认为有一致性(consistency)和多样性(diversity)两个指标,但是通常这两个指标是相互矛盾的,为了解决这一矛盾,作者采用标签传播和一致性正则化的方法设计了 NASA

  2. 主要增强方法:采用伪标签技术进行邻域约束正则化,然后进行锐化

    • augmentation(edge perturbation):将部分一阶邻居随机替换为二阶邻居;具体方法如下:对于节点 viv_i 随机采样(Bernoulli)它的邻居 vjv_j ,然后将 vi,vjv_i, v_j 之间的边删掉,让 viv_ivjv_j 的随机一个邻居节点vkv_k 相连,其他边都保持不变

    • regularization:对于有标签节点,如同之前的研究一样定义交叉熵损失函数来监督 GNNs 的预测结果对于没有标签的节点,作者采用伪标签(pseudo label)技术,来实现邻域约束正则化,以加强邻域预测的一致性;具体做法是使用邻居的预测作为当前中心节点

      yi~=1N~ijN~ih~j \tilde{y_i} = \frac{1}{\tilde{N}_i}\sum_{j\in\tilde{N}_i}\tilde{h}_j

      然后采用锐化的技巧 ( CC 是最终输出特征层的维数)

      p~ij=y~ij1/T/c=0C1y~ic1/T \tilde{p}_{ij} = \tilde{y}^{1/T}_{ij} / \sum_{c=0}^{C-1}\tilde{y}^{1/T}_{ic}
    • loss:  

    • 带标签节点 label node:

      LCE=1NLiVLyilogh~i \mathcal{L}_{CE} =-\frac{1}{N_{L}} \sum_{i \in V_{L}} \mathbf{y}_{i} \log \widetilde{\mathbf{h}}_{i}
    • 无标签节点 unlabel node

      LCR=1NiVjN~iKL(p~ih~j) \mathcal{L}_{C R}=\frac{1}{N} \sum_{i \in V} \sum_{j \in \widetilde{\mathcal{N}}_{i}} \text{KL}\left(\widetilde{\mathbf{p}}_{i} \| \widetilde{\mathbf{h}}_{j}\right)
  3. 方法评价:作者提出了一致性(C\mathcal{C})和多样性(D\mathcal{D})两个重要指标来评判数据增强的好坏,其中 F~\tilde{\mathcal{F}} 是通过增强后的数据的模型

    C=Acc(F~θ(Dval),Yval)D=F~θ(Dval)Fθ(Dval)F2 \begin{align} \mathcal{C} &= \text{Acc}(\tilde{\mathcal{F}}_{\theta}(D_{\text{val} }) , Y_{\text{val} }) \\ \mathcal{D} &= \parallel\tilde{\mathcal{F}}_{\theta}(D_{\text{val} }) - \mathcal{F}_{\theta}(D_{\text{val} }) \parallel_F^2 \end{align}