NASA¶

Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations

motivation: 目前有一些图数据增强的方法的提出来提升 GNN 的准确性和泛化性，但是缺乏对图数据增强手段质量的评估，作者认为有一致性（consistency）和多样性（diversity）两个指标，但是通常这两个指标是相互矛盾的，为了解决这一矛盾，作者采用标签传播和一致性正则化的方法设计了 NASA
主要增强方法：采用伪标签技术进行邻域约束正则化，然后进行锐化
- augmentation（edge perturbation）：将部分一阶邻居随机替换为二阶邻居；具体方法如下：对于节点 \(v_i\) 随机采样（Bernoulli）它的邻居 \(v_j\) ，然后将 \(v_i, v_j\) 之间的边删掉，让 \(v_i\) 和 \(v_j\) 的随机一个邻居节点\(v_k\) 相连，其他边都保持不变
- regularization：对于有标签节点，如同之前的研究一样定义交叉熵损失函数来监督 GNNs 的预测结果对于没有标签的节点，作者采用伪标签（pseudo label）技术，来实现邻域约束正则化，以加强邻域预测的一致性；具体做法是使用邻居的预测作为当前中心节点
  
  \[ \tilde{y_i} = \frac{1}{\tilde{N}_i}\sum_{j\in\tilde{N}_i}\tilde{h}_j \]
  
  然后采用锐化的技巧 ( \(C\) 是最终输出特征层的维数)
  
  \[ \tilde{p}_{ij} = \tilde{y}^{1/T}_{ij} / \sum_{c=0}^{C-1}\tilde{y}^{1/T}_{ic} \]
- loss:
- 带标签节点 label node:
  
  \[ \mathcal{L}_{CE} =-\frac{1}{N_{L}} \sum_{i \in V_{L}} \mathbf{y}_{i} \log \widetilde{\mathbf{h}}_{i} \]
- 无标签节点 unlabel node
  
  \[ \mathcal{L}_{C R}=\frac{1}{N} \sum_{i \in V} \sum_{j \in \widetilde{\mathcal{N}}_{i}} \text{KL}\left(\widetilde{\mathbf{p}}_{i} \| \widetilde{\mathbf{h}}_{j}\right) \]
方法评价：作者提出了一致性（\(\mathcal{C}\)）和多样性（\(\mathcal{D}\)）两个重要指标来评判数据增强的好坏，其中 \(\tilde{\mathcal{F}}\) 是通过增强后的数据的模型

\[ \begin{align} \mathcal{C} &= \text{Acc}(\tilde{\mathcal{F}}_{\theta}(D_{\text{val} }) , Y_{\text{val} }) \\ \mathcal{D} &= \parallel\tilde{\mathcal{F}}_{\theta}(D_{\text{val} }) - \mathcal{F}_{\theta}(D_{\text{val} }) \parallel_F^2 \end{align} \]