NRGNN¶

NRGNN: Learning a Label Noise-Resistant Graph Neural Network on Sparsely and Noisily Labeled Graphs

motivation: 现实世界的图数据的标签往往很稀疏且有噪声，为了使得标签信息更加干净，作者希望可以通过有限的标签来获得准确的伪标签，从而减少标签噪声，以提升 GNNs 的鲁棒性和性能
主要增强方法: 基本思想就是如果两个节点的特征相似程度高，那么两者的标签相同可能性大
- 边预测器：基于节点特征相似性来连接unlabel和label节点，以及融入图结构信息两方面考虑，作者设计了一个GNN 边预测器，输入图之后得到表征 \(z\) ，对于未标记与标记节点间，如果 \(z_i, z_j\) 越接近，即\(S_{ij} = \sigma(z_i z_j^\top)\) 大于某个设定阈值，那么相连；在计算损失函数的时候，令\(A_{ij} = 1\)为正样本，另外采样\(K\)个不相连的边作为负样本。因为邻接矩阵的是稀疏的，导致学出的容易全是0
  
  \[ \mathcal{L}_E = \sum_{v_i\in \mathcal{V}}\sum_{v_j\in\mathcal{N}(v_i)}\left((S_{ij} - 1)^2 + \sum_{n = 1}^K\mathbb{E}_{v_n\sim P_n(v_i)}(S_{in} - 0)^2\right) \]
- pseudo label miner 获取伪标签：通过边预测器添加边以后输入到 GNN 中得到预测标签，对于置信度大于某个阈值的未标记节点，给它分配伪标签，并扩充到训练集当中
  
  \[ \mathcal{L}_{P} = \sum_{v_i\in \mathcal{V}_L} \ell (\hat{y}_i^P, y_i) \]
- 再次使用edge predictor 重构拓扑结构，得到最终的增强图 \(\mathcal{G}_A\) 输入到 GNN 分类器中
- loss: 其中 \(\mathcal{L}_{\mathcal{G}}\) 为 GNN 分类器的loss
  
  \[ \mathcal{L} = \mathcal{L}_{\mathcal{G}} + \alpha\mathcal{L}_{E} + \beta\mathcal{L}_P \]
方法评价: 作者通过边预测器和伪标签技术实现了 GNN 鲁棒性的提升；但是边预测器只有增加边的功能，如果本身图结构受攻击严重可能会使得拓扑结构越来越糟糕，应当根据预测的置信度动态的增删边。在实际应用中，对于社交网络中的地理位置预测，只有一小部分用户会填写地理位置，有的用户为了保护隐私而随机填写了错误的位置，或者用户已经搬到新位置但忘记在社交网络中更新。同样，对于社交媒体中的机器人检测，标记过程可能很乏味、成本高昂且容易出错，最终可能会得到有限的标记节点，因此伪标签技术和拓扑结构的更新可以增强此类数据。