Skip to content

NRGNN

NRGNN: Learning a Label Noise-Resistant Graph Neural Network on Sparsely and Noisily Labeled Graphs

  1. motivation: 现实世界的图数据的标签往往很稀疏且有噪声,为了使得标签信息更加干净,作者希望可以通过有限的标签来获得准确的伪标签,从而减少标签噪声,以提升 GNNs 的鲁棒性和性能

  2. 主要增强方法: NRGNN 基本思想就是如果两个节点的特征相似程度高,那么两者的标签相同可能性大

    • 边预测器:基于节点特征相似性来连接unlabel和label节点,以及融入图结构信息两方面考虑,作者设计了一个GNN 边预测器,输入图之后得到表征 \(z\) ,对于未标记与标记节点间,如果 \(z_i, z_j\)  越接近,即\(S_{ij} = \sigma(z_i z_j^\top)\) 大于某个设定阈值,那么相连;在计算损失函数的时候,令\(A_{ij} = 1\)为正样本,另外采样\(K\)个不相连的边作为负样本。因为邻接矩阵的是稀疏的,导致学出的容易全是0

      \[ \mathcal{L}_E = \sum_{v_i\in \mathcal{V}}\sum_{v_j\in\mathcal{N}(v_i)}\left((S_{ij} - 1)^2 + \sum_{n = 1}^K\mathbb{E}_{v_n\sim P_n(v_i)}(S_{in} - 0)^2\right) \]
    • pseudo label miner 获取伪标签:通过边预测器添加边以后输入到 GNN 中得到预测标签,对于置信度大于某个阈值的未标记节点,给它分配伪标签,并扩充到训练集当中

      \[ \mathcal{L}_{P} = \sum_{v_i\in \mathcal{V}_L} \ell (\hat{y}_i^P, y_i) \]
    • 再次使用edge predictor 重构拓扑结构,得到最终的增强图 \(\mathcal{G}_A\) 输入到 GNN 分类器中

    • loss: 其中 \(\mathcal{L}_{\mathcal{G}}\) 为 GNN 分类器的loss

      \[ \mathcal{L} = \mathcal{L}_{\mathcal{G}} + \alpha\mathcal{L}_{E} + \beta\mathcal{L}_P \]
  3. 方法评价: 作者通过边预测器和伪标签技术实现了 GNN 鲁棒性的提升;但是边预测器只有增加边的功能,如果本身图结构受攻击严重可能会使得拓扑结构越来越糟糕,应当根据预测的置信度动态的增删边。在实际应用中,对于社交网络中的地理位置预测,只有一小部分用户会填写地理位置,有的用户为了保护隐私而随机填写了错误的位置,或者用户已经搬到新位置但忘记在社交网络中更新。同样,对于社交媒体中的机器人检测,标记过程可能很乏味、成本高昂且容易出错,最终可能会得到有限的标记节点,因此伪标签技术和拓扑结构的更新可以增强此类数据。