Skip to content

NodeAug

Semi-Supervised Node Classification with Data Augmentation

  1. Motivation

  2. 在半监督节点分类任务,常见的GCN只考虑有标签节点带来的损失,没有考虑未标签节点的贡献。作者希望通过数据增强将这些未标签节点引入训练过程中。

  3. 由于图数据中边的存在,在数据增强的时候会影响周围的节点的性质从而导致不理想的效果,为了解决该问题提出NodeAug

  4. 主要增强方法:对于每个点单独增强:采用改变节点属性或者增删节点的边来实现数据增强

    • 中心思想:增强一个节点的同时不影响其他节点的信息,因此就每次单独增强一个节点,该节点根据影响范围拥有一个单独的增强子图(作者叫parallel universe),为了配合这个思想,在实验中作者设计了subgraph mini-batch method 用于更高效地训练
    • 建模过程 nodeaug

      • 每个点单独增强,有2种方法:改变节点属性,将不重要属性替换为周围节点的重要属性;以及根据节点的度考察,做到节点的删边增边;
      • 一致性训练(consistency training),最小化原始节点和增强节点之间的 KL 散度 s

        • 核心公式
      • loss:loss

      • 其中LS是原先监督分类的loss,用交叉熵,VL是labeled node的集合 supervised loss
      • LC是一致性误差,即原始图和增强图之间的KL散度作为loss consistency loss
  5. 实验

  6. 验证nodeaug + GCNs 之后GCNs效果表现更好:多个数据集分类准确率上升

  7. 验证nodeaug兼顾了consistency loss之后,测试时准确率更高:作者比较累supervised loss,consistency loss 和 test accuracy,发现GCN在supervised loss上的下降速度较快,但是consistency loss上nodeaug + GCN好很多,且从测试的准确率来看,nodeaug + GCN更高 lab