NodeAug¶

Semi-Supervised Node Classification with Data Augmentation

Motivation
在半监督节点分类任务，常见的GCN只考虑有标签节点带来的损失，没有考虑未标签节点的贡献。作者希望通过数据增强将这些未标签节点引入训练过程中。
由于图数据中边的存在，在数据增强的时候会影响周围的节点的性质从而导致不理想的效果，为了解决该问题提出NodeAug
主要增强方法：对于每个点单独增强：采用改变节点属性或者增删节点的边来实现数据增强
- 中心思想：增强一个节点的同时不影响其他节点的信息，因此就每次单独增强一个节点，该节点根据影响范围拥有一个单独的增强子图（作者叫parallel universe），为了配合这个思想，在实验中作者设计了subgraph mini-batch method 用于更高效地训练
- 建模过程
  - 每个点单独增强，有2种方法：改变节点属性，将不重要属性替换为周围节点的重要属性；以及根据节点的度考察，做到节点的删边增边；
  - 一致性训练（consistency training），最小化原始节点和增强节点之间的 KL 散度 s
    - 核心公式
  - loss：
  - 其中LS是原先监督分类的loss，用交叉熵，VL是labeled node的集合
  - LC是一致性误差，即原始图和增强图之间的KL散度作为loss
实验
验证nodeaug + GCNs 之后GCNs效果表现更好：多个数据集分类准确率上升
验证nodeaug兼顾了consistency loss之后，测试时准确率更高：作者比较累supervised loss，consistency loss 和 test accuracy，发现GCN在supervised loss上的下降速度较快，但是consistency loss上nodeaug + GCN好很多，且从测试的准确率来看，nodeaug + GCN更高