NodeAug¶
-
Motivation
-
在半监督节点分类任务,常见的GCN只考虑有标签节点带来的损失,没有考虑未标签节点的贡献。作者希望通过数据增强将这些未标签节点引入训练过程中。
-
由于图数据中边的存在,在数据增强的时候会影响周围的节点的性质从而导致不理想的效果,为了解决该问题提出NodeAug
-
主要增强方法:对于每个点单独增强:采用改变节点属性或者增删节点的边来实现数据增强
- 中心思想:增强一个节点的同时不影响其他节点的信息,因此就每次单独增强一个节点,该节点根据影响范围拥有一个单独的增强子图(作者叫parallel universe),为了配合这个思想,在实验中作者设计了subgraph mini-batch method 用于更高效地训练
-
建模过程
- 每个点单独增强,有2种方法:改变节点属性,将不重要属性替换为周围节点的重要属性;以及根据节点的度考察,做到节点的删边增边;
-
一致性训练(consistency training),最小化原始节点和增强节点之间的 KL 散度 s
- 核心公式
-
loss:
- 其中LS是原先监督分类的loss,用交叉熵,VL是labeled node的集合
- LC是一致性误差,即原始图和增强图之间的KL散度作为loss
-
实验
-
验证nodeaug + GCNs 之后GCNs效果表现更好:多个数据集分类准确率上升
- 验证nodeaug兼顾了consistency loss之后,测试时准确率更高:作者比较累supervised loss,consistency loss 和 test accuracy,发现GCN在supervised loss上的下降速度较快,但是consistency loss上nodeaug + GCN好很多,且从测试的准确率来看,nodeaug + GCN更高