SubMix¶

Model-Agnostic Augmentation for Accurate Graph Classification

motivation: 目前的图数据增强工作存在两个问题：一是增强过程中涉及到目标模型；二是只利用简单的启发式方法，可能增强出不可靠的结果；因此作者设计了与模型无关的数据增强算法，以实现更加准确的图分类
主要增强方法：子图混合，即替换部分子图
- 作者首先提出了五个增强方法应该满足的属性
  - 保留尺寸：即增强后节点和边的数量不变
  - 保持连通性
  - 改变节点
  - 改变边
  - 线性复杂度 $O(|d\cdot\mathcal{V} + \mathcal{E}|),d$ 是特征维数
SubMix：即替换部分子图，包含子图采样、子图混合，标签混合，特征替换等工作
- 选定两个不一样的图，之后进行使用diffusion方法进行采样得到对应的相同节点数量的子图$S, S^\prime$，其中使用 PageRank计算得分，将亲和度（affinity）得分高的邻居节点纳入到采样子图当中，实现diffusion
- 根据上一步计算的得分进行排序，之后按照顺序进行一对一映射
- 边重连：根据以下公式得到两个边集，即 $\mathcal{E}_{1}$ 和 $\mathcal{E}_{2}$ 的区别在于，$\mathcal{E}_{1}$ 包含与 $S$中至少一个节点相关的边，而 $\mathcal{E}_{2}$ 只包含两个相连节点都在 $S^\prime$ 中的边。原因是因为增强的主要目标是 $G$
  
  $$ \begin{array}{l} \mathcal{E}{1} \leftarrow{(u, v) \mid(u, v) \in \mathcal{E} \wedge \neg(u \in S \wedge v \in S)} \ \mathcal{E} \leftarrow\left{(\phi(u), \phi(v)) \mid(u, v) \in \mathcal{E}^{\prime} \wedge\left(u \in S^{\prime} \wedge v \in S^{\prime}\right)\right} \end{array} $$
  
  新的边集 $\bar{\mathcal{E}} = \mathcal{E}_{1}\cup\mathcal{E}_{2}$
- 子图特征替换：即通过一对一映射直接替换对应点的特征
- 标签混合：$\bar{y} = qy + (1-q)y^{\prime},q =|\mathcal{E}_1|/|\bar{\mathcal{E}}| $
方法评价: 作者针对图分类问题提出了两种模型无关的数据增强算法，实现了更加准确的图分类