GraphENS¶

GRAPHENS:NEIGHBOR-AWARE EGO NETWORK SYNTHESIS FOR CLASS-IMBALANCED NODE CLASSIFICATION

motivation: 类别不平衡问题会影响 GNN 分类表现，现存解决这类问题的方法虽然可以产生多一些少数类节点来实现平衡，但是没有考虑节点之间消息传递的影响（neighbor memorization），只利用了少数类节点的特征，因此生成的新节点特征没有多样性，因此作者提出了 GraphENS
主要增强方法:
- neighbor sampling：选取一个少数类节点和一个目标节点（注意这里的目标节点是所有类别的节点，因此相较于之前的方法，没有只从少数类节点中提取信息，从而保证了特征的多样性）给这两个节点构造邻居分布，之后把这两个节点输入到 GNN 后的结果进行KL散度的计算，得到混合比例 \(\hat{\phi}\) ；为新节点构造一个概率分布，用于邻居采样
  
  \[ p\left(u \mid v_{\text {mixed }}\right)=\hat{\phi} p\left(u \mid v_{\text {minor }}\right)+(1-\hat{\phi}) p\left(u \mid v_{\text {target }}\right) \]
- saliency-based node mixing：首先作者利用反向传播计算节点的梯度 \(\frac{\partial\mathcal{L}}{\partial X}\) ，将其当作特征显著性，即作者认为节点的该特征如果对模型变化的贡献程度越大，则特征显著性越强；之后利用下述公式进行特征混合，其中每一维特征的选取概率由特征显著性决定，如果越显著则混合的比率越小；另外作者还加入了目标节点的一些噪声
  
  \[ v_{\text {mixed }}=\left(1-\Lambda_{K}\right) \odot v_{\text {minor }}+\Lambda_{K} \odot v_{\text {target }} \text {, where } \Lambda_{K}=\lambda \cdot M_{K} \]
方法评价: 作者通过置换实验展示了 Neighbor Memorization的问题，说明了 GNN 对邻居的过拟合要比对少类节点本身的过拟合更严重；另外根据特征显著性进行混合以及加入其他类别的特征噪声的方法使得生成节点的特征多样性更丰富，缓解了Neighbor Memorization的问题。