InfoGCL¶
-
motivation:目前大部分图对比学习框架都是针对特定数据集以及训练任务,缺乏一种可以从头构建自己的图对比学习框架的统一范式,即对于给定的图任务和图数据,构建对应的图对比学习框架,因此作者借助信息瓶颈,(Information Bottleneck)通过遵循信息瓶颈原则减少相互之间的信息对比部分作为优化目标
-
主要增强方法:
-
augmentation:最优的增强目标为
\[ \begin{align} \left(\mathbf{v}_{i}^{*}, \mathbf{v}_{j}^{*}\right)&=\underset{\mathbf{v}_{i}, \mathbf{v}_{j}}{\arg \min } I\left(\mathbf{v}_{i} ; \mathbf{v}_{j}\right) \\ \text { s.t. } I\left(\mathbf{v}_{i} ; y\right)&=I\left(\mathbf{v}_{j} ; y\right) \\ I\left(\mathbf{v}_{i} ; y\right)&=I(\mathcal{G} ; y) \end{align} \]即作者认为好的增强视图应该之间的共享互信息最小化,且共享信息只能与任务相关
-
node dropping:丢弃一些点(即相连的边)
-
edge perturbation:增删边
-
attribute masking:遮蔽掉部分属性
-
subgraph sampling:采样子图
-
-
encoding:编码器可以任意 GNNs;作者认为一个视图的最优编码器生成的表示应该保留两个对比视图的所有共享信息,同时保留的信息都是与任务相关的,故优化目标是
$$ f_i^* = \underset{f_i}{\arg\min}I(f_i(v_i^); v_i*)\qquad\text{s.t.}I(f_i(v_i); v_j*)=I(v_i; v_j^) $$
即最小化编码前后的视图,即编码后两个视图之间共享信息只能与任务相关
-
representation contrasting: 优化目标:\((c_i^*, c_j^*) = \arg\min_{(c_i, c_j)} -I(c_i(z_i^*); c_j(z_j^*))\) 即最大化最终表征的共享信息;作者总结了5种对比方式
-
global-global:图表征对比,都采用平均聚合
-
local-global:节点表征和另外一个view的图表征进行对比
-
local-local:都是节点表征进行对比
-
multi-scale:图表征和另外一个view的中间表征进行比较
-
hybrid:混合global-global和local-global;infoNCE
-
loss: \(h\) 是用来衡量两个表征的相似度
\[ \mathcal{L}_{\text{NCE} }=-\mathbb{E}\left[\log \frac{\exp \left(h\left(\mathbf{z}_{i, n}, \mathbf{z}_{j, n}\right)\right)}{\sum_{n^{\prime}=1}^{N} \exp \left(h\left(\mathbf{z}_{i, n}, \mathbf{z}_{j, n^{\prime}}\right)\right)}\right] \]
-
-
-
方法评价:通过分解为三个部分,统一了图对比学习的范式,且分析了每个部分的优化目标;分析了负样本不是必需的;提供了一个通用的图对比学习设计方案。