GraphMAE¶
-
motivation: 对于自监督学习领域,对比性(contrastive)方法已经有所建树,但是依赖于结构化数据,而生成式(generative)方法还没有达到一个较好的性能,存在过分注重结构信息而分类性能差、特征重构鲁棒性不够、均方误差MSE敏感不稳定导致自编码器训练崩溃、解码器架构简单导致性能不足等问题,因此作者希望可以从图的特征出发,提升生成式方法的性能
-
主要增强方法: 采用两阶段的特征遮盖
-
mask: 首先随机选取部分节点 \(\tilde{\mathcal{V}}\) ,然后对这部分节点,每个节点的特征根据掩码掩盖掉(feature masking)
-
encode:输入到一个GNN encoder进行编码
-
remask:得到的表征再mask一次,同样是刚刚 \(\tilde{\mathcal{V}}\) 的节点,但是掩码不一样
-
decode:输入到一个 GNN decoder,而不是 MLP,因为作者认为像特征这种复杂的语义信息,使用 GNN 解码器可以利用节点的邻居信息来恢复该节点的特征,而不是仅利用节点本身,从而使得编码器学习更富有信息量的隐编码
-
loss:作者采用余弦相似度而不是MSE来作为 loss,从而解决 MSE 的 敏感不稳定性问题 $$ \mathcal{L}{\mathrm{SCE}}=\frac{1}{|\widetilde{\mathcal{V}}|} \sum \in \widetilde{\mathcal{V}}}\left(1-\frac{x_{i}^{T} z_{i}}{\left|x_{i}\right| \cdot\left|z_{i}\right|}\right)^{\gamma}, \gamma \geq 1 $$
-
-
方法评价: 作者针对原来图自编码器的问题都进行了一一的改进,且feature masking的方法简单高效,但是最终实验部分的模型性能实际上并没有超越对比学习的性能,解码器的构造可能仍然存在问题