Skip to content

MoCL

MoCL: Data-driven Molecular Fingerprint via Knowledge-aware Contrastive Learning from Molecular Graph

  1. motivation: GNN 在生物医学领域用的越来越多,然而当前的图对比学习方案对于分子图这类特定领域的图数据没有针对性的增强手段,另外目前的图对比学习方案很少考虑数据的全局结构从而使得 GNN 难以学习到更丰富的表征,因此作者设计了 MoCL,利用局部和全局级别的领域知识来辅助表示学习。

  2. 主要增强方法:采用现有知识的替换规则来实现子图结构的替换

    • 子图替换的增强手段:由于分子图结构的特殊性,直接随机去点去边的方法很可能破坏分子结构从而导致语义信息被破坏,因此作者采用了 substructure substitution 的增强手段,根据现有的知识提供子结构的替换规则来随机进行原图的子结构的多次替换,从而得到增强图 MoCL

    • 局部对比:输入一张图,然后得到一对增强图,之后输入到 GNN encoder中,再输入到投影头得到最终表征进行对比;其中同一张图的不同view作为正样本对,与其他图的view构成负样本对 MoCL_local_loss

    • 全局对比:利用领域知识,计算 Tanimoto 系数 然后计算得到的两个图的最终表征相似度,应当与上面的系数相近,才符合领域知识MoCL_global_loss第二种策略是拉近邻居节点的相似性 MoCL_global_loss

    • 最终 loss:\(\mathcal{L} = \mathcal{L}^{local}+\lambda\mathcal{L}^{global}\)

  3. 方法评价: 通过对分子图领域进行特殊化的图增强和设计特殊化的图对比损失,使得模型性能提升;但是这种数据增强的手段需要领域知识引导,这一点需要科学人员的大量精力,有的领域可能没有对应的知识作为引导