Skip to content

Graphair

Learning Fair Graph Representations via Automated Data Augmentations

  1. motivation: 对于使用图增强来进行公平的图表示学习,现有方法大都先对公平性有所假设在制定固定的增强策略,因此作者希望在不同的应用场景下可以实现自动的图数据增强来学习公平表示

  2. 主要增强方法: 主要是结合删除边和特征遮蔽来实现数据增强 Graphair

    • encode:首先通过一个 GNN encoder 得到 embedding

    • 数据增强:边扰动以及特征遮盖

      • 边扰动:通过一个 MLP A 得到邻接矩阵,之后进行Bernoulli采样,未采到的边即删除

      • feature masking:通过一个 MLP X 得到表征,然后进行Bernoulli采样起到类似于mask的效果

      • 将上面两者融合得到 fair view \(\mathcal{G}^{\prime}\)

    • 对抗性训练adversarial training:对导致预测偏差的图元素(边、节点特征)分配低概率。由于没有基本事实表明哪些图元素导致预测偏差并应该修改,因此作者使用基于对抗性学习的方法来隐式优化模型,以学习减轻输入图中的偏差

    • 对比训练:作者担心只使用对抗性训练会使得增强图坍缩为平凡解,同时为了使得增强能够保全informativeness (最具有信息的图元素)作者还引入对比学习来对比原始图和增强图

    • loss

      \[ \begin{aligned} \min_{g}\max_{k}L_{\text{adv}} &= \min_{g}\max_{k} \frac{1}{n}\sum_{i = 1}^n\left[S_i\log\hat{S}_i + (1 - S_i)\log(1 - \hat{S}_i)\right]\\ l\left(h_{i}, h_{i}^{\prime}\right) & =-\log \frac{\exp \left(\operatorname{sim}\left(h_{i}, h_{i}^{\prime}\right) / \tau\right)}{\sum_{j=1}^{n} \exp \left(\operatorname{sim}\left(h_{i}, h_{j}^{\prime}\right) / \tau\right)+\sum_{j=1}^{n} \mathbb{1}_{[j \neq i]} \exp \left(\operatorname{sim}\left(h_{i}, h_{j}\right) / \tau\right)} \\ L_{\text{con}} &= \frac{1}{2n}\sum_{i = 1}^{n}[l(h_{i}, h_{i}^{\prime}) + l(h_{i}^{\prime}, h_{i})]\\ L_{\text {reconst }} & =L_{\mathrm{BCE}}\left(A, \widetilde{A^{\prime}}\right)+\lambda L_{\mathrm{MSE}}\left(X, X^{\prime}\right) \\ & =-\sum_{i=1}^{n} \sum_{j=1}^{n}\left[A_{i j} \log \left(\widetilde{A^{\prime}}{ }_{i j}\right)+\left(1-A_{i j}\right) \log \left(1-\widetilde{A^{\prime}}{ }_{i j}\right)\right]+\left\|X-X^{\prime}\right\|_{F}^{2} \\ \min_{f, g}\max_{k} L &= \min_{f, g}\max_{k} L_{adv} + \beta L_{\text{con}} + \gamma L_{\text {reconst }} \end{aligned} \]
  3. 方法评价:该算法显著提高了公平性,且实现了自动增强,但是模型复杂度相对于baseline较高;在刑事司法、求职 、医疗保健和信用评分会存在公平性问题的场景中可以应用。