Skip to content

Data-Centric Graph Data Augmentation

Data-centric AI is the discipline of systematically engineering the data used to build an AI system.

2021年,吴恩达在 From Model-centric to Data-centric AI1 中再度提及了以数据为中心(data-centric) 的人工智能的概念。他认为,一个人工智能系统包含两个部分:模型和数据;然而大部分人工智能的研究人员都致力于优化现有模型或者提出更好的算法来不断推动人工智能的发展。这种以模型为中心(model-centric)的人工智能概念发展了相当长的一段时间,但是,进一步优化的模型的收益如今可能不如一个优质的数据集的获取。因此,除了进一步优化模型,人工智能工程师们更应当关注于数据本身,如何打造 data-centric 的人工智能,如何定义数据集的好坏程度,怎么优化增强现有数据,都是 Data-Centric AI 未来发展的方向上所遇到的难题。

什么是 Data-Centric AI

data-centric的人工智能是指一种以数据为中心的人工智能方法,与传统的以模型为中心的方法不同。在传统的模型中心的人工智能生命周期中,研究人员和开发人员主要关注的是寻找更有效的模型来提升人工智能性能,而数据基本保持不变。这种模型中心的范式忽略了数据中可能存在的质量问题和缺陷,例如缺失值、错误标签和异常值。数据中心的人工智能则强调系统性地工程化数据,以构建人工智能系统,把关注点从模型转移到数据上。

在 Data-centric Artificial Intelligence: A Survey2 提到,数据中心 (data-centric) 与 数据驱动 (data-driven) 有本质的不同,后者只是强调使用数据来指导人工智能开发,而通常仍然以开发模型为中心,而不是工程化数据。数据中心的人工智能通过系统地处理和优化数据,提高了AI的准确性,加快了部署速度,并标准化了工作流程。

为实现数据中心的人工智能,研究人员已经提出了各种方法。例如,数据增强、特征选择、数据编程、算法补救、提示工程、自动化数据处理和人机协作等。所有这些方法的共同目标是确保数据的质量、数量和可靠性,以便模型能够按预期运行。

综上所述,数据中心的人工智能是一种通过系统性地甄别、优化、处理数据来提高人工智能系统性能的方法,代表了从传统的模型中心范式向以数据为中心的新范式的转变。

什么是图数据

图(Graph)是一种计算机科学中常用的数据结构,表示实体及其关系;而图数据是一种以图为的结构的数据。图由节点(nodes)和边(edges)组成,其中:

  • 节点(Nodes):代表图中的实体或对象,比如在社交网络中,每个节点可以代表一个人。
  • 边(Edges):连接节点,表示节点之间的关系或连接,比如在社交网络中,边可以代表人与人之间的朋友关系。
  • 节点属性(Node features):每个节点可以有多个属性,用于描述节点的特征,例如在社交网络中,节点属性可以包括年龄、性别、兴趣等信息。
  • 节点标签(Node labels):用于标识节点的类别或类型,通常用于有监督的学习任务。例如,在一个学术引用网络中,节点标签可以表示论文的研究领域。

图数据在图机器学习中非常常用,特别是在图神经网络(Graph Neural Networks, GNNs)中。我们已经拥有了一些优质的图数据集,例如:

  1. Cora:这是一个学术引用网络数据集,其中节点代表论文,边代表论文之间的引用关系。每个节点有文本属性,表示论文的内容,并且每个节点都有一个标签,表示论文的研究领域。

  2. PubMed:另一个学术引用网络数据集,节点代表生物医学论文,边表示引用关系。节点属性包括论文的词嵌入表示,节点标签则标识不同的疾病分类。

  3. Citeseer:类似于Cora的数据集,节点代表学术论文,边表示引用关系。节点属性是论文的词向量,节点标签是论文所属的研究领域。

  4. PROTEINS:这是一个生物信息学数据集,节点代表蛋白质的二级结构元素,边代表这些元素之间的相互作用。节点属性可以是关于结构或功能的信息,节点标签则表示蛋白质的类别。

  5. Reddit:这是一个大型社交网络数据集,节点代表用户,边表示用户之间的互动。节点属性包括用户的帖子内容或活动信息,节点标签可以表示用户所属的社区或兴趣组。

这些数据集被广泛用于研究和评估图机器学习算法,特别是图神经网络,以便在各种应用中(如推荐系统、社交网络分析和生物信息学)实现更好的性能。

什么是图数据增强

在 Graph Data Augmentation for Graph Machine Learning: A Survey3 中提到,数据增强(Data Augmentation, DA)是指通过增加或生成训练数据来扩展现有数据集的一系列技术,而不需要直接收集或标注更多的数据。大多数数据增强技术通过对现有数据进行稍微修改或者基于现有数据生成合成数据来实现。这些增强的数据作为一种正则化工具,能够在训练数据驱动模型时减少过拟合现象。

在计算机视觉(Computer Vision, CV)和自然语言处理(Natural Language Processing, NLP)领域,数据增强技术已经被广泛应用。常见的增强操作包括裁剪、翻转和反向翻译等,这些操作在机器学习模型的训练中非常普遍。

然而,在图机器学习(Graph Machine Learning, GML)中,数据是以节点连接的 非欧和不规则形式 存在的,这与常规的欧式数据(如网格状图像和顺序化句子)不同。因此,很多在CV和NLP中常用的结构化增强操作无法直接应用于图数据。因此,如何设计有效的图数据增强技术亟需解决。

以数据为中心的图数据增强

目前,存在一些依赖于特定模型的数据增强手段,在这些研究45中,数据增强只是服务于模型的优化。而以数据为中心的图数据增强通常是模型无关的(model-agnostic),这样的图数据增强手段关注于数据本身,具有模型之间的通用性。

根据图数据本身的数据以及过往的相关研究,将以数据为中心的图数据增强分为五大部分

  1. Node 节点级别的图数据增强:通常涉及节点的删除,新节点的构造,节点的合并等;
  2. Edge 边级别的图数据增强:通常涉及边的扰动(edge perturbation),例如边的添加,边的删除,或者全图的边的重连(rewiring);
  3. Subgraph/Graph 子图/图级别的图数据增强:通常涉及子图的采样、替换,以及图的重新构造等,一般应用于图分类任务或者寻求特定子图结构的任务中;
  4. Label 标签的图数据增强:通常涉及伪标签(pseudo-label)、标签混合、标签锐化(label sharpening)等
  5. Feature 特征级别的图数据增强:与前三者不同,前三者属于拓扑级别的图数据增强,而特征级别的图数据增强通常集中于特征层面的数据修改,涉及特征洗牌(reshuffling)、特征遮盖(masking)等