本文作者:Gil Elbaz 是Datagen的 CTO 和联合创始人

数据管理已成为人工智能发展的第一大瓶颈 | 观点

对于基础设施而言,真正伟大的标志是被它飞行容易被忽视。其表现得越好,我们考虑的就越少。例如,移动基础设施只有在我们发现自己难以连接时,它的重要性才会浮现在我们的脑海中。正如当我们在一条崭新的、刚刚铺好路面的高速公路上行驶时,我们很少考虑路面,因为它静静地从我们的车轮下驶过。另一方面,一条养护不善的高速公路,我们遇到的每一个坑洼、草皮和崎岖不平的路面,都会让我们想起它的存在。

基础设施只有在缺失、不足或损坏时才需要我们的关注。而在计算机视觉领域,基础设施——或者更确切地说,它所缺少的东西——是目前许多人所关心的。

计算设定了基础设施的标准

支撑每个AI/ML项目(包括计算机视觉)的是三个基本的开发支柱——数据、算法/模型和计算。在这三大支柱中,计算是迄今为止拥有最强大和最牢固基础设施的一个。 凭借数十年的专注企业投资和开发,云计算已成为整个企业 IT 环境中 IT 基础设施的黄金标准——计算机视觉也不例外。

在“基础设施即服务”模式下,近 20 年来,开发人员一直享受按需、即付即用的方式访问不断扩大的计算能力管道。 在此期间, 它通过显着提高敏捷性、成本效率、可扩展性等,彻底改变了企业 IT。随着专用机器学习 GPU 的出现,可以肯定地说,计算机视觉基础设施堆栈的这一部分是生机勃勃的。如果我们希望看到计算机视觉和 AI 充分发挥其潜力,明智的做法是使用计算作为 CV 基础设施堆栈其余部分所基于的模型。

模型驱动开发的沿袭和局限性

直到最近,算法和模型开发一直是计算机视觉和人工智能发展的驱动力。在研究和商业开发方面,团队辛勤工作多年,测试、修补和逐步改进 AI/ML 模型,并在Kaggle等开源社区分享他们的进步。通过集中精力在算法开发和建模上,计算机视觉和人工智能领域在新千年的前二十年取得了长足的进步。

然而,近年来,这种进展已经放缓,因为以模型为中心的优化违背了收益递减规律。此外,以模型为中心的方法有几个限制。例如,你不能使用相同的数据进行训练,然后再对模型进行训练。在数据清理、模型验证和训练方面,以模型为中心的方法还需要更多的体力劳动,这可能会占用宝贵的时间和资源来完成更具创新性的创收任务。

如今,通过Hugging Face等社区,CV 团队可以免费和开放地访问大量复杂的大型算法、模型和架构,每个都支持不同的核心 CV 能力——从对象识别和面部地标识别到姿势估计和特征匹配。这些资产已经变得与人们想象的一样接近“现成”的解决方案——为计算机视觉和人工智能团队提供现成的白板,以针对任何数量的专业任务和用例进行训练。

就像手眼协调这样的基本人类能力可以应用于各种不同的技能并进行训练——从打乒乓球到投球——这些现代 ML 算法也可以被训练来执行一个范围的具体应用。然而,虽然人类通过多年的实践和汗水变得专业化,但机器通过数据训练做到了这一点。

以数据为中心的人工智能和大数据瓶颈

这促使许多人工智能领域的领军人物呼吁进入深度学习发展的新时代——在这个时代,进步的主要引擎是数据。就在几年前,吴恩达(Andrew Ng)等人宣布以数据为中心是AI发展的方向。在这短暂的时间里,该行业蓬勃发展。在短短几年时间里,涌现了大量计算机视觉的新颖商业应用和用例,涵盖了广泛的行业——从机器人和AR/VR,到汽车制造和家庭安全。

最近,我们使用以数据为中心的方法对汽车上的手握方向盘检测进行了研究。我们的实验表明,通过使用这种方法和合成数据,我们能够识别并生成训练数据集中缺乏的特定边缘情况。

数据管理已成为人工智能发展的第一大瓶颈 | 观点

Datagen 为手握方向盘测试生成合成的图像(图片由来源:Datagen 提供)

虽然计算机视觉行业对数据议论纷纷,但并不是所有的议论都是狂热的。尽管该领域已经确定了数据是前进的道路,但在前进的道路上还有许多障碍和陷阱,其中许多已经让CV团队步履蹒跚。最近一项针对美国计算机视觉专业人士的调查显示,这一领域饱受长时间项目延误、非标准化流程和资源短缺的困扰——所有这些都源于数据。在同一项调查中, 99% 的受访者 表示,至少有一个CV项目因为训练数据不足而被无限期取消。

即使是迄今为止避免了项目被取消的1%的幸运儿,也无法避免项目延迟。在调查中,每个受访者都报告说,由于训练数据不充分或不足,他们经历了重大的项目延误,其中80%的人报告延误持续了3个月或更长时间。最终,基础设施的目的是一种效用——促进、加速或传达。在一个严重延误只是做生意的一部分的世界里,很明显缺少一些重要的基础设施。

传统训练数据挑战基础设施

然而,与计算和算法不同,AI/ML 开发的第三个支柱并不适合基础设施化——尤其是在计算机视觉领域,在该领域,数据量大、杂乱无章,而且收集和管理时间和资源都非常密集。虽然有许多标记的、可在线免费获得的视觉训练数据数据库(例如现在著名的 ImageNet 数据库),但事实证明,它们本身不足以作为商业 CV 开发中训练数据的来源。

这是因为,与通过设计概括的模型不同,训练数据就其本质而言是特定于应用的。数据是将给定模型的一个应用与另一个应用区分开来的东西,因此不仅对于特定任务,而且对于执行该任务的环境或上下文必须是唯一的。与可以以光速生成和访问的计算能力不同,传统的视觉数据必须由人类创建或收集(通过在现场拍摄照片或在互联网上搜索合适的图像),然后经过精心清理和由人工标记(这是一个容易出现人为错误、不一致和偏见的过程)。

这就提出了一个问题,“我们如何才能制作既适用于特定应用易于商品化(即快速、廉价和多功能)的可视化数据?” 尽管这两种品质似乎相互矛盾,但潜在的解决方案已经出现;作为调和这两种基本但看似不相容的品质的一种方式,它显示出巨大的希望。

合成数据和完整 CV 堆栈的路径


数据管理已成为人工智能发展的第一大瓶颈 | 观点
计算机视觉(CV)是现代人工智能的领先领域之一

制作具有特定应用且大规模节省时间和资源的可视化训练数据的唯一方法是使用合成数据。对于那些不熟悉这个概念的人来说,合成数据是人为生成的信息,旨在忠实地代表一些现实世界的对等物。就视觉合成数据而言,这意味着以静态图像或视频形式的逼真的计算机生成的3D图像(CGI)。

为了应对数据中心时代出现的许多问题,一个新兴的行业已经开始围绕合成数据生成形成——一个不断壮大的生态系统,由中小型初创公司提供各种解决方案,利用合成数据来解决上面列出的一系列痛点。

这些解决方案中最有前途的解决方案使用 AI/ML 算法生成逼真的 3D 图像,并为每个数据点自动生成相关的地面实况(即元数据)。因此,合成数据消除了通常长达数月的手动标记和注释过程,同时也消除了人为错误和偏见的可能性。

在我们的论文(在 NeurIPS 2021 上发表)中,使用合成数据发现面部地标检测中的群体偏差,我们发现要分析经过训练的模型性能并确定其弱点,必须留出一部分数据进行测试。测试集必须足够大,以检测关于目标人群中所有相关子组的统计显着偏差。这一要求可能难以满足,尤其是在数据密集型应用中。

我们建议通过生成合成测试集来克服这一困难。我们使用人脸标志检测任务来验证我们的提议,方法是显示在真实数据集上观察到的所有偏差也可以在精心设计的合成数据集上看到。这表明合成测试集可以有效地检测模型的弱点并克服真实测试集在数量或多样性方面的限制。

如今,初创公司正在向企业 CV 团队提供成熟的自助合成数据生成平台,以减轻偏见并允许扩展数据采集。这些平台允许企业 CV 团队在计量、按需的基础上生成特定于用例的训练数据——弥合使传统数据不适用于基础设施化的特异性和规模之间的差距。

计算机视觉所谓的“数据管理员”的新希望

不可否认,这对于计算机视觉领域来说是一个激动人心的时刻。但是,就像任何其他不断变化的领域一样,这也是一个充满挑战的时代。杰出的人才和才华横溢的头脑涌入充满想法和热情的领域,却发现自己因缺乏足够的数据管道而受阻。该领域深陷低效率的泥潭,以至于今天的数据科学家被称为三分之一的组织已经在与技能差距作斗争的领域,我们不能浪费宝贵的人力资源。

合成数据为真正的训练数据基础设施打开了大门——有一天,它可能只需要打开水龙头喝一杯水或提供计算就可以了。对于世界上的数据管理员来说,这肯定是一种受欢迎的茶点。