Ai大模型能否继续扩展?| 专家视点

当前,人工智能正在迅速部署到商业和金融的各个方面。一些令人兴奋的成功给行业带来了接受这项新技术的压力,因为没有人愿意被竞争对手远远抛在后面。

人工智能背后的核心技术是神经网络模型、深度学习算法和用于训练的海量数据集。该模型是为特定目的而构建的,例如对象识别、语音识别和对象跟踪。“模型”描述了神经网络的构建方式、网络有多少参数以及有多少层。

神经网络的总体精度是训练数据集的质量和大小、参数数量和训练过程的函数。这不是一门精确的科学。训练过多,模型对训练集的响应良好,但对现实情况的响应却不佳。这是模型“过度拟合”。训练太少,模型将无法响应所有已知情况。

没有一个模型是完美的。总是存在误差幅度,并且会出现模型没有参数的异常情况。在过去10年中,随着功能和准确性的提高,模型变得更加复杂。

Bard和GPT-4等大型语言模型使用的模型使用数千亿个参数,需要海量数据集进行训练。即使是最强大的个人计算机也无法处理需要大量计算能力和内存资源的大型模型。计算是通过互联网(云)在大型数据中心计算机(服务器场)上完成的。

服务器场用于自然语言处理、生成文本和图像、视频流分类以及物联网过程控制和监控等应用。《连线》 杂志估计,训练像 GPT-4 这样的大型模型需要花费1亿美元,并在11个月内使用多达10000个配备强大A100 GPU处理器阵列的系统。已知最大的模型是Google GLaM,拥有超过1 万亿个参数

如今,模型变得越来越大,但这些系统能否继续扩展?

SemiAnalysis首席分析师Dylan Patel表示,每天运行ChatGPT的成本估计高达70万美元。 该成本细分为维护、计算机资源折旧以及服务器和冷却系统的电力消耗。在谷歌和加州大学伯克利分校(《科学美国人》)联合发表的一项研究中,GPT-3 的耗电量为1,287 兆瓦时

当考虑到全球服务器场的数量和人工智能处理的成倍增加时,这一点值得高度关注。随着越来越多的人开始访问在线人工智能,服务器群的功耗可能会增加。到2025年,服务器群可能消耗全球20% 以上的电力。

服务器群使用配备强大计算机和GPU的大型机架。它们包含数千个处理核心,可用作并行处理单元来计算神经网络的功能。单个GPU使用的功率可高达400瓦,服务器最多可使用32个 GPU。一个公司的大型数据中心集群可能部署多达250万台服务器。即使只有一半的服务器配备GPU,最坏情况下的计算也将达到16000兆瓦时。换言之,这是大量的温室气体排放的源泉。

有多种方法可以减少服务器群对环境的影响。解决方案的一部分是更高效的硬件以及可再生能源的使用。另一种方法是使用混合解决方案,在专用的、低功耗但高性能的神经形态硬件中执行分布在边缘的大部分处理。神经形态处理的灵感来自大脑的节能方法。

人脑包含大约860亿个神经元细胞(大约是最大的大型语言模型GLaM的80倍),估计有100万亿个连接(大约是 GLaM 的 100 倍)。每个细胞都有不同数量的电化学记忆。存储在这种生物记忆中的信息可以被认为等同于神经网络模型中的参数。

与人工神经网络相比,大脑模型是动态的。当我们学习时,它会创造新的连接和更多的记忆,当我们睡觉时,它会修剪多余的连接。人脑神经网络尽管比最大的人工智能模型还要大,但其消耗的能量仅相当于20 瓦,比一个灯泡还少。尽管我们在过去几年中取得了成功,但大脑的结构与当今人工智能系统中使用的神经网络模型有很大不同。

神经形态处理借鉴了大脑的高效处理技术,将其行为复制到数字电路中。虽然数字电路可能不如模拟电路那么节能,但稳定性、可互换性和速度超过了轻微的功耗优势。由于事件驱动的卷积壳,使用神经形态计算引擎对开发人员和用户来说是透明的。

神经形态处理可以运行卷积神经网络 (CNN),并可以在ImageNet1000上运行图像分类、实时视频分类、气味和味道识别、振动分析、语音和语音识别以及疾病和异常检测。由于其功耗低,因此可以在便携式和电池供电的工具中使用这些功能。

通过在快速神经形态计算设备中使用分布式人工智能处理,可以减少数据中心过多的功耗,从而降低运营成本并提高边缘产品的功能和响应能力。神经形态处理可以帮助补偿人工智能预期的负面环境影响。

本文作者:Peter van der Made 是BrainChip Ltd的创始人兼首席技术官