人工智能的需求如何影响数据中心?| 专家视点
人工智能应用的增长彻底改变了数据中心行业,但也面临着挑战。最令人担忧的问题之一是,人工智能所需的功耗增加和高功率密度环境,这极大地影响了数据设施的物理基础设施需求。
在20世纪70年代末,数据中心功率密度一般在2kW至4kW之间,但现在,为了适应AI或高性能计算(HPC)工作负载,超过40kW的情况并不罕见。去年11月,Silicon Valley Power透露,其预测2035年数据中心的年度负载“几乎是当前系统负载的两倍”。
JLL Real Estate数据中心高级总监Colm Shorten表示:“确实,数据中心基础设施在过去20年里没有发生太大变化,因此有些设计模型会被重复使用,无论是基于正常运行时间或基于朝九晚五的可用性。“
“最根本的事情始终是确保数据中心运行、供电、网络、冷却和安全。这些通常会以中高个位数运行,大约8到12kW,19kW被认为是高功率。”
“人工智能在颠覆性意义上所做的是,其对这些功率需求提出了挑战,因此机架密度和机架功率需求都增加了。如果产生大量电力,就会产生大量热量。如果产生大量热量,就必须散发并消除热量。”
罗格朗数据中心解决方案爱尔兰和中东欧区域总监David Bradley补充道:“现在我们需要转变思维,考虑如何冷却这些机架,以及如何根据人工智能的需求提供电源架。”
人工智能给数据中心行业带来的挑战
随着计算能力和芯片设计的进步,设备机架的功率密度每六到七年就会翻一番。根据Uptime Institute数据,超过三分之一的数据中心运营商表示,其密度在过去三年中“迅速增加”。人工智能服务器集群的密集化,需要从空气冷却转向液体冷却,这带来了一些挑战,如场地限制、过时风险、安装复杂性以及可持续流体选择有限。专门的冷却方法,如后门热交换器,也成为必要的,以解决维持冗余和效率。
人工智能工作负载的多方面性质增加了另一层复杂性。培训要求减少冗余,但强调成本效益。Bradley表示:“训练人工智能不依赖于延迟,所以这可能意味着实际上可以可以在FLAPD中心区域之外部署新的数据中心。"
Shorten补充道:”过去,我们通常会在云区域或人口密集的地铁里找一个站点,在那里建一个数据中心,并为其提供电源。现在可把数据中心带到电源上。与传统的云模型相比,人工智能培训网站对延迟的敏感度较低。这意味着我们可以获得传统上无法获得的电力。"
人工智能需求激增也加剧了网络需求,给数据中心带来了额外的压力,以确保强大的连接和低延迟。与此同时,对电力冗余和弹性的要求也越来越高。这需要高可靠性机制和电源之间的无缝切换,以避免整个数据中心的停机风险。由非线性元件引起的功率浪涌和谐波畸变等操作风险对效率和安全构成了持续的威胁,往往会导致过热问题。
根据Shorten先生的说法,数据中心对人工智能工作负载的需求不断变化,这意味着运营商需要考虑面向未来的设施。其表示:“我们必须开发一种所谓的混合解决方案,因为如果我们建立一个纯粹的传统模式,那么它就有可能在两到四年内被淘汰。”
"当你认为建立和发展数据中心的成本在每兆瓦700万到1000万美元之间时,如果建立一个100兆瓦的大型数据中心,就得投入数十亿美元。然后需要资产持续15到30年。不可否认,这中间会有技术更新,但如果必须在六七年之后改变冷却技术或电源分配,尤其是一些人工智能组件几乎商品化时,那么将面临挑战。“
"其中一些机器和应用在物理上很重,所以如果在20年前建造了一个数据中心,第一层就要12千万,而且还得上两层楼。如果在后门增加热交换器和其他基础设施,这可能会上升到15到20、30千万。那么,要在两三年内重新设计和改造它是非常困难的。”
Bradley补充道:“可以在架子上增加200到300公斤的重量。现在,第一层是无法承受这些。然后会有一个连锁反应:必须要做一件事来改造它,然后影响其他的东西。”
"因此,必须研究人工智能的需求--从根本上讲,是人工智能的功率和冷却需求,然后就从那开始设计。"
然而,并不是所有人工智能需求激增的挑战都与物理基础设施有关。监管机构很难预测这项技术的发展轨迹,导致了各种各样的监管方法,比如欧盟的《人工智能法案》和NIS2指令。这使得数据中心运营商很难满足合规性要求并相应地调整其基础设施。
同样,数据中心要实现其可持续性目标也变得更加困难。根据Uptime Institute的《2022年数据中心行业调查》,63%的数据中心运营商希望在未来五年内强制性的可持续发展报告。《企业可持续性报告指令》(CSRD)将从2024年1月1日起开始对一些欧盟企业产生影响,并将需要报告新的指标,如水和碳使用效率。这对延长基础设施、回收冷却剂、与可持续供应商合作以及使用可再生能源,造成了更大的压力。
随着数据量的增加,安全风险也随之增加,人工智能引入了自动攻击和漏洞识别等新威胁。但这些并不总是恶意的,因为根据Uptime Institute最近的一项研究,自2020年以来,近40%的组织因人为错误而遭受了重大中断。其中,近85%是由于员工没有遵循程序或所遵循的流程存在缺陷造成的。数据中心必须实施先进的加密、生物识别认证和网络安全解决方案,以应对未经授权的访问并监控异常情况。
Shorten表示:“从安全角度看,人工智能是一把双刃剑。积极的一面是,如果应用其来观察模式的变化是非常好的。所以,如果发生网络攻击或者有人闯入环境,从网络的角度来看,人工智能可以发现异常现象。另一方面,人工智能非常非常强大,可以被恶意者用在不好的地方。”
"网络犯罪分子和建立安全和保护体系的人不断地相互竞争,以发展其保护或渗透能力。"
应对挑战的办法
随着挑战的增加,现有的解决办法也在增加。Bradley表示,需要从电力和冷却的角度来解决人工智能带来的需求,罗格朗就有这些解决方案。
USystems的后门冷却器等创新设计优化了热管理,同时解决了与空间限制和可持续冷却选择相关的挑战。它们通过从源头去除主动设备产生的热量来确保最佳的热和能源性能,防止热排气进入数据室。冷却器允许每个机柜的负载去除高达92千瓦,并获得了英国最负盛名的商业奖——创新奖。
强大的系统冷却机架运行人工智能应用。Minkels的的扩展机柜配有气流管理配件,旨在密封间隙,管理电缆进入,并为有效的气流控制创造一个密闭的环境。液体冷却解决方案,如直接到芯片或浸入式冷却,也越来越多地用于管理高密度环境,比传统的空气冷却方法更有效地散热。
智能机架配电单元(PDU),如Raritan PX4和Server Technology PRO4X机架PDU,设计用于处理人工智能带来的高功耗和密度。这些一流的PDU提供业界公认的高密度出口技术和突破性的智能功能,可满足复杂的人工智能需求。模块化解决方案和可定制的机柜提供了适应未来增长所需的灵活性和可扩展性。
带有监测点的轨道总线解决方案,可以识别潜在的能源效率和可靠性改进,有助于使配电更能响应动态需求。采用超大中性导体和功率表设计的总线,还可以降低电力浪涌和谐波失真的运行风险,如Starline临界功率监测器。Starline的轨道总线也有助于将电气安装时间缩短90%,这要归功于其首创的接入槽,可以在不中断服务的情况下灵活改变布局。Infinium acclAIM等高密度光纤解决方案可以满足AI推理的任何低延迟要求以及其他网络需求,确保城域网集线器和数据中心之间的快速响应时间和高效数据传输。
智能机柜锁定系统,如Nexpand的Smart Lock,符合PCI DSS、SOX、HIPAA、GDPR和EN50600的法规要求。机柜可以远程打开,也可以让用户监控谁打开了机柜,并与视频监控解决方案协同工作。这样的物理安全性是有帮助的,但运营商应该考虑配备最新网络安全协议的智能PDU,并为用户身份验证、密码管理和一流的数据加密方法提供多种选择。
采用节能硬件和可再生能源,对于降低数据中心的运行成本和碳足迹至关重要。环境监测装置,如智能传感器,其可以追踪整个设施的温度、湿度和气流,实现精确的冷却管理,最大限度地减少能源浪费。监测数据有助于预测潜在的设备故障,减少意外停机的可能性,并告知有关基础设施升级、布局改变或设备更换的决策,从而减少能源使用。
Shorten表示:“在动力方面,由于Starline总线以及后门热交换器,罗格朗拥有非常创新的解决方案,正在帮助我们实现这一目标。”
凭借可定制的模块化设计,罗格朗提供可扩展的解决方案,以满足不断变化的需求。其方法确保了面向未来的数据中心的可靠性、安全性和能源效率。罗格朗的专家团队协助解决复杂的问题,优化从设计到管理的每个阶段。
参与评论 (0)