By Neal Weinberg
大多数围绕人工智能(AI)的讨论都集中在自动车辆、聊天机器人、数字孪生技术、机器人技术以及使用基于人工智能的“智能”系统从大型数据集中提取商业洞察力。但是人工智能和机器学习(ML)总有一天会在企业数据中心内部的服务器机架中扮演重要角色。
人工智能在提升数据中心效率以及扩展业务方面的潜力可分为以下四个主要类别:
• 电源管理:基于人工智能的电源管理有助于优化加热和冷却系统,从而降低电力成本,减少员工人数,提高效率。该领域的代表性供应商包括施耐德电气、西门子、Vertiv和伊顿公司。
• 设备管理:AI系统可以监控服务器、存储和网络设备的运行状况,检查系统是否保持正确配置,并预测设备何时会出现故障。据Gartner称,AIOpsIT基础设施管理(ITIM)类别的供应商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
• 工作负载管理:人工智能系统可以自动将工作负载实时移动到最高效的基础设施上,包括在数据中心内部,以及在混合云环境中,在prem、云和边缘环境之间。有越来越多的小型公司提供基于人工智能的工作负载优化,包括Redwood、TidalAutomation和Ignio。思科(Cisco)、IBM和VMware等重量级企业也有产品。
• 安全性:人工智能工具可以“了解”正常网络流量的情况,发现异常情况,区分需要安全从业者注意的警报的优先级,帮助对出了什么问题的事后分析,并为填补企业安全防御漏洞提供建议。提供此功能的供应商包括VectraAI、Darktrace、ExtraHop和Cisco。
综上所述,人工智能可以帮助企业创建高度自动化、安全、自我修复的数据中心,这些数据中心几乎不需要人工干预,并且能够以高水平的效率和弹性运行。
戴尔技术公司全球CTO办公室的杰出工程师Tabet解释说:“人工智能自动化可以扩展到超出人类能力的水平来解释数据,收集优化能源使用、分配工作负载和最大化效率所需的必要见解,以实现更高的数据中心资产利用率。”。
当然,就像自动驾驶汽车的承诺一样,自动驾驶数据中心还没有出现。在数据中心,存在着阻碍人工智能突破的重大技术、操作和人员配备障碍。如今,采用技术才刚刚起步,但潜在的好处将使企业不断寻找机会采取行动。
电源管理利用服务器工作负载管理
据估计,数据中心将消耗全球3%的电力供应,造成约2%的温室气体排放,因此,无论是为了省钱,还是为了环保,那么多企业都在认真研究数据中心的电源管理。
451Research的高级分析师丹尼尔·比佐(DanielBizo)表示,基于人工智能的系统可以帮助数据中心操作员了解当前或潜在的冷却问题,例如,由于高密度机柜堵塞气流、HVAC装置性能不佳或冷热通道之间的空气密封不足而导致的冷空气输送不足。
Bizo说,人工智能承诺提供“不仅仅是良好的设施设计所能带来的好处”。人工智能系统在数据中心层“可以通过关联暖通空调系统数据和环境感知读数来学习设备”。
IT咨询和咨询公司StorageIO的创始人格雷格·舒尔茨(GregSchulz)补充说:“电源管理是一个很容易实现的成果。”今天,它是关于生产力的,关于每BTU完成更多工作,每瓦能源完成更多工作,这意味着工作更智能,让设备工作更智能。”
还有一个容量规划的角度。除了寻找热点和冷点之外,人工智能系统还可以确保数据中心为适当数量的物理服务器供电,并且在需求临时激增的情况下,有能力启动(和关闭)新的物理服务器。
Schulz补充说,电源管理工具正在开发连接到管理设备和工作负载的系统的挂钩。例如,如果传感器检测到服务器运行太热,系统可能会快速自动地将工作负载转移到未充分利用的服务器上,以避免可能影响任务关键型应用程序的潜在停机。然后系统可以调查服务器过热的原因——可能是风扇出故障(HVAC问题)、物理组件即将崩溃(设备问题),或者服务器刚刚过载(工作负载问题)。
人工智能驱动的健康监控、配置管理监督
数据中心充满了需要定期维护的物理设备。人工智能系统可以超越定期维护,帮助收集和分析遥测数据,从而确定需要立即关注的特定区域。”人工智能工具可以嗅出所有这些数据和斑点模式,以及异常点,”Schulz说。
Bizo补充说:“健康监测从检查设备配置是否正确以及性能是否符合预期开始。”由于有成百上千个IT机柜和数万个组件,这些平凡的任务可能是劳动密集型的,因此并不总是能够及时彻底地执行。”
他指出,基于大量感官数据日志的预测性设备故障模型可以“发现一个即将出现的组件或设备故障,并评估其是否需要立即维护,以避免任何可能导致服务中断的容量损失。”
JuniperNetworks负责企业和云营销的副总裁MichaelBushong认为,企业数据中心运营商应该忽略一些与人工智能相关的过度宣传和炒作,而专注于他所说的“无聊的创新”
是的,人工智能系统可能有一天会“告诉我问题出在哪里,并加以解决”,但是到了这一点,许多数据中心运营商会接受“如果出了问题,请告诉我要去哪里看”,Bushong说
依赖关系映射也是AI有用的一个重要但不是特别令人兴奋的领域。如果数据中心经理正在对防火墙或其他设备进行策略更改,可能会产生什么意外后果?”如果我提出一个改变,知道爆炸半径范围内可能有什么是很有用的。
保持设备平稳、安全运行的另一个重要方面是控制所谓的配置漂移(configurationdrift),这是一个数据中心术语,指的是随着时间的推移,临时配置的变化会导致问题的产生。Bushong说,人工智能可以作为“额外的安全检查”来识别即将发生的基于配置的数据中心问题。
人工智能与安全
Bizo认为,人工智能和机器学习“可以通过对事件进行快速分类和聚类来简化事件处理(事件响应),从而识别出重要事件并将其与噪声分离开来。更快的根本原因分析有助于操作员做出明智的决定并采取行动。”
人工智能在实时入侵检测中特别有用,Schulz补充道。基于人工智能的系统可以检测、阻止和隔离威胁,然后可以回去进行法医调查,以确定到底发生了什么,黑客能够利用哪些漏洞。
在安全操作中心(SOC)工作的安全专业人员经常会收到过多的警报,但基于人工智能的系统可以扫描大量的遥测数据和日志信息,从而清除日常任务,从而使安全专家能够腾出时间来处理更深层次的调查。
基于人工智能的工作负载优化
在应用程序层,AI有可能自动将工作负载移动到适当的着陆点,无论是在内部部署还是在云端。”AI/ML将来应该根据性能、成本、治理、安全、风险和可持续性的众多规范,实时决定在哪里放置工作负载。
例如,工作负载可以自动移动到最省电的服务器,同时确保服务器以最高效率运行,即70-80%的利用率。Bizo说,人工智能系统可以将性能数据整合到等式中,因此对时间敏感的应用程序在高效服务器上运行,同时确保不需要快速执行的应用程序不会消耗过多的能量。
基于人工智能的工作负载优化引起了麻省理工学院研究人员的注意,他们去年宣布他们开发了一个人工智能系统,可以自动学习如何在数千台服务器上调度数据处理操作。
但是,正如Bushong所指出的,现实情况是,如今的工作负载优化是像亚马逊、谷歌和Azure这样的超大规模公司的专利,而不是一般的企业数据中心。原因有很多。
实施人工智能的挑战
优化和自动化数据中心是正在进行的数字化改造计划的一个组成部分。戴尔的Tabet补充道,“借助COVID-19,许多公司现在都在寻求进一步的自动化,推动人工智能驱动、能够自我修复的‘数字数据中心’的理念。”
谷歌在2018年宣布,已将其数个超规模数据中心的冷却系统控制权转为人工智能程序,该公司报告称,人工智能算法提供的建议使能源使用量减少了40%。
但是,Bizo说,对于那些名字不是谷歌的公司来说,在数据中心使用人工智能“在很大程度上是一种理想”。一些AI/ML特性在事件处理、基础设施运行状况和冷却优化中可用。但是,AI/ML模型要取得比目前标准数据中心基础设施管理(DCIM)更明显的突破还需要更多年的时间。与自主汽车开发非常相似,早期阶段可能很有趣,但与它最终承诺的突破性经济/商业案例相去甚远。”
Tabet认为,一些障碍是“需要雇佣或培训合适的人员来管理系统。另一个需要注意的问题是数据标准和相关体系结构的需要。”
Gartner这样说:“AIOps平台成熟度、it技能和运营成熟度是主要的阻碍因素。高级部署面临的其他新挑战包括数据质量和“IT基础设施和运营团队”缺乏数据科学技能。
Bushong补充说,最大的障碍一直是人。他指出,外雇数据科学家对许多企业来说是一个挑战,对现有员工的培训也是一个障碍。
另外,Bushong说,员工抵制技术的历史由来已久。他指出,软件定义网络(SDN)已经存在了十年,但仍有四分之三以上的IT运营仍由CLI驱动。
“我们必须相信,各种基础设施的运营商准备把控制权让给人工智能,”Bushong表示。“如果一群人还不相信空管员能做出决定,那么你怎么训练、教育和安慰一群人,让他们做出如此重大的转变呢?业内普遍的态度是,如果我这么做,我就会失业。”
这就是为什么Bushong建议企业在人工智能方面采取那些小而乏味的步骤,而不是陷入经常围绕一项新技术的炒作中。(编译/Cassie)
了解更多人工智能解决方案,上方快3!海量精品方案与案例免费下载
方案推荐
* 千家网原创文章,转载请注明作者及出处。
参与评论 (0)