By Salvatore Salamone

为什么数字化转型推动了对 AIOps 的需求

由于现代应用程序的复杂性,行业正在经历从独立的网络和应用程序监控工具向AIOps的转变。

如今,随着公司部署新应用程序并进行数字化转型,基础设施及其对应用程序性能的影响变得越来越重要。不幸的是,现代应用程序底层基础架构的复杂性使得故障排除和问题解决变得更加困难。传统的监控工具达不到要求。通常需要一种基于 AIOps 的问题识别和快速解决方法。

在业界,关于 AIOps 的真正含义存在一些争论。一些实现使用预定义的规则,并根据是否检测到某些条件智能地采取行动。例如,如果计算密集型应用程序的性能下降,则将更多数据转移到固态驱动器,启动更多计算实例,并减少其他应用程序的带宽消耗。纯粹的 AIOps 解决方案不需要规则即可工作。 AIOps 解决方案应该自动发现状态数据和业务成果之间的关系。 (在基于规则的系统下,需要与许多手动系统相同的设置工作量。)

监控和管理之间也有区别。 AIOps 应该提供洞察力,而不是人类用户查看数据然后整理出正在发生的事情。 AIOps 工具应该告诉 IT 经理有一些事情需要注意。 AIOps 提供的自动化目标是减少手动干预所花费的时间,并为应用程序留出更多时间。

行动中的AIOps

查看 AIOps 的一种方式是看它与其他监控和应用程序性能管理方法的不同之处。

例如,客户在尝试完成在线交易时体验不佳。性能或交互缓慢可能是由于多种原因造成的。客户使用的宽带链接可能很慢,交易数据包通过的 Internet 主干网可能拥塞,主应用程序服务器可能因同时会话过多而承受压力,辅助应用程序(例如,拉动现有的 CRM 系统)帮助完成交易的客户信息)的响应时间可能很慢,或者第三方数据库(例如信用检查系统)可能处于脱机状态。

应用程序性能管理的传统方法是等待客户发出关于交易质量差的愤怒电话。然后,运维团队可能会使用故障排除工具来尝试识别问题。然后进行更改(也许增加应用服务器的能力)。

更主动的方法将发现客户有问题并实时采取纠正措施。例如,运营经理可能会为 CRM 系统分配更多带宽以加快这部分事务的速度。

这两种方法都是劳动密集型的,并且要求 Ops 团队对来自大量不同系统的许多日志、跟踪、警报和其他数据进行分类。他们必须以某种方式聚合这些数据,将其关联起来,并尝试理解它以找出问题的根本原因。

鉴于现代应用程序的复杂性,这不是一种实用的方法。 AIOps 平台将传统监控工具与流式遥测相结合,并使用 AI 分析所有这些工具。 AI 分析每个数据源并关联多个异常以自动识别问题,同时还提供有关如何解决问题的详细信息。因此,如果正确实施 AIOps 平台,它不仅可以提供对潜在问题的更多可见性,而且还可以消除许多手动故障排除和修复任务。

为此,AIOps 工具应该提供洞察力,而不是人类用户查看数据然后整理出正在发生的事情。该工具应该告诉 IT 或 OPs 经理有需要注意的地方。目标:AIOps 提供自动化以减少手动干预所花费的时间,并为应用程序留出更多时间。

最后一句话

现代数字业务需要 AIOps 工具来实现跨 IT 堆栈的持续洞察。随着需要监控和管理的系统变得更加复杂、更加分散,并且更加脱离当一切都在本地时提供的严格控制,这种洞察力变得越来越重要。

特别是,现代应用程序使理解性能和可靠性问题的原因变得更加困难。虽然更多的监控和警报功能非常棒,但它们可能会增加已经很忙的 IT 和运营人员的工作量。这就是为什么该行业正在经历从单独的网络、应用程序和设备监控工具向用于IT运营的人工智能(AI)或简称AIOps的转变。