曾经简单的数据湖不断发展,推动企业分析。随着人工智能敲开企业大门,这一点在今天变得更加重要。当这个想法在2010年代初出现时,有些人认为数据湖是恰逢其时的正确架构。数据湖是一个非结构化数据存储库,利用新的低成本云对象存储格式(如亚马逊的S3)。它可以容纳当时从网络上传出的大量数据。

然而,对其他人来说,数据湖是一种容易被嘲笑的“市场结构”。这一阵营的人称之为“数据沼泽”。这个阵营中的许多人青睐历史悠久但并不便宜的关系数据仓库。

尽管存在质疑,数据湖已经发展并成熟,成为当今人工智能和分析领域的关键组成部分。

随着生成式人工智能重新关注数据架构,我们将仔细研究数据湖如何转变以及它们在推动高级人工智能分析方面所发挥的作用。

数据湖的演变:分裂架构推动人工智能分析新时代的到来

数据湖的需求

对于追求电子商务和相关领域数据驱动洞察的年轻企业来说,实施数据湖的好处是多方面的。

亚马逊、谷歌、雅虎、Netflix、Facebook等企业都开发了自己的数据工具。这些工具通常基于ApacheHadoop和基于Spark的分布式引擎。新系统处理的数据类型比当时分析数据仓库中现有的关系数据类型结构性更低。

对于那个时代的系统工程师来说,这种架构显示出了一些好处。“沼泽”或“湖泊”,它将成为搜索、异常检测、价格优化、客户分析、推荐引擎等先锋应用的基础。

数据湖拥有巨大的未开发潜力,今天存储的海量数据将推动明天的洞察和人工智能进步。

这种更灵活的数据处理方式是成长中的网络巨头的迫切需求。文本、图像、音频、视频和其他数据“海啸”根本不适合关系数据库和数据仓库处理。另一个缺点是:随着每一批数据的加载,数据仓库成本也随之上升。

无论人们喜欢与否,数据湖如今仍充斥着数据。在数据处理中,数据工程师可以“立即存储”数据,然后决定以后如何处理数据。但基本数据湖架构已扩展为更高级的数据发现和管理功能。

这一变革由自主开发的解决方案以及Databricks和Snowflake等一流初创企业的解决方案引领,但还有更多企业参与其中。随着数据中心规划人员着眼于新的AI领域,它们的各种架构如今受到了密切关注。

数据湖的演变:从Lake到Lakehouse

数据湖竞赛的参与者包括Amazon Lake Formation、Cloudera Open Data Lakehouse、Dell Data Lakehouse、Dremio Lakehouse Platform、Google BigLake、IBM watsonx.data、Microsoft Azure DataLakeStorage、Oracle CloudInfrastructure、Scality Ring和Starburst Galaxy等。

正如上述内容所示,趋势是将产品称为“数据湖屋”,而不是数据湖。这个名字更类似于用于处理结构化数据的传统数据仓库。是的,这代表了另一个牵强的类比,就像之前的数据湖一样,受到了一些审查。

在数据市场中,命名是一门艺术。如今,解决数据湖初始缺陷的系统被指定为集成数据平台、混合数据管理解决方案等。但奇怪的命名惯例不应掩盖功能方面的重要进步。

在当今更新的分析平台中,不同的数据处理组件以流水线方式连接。新数据工厂的进步可能集中在以下方面:

新的表格式:例如,DeltaLake和Iceberg建立在云对象存储之上,为ApacheSpark、Hadoop和其他数据处理系统提供ACID事务支持。经常关联的Parquet格式可以帮助优化数据压缩。

元数据目录:SnowflakeDataCatalog和DatabricksUnifyCatalog等设施只是执行数据发现和跟踪数据沿袭的一些工具。后者特性对于确保分析数据质量至关重要。

查询引擎:这些引擎为高性能查询存储在各种类型和位置的数据提供了通用的SQL接口。PrestoDB、Trinio和ApacheSpark就是其中的例子。

这些改进共同描述了当今为使数据分析更有条理、更高效、更易于控制所做的努力。

它们伴随着明显的“先提取后转换”方法的使用。这与数据仓库熟悉的提取转换加载(ETL)数据暂存顺序不同。现在,方法可能改为提取加载转换(ELT)。

不管叫什么名字,这都是高级数据架构的决定性时刻。它们恰逢新一轮闪亮的生成式人工智能时代。但它们从杂物柜到定义更明确的容器的演变发展缓慢。

数据湖安全和治理问题

数据湖导致了大数据的彻底失败。所以我们需要保护数据免受未经授权的访问,并遵守GDPR等治理标准。这意味着应用元数据技术来识别数据。

主要需求是安全性。这需要精密度的访问控制,而不仅仅是将文件扔进数据湖,更好的数据湖方法现在可以解决这个问题。现在,组织中的不同角色反映在不同的权限设置中。

这种控制类型并不是早期数据湖的标准,早期数据湖主要是难以更新的“仅追加”系统。

新的表格格式改变了这一现状。近年来,DeltaLake、Iceberg和Hudi等表格格式相继出现,为数据更新支持带来了显著的改进。

Iceberg等工具的标准化和广泛可用性为终端用户在选择系统时提供了更多优势。这可以节省成本并提高技术控制能力。

推动未来:数据湖通过处理大量非结构化数据来为先进的人工智能分析提供动力。

生成式人工智能的数据湖

如今,生成式人工智能已成为许多企业待办事项清单中的首要任务,而数据湖和数据湖库与这一现象密切相关。生成式人工智能模型热衷于在大量数据上运行。与此同时,计算成本可能会飙升。

人工智能与数据管理之间日益紧密的联系揭示了未来的关键机遇和障碍:

人工智能将改变数据管理

数据仓库、数据湖和数据湖屋将有助于改进GenAI,但这也是一条双向的道路。生成式人工智能正在推动进步,这将极大地增强数据处理过程本身,这包括数据准备、构建BI仪表板和创建ETL管道。

生成式人工智能为解决数据管理中的模糊问题提供了独特的机会,比如数据清理。这一直是人类的活动,而自动化则是一项挑战。现在我们可以应用[生成式人工智能]技术来获得相当高的准确性。实际上可以使用基于自然语言的交互来完成部分工作,从而大大提高工作效率。

企业将不断努力将工作连接到多个数据湖,并专注于更加自动化的操作,以增强数据的可发现性。

人工智能数据湖将带来更具弹性的数据中心

人工智能正在挑战现有的游戏规则。这意味着数据湖工具既可以缩小规模,也可以扩大规模。这意味着支持数据中心和云端的灵活计算。

在某些月份的某些日子,数据团队希望将数据移至本地。其他时候,他们希望将数据移回云端。但是,当你来回移动所有这些数据工作负载时,就会产生负担。

当首席财务官们开始关注人工智能的“税收”,即其对支出的影响时,数据中心将成为试验场。IT领导者将专注于通过真正弹性的可扩展性将计算带入数据。

人工智能基础模型输出的定制是关键

这就是你如何赋予它你的业务语言,比如可以使用数据定制AI。它将从用例和质量角度以您想要的方式有效地代表您的企业。

定制工作应与新AI时代的数据治理相辅相成。治理提供生命周期管理和监控护栏,以确保遵守您自己的企业政策以及任何监管政策。

更多本地处理即将到来

精心策划的数据湖对于支持AI工作负载(包括与生成AI相关的工作负载)至关重要。我们将看到人们对混合数据架构的兴趣激增,部分原因是AI和机器学习的兴起。

人工智能的这种势头将把更多的数据带回本地世界或混合世界。企业不会想把所有的数据和人工智能模型都发送到云端,因为把这些数据放到云端的成本太高了。

使用本质上与存储分离的查询和计算引擎是一种主流趋势,这种趋势将在人们已经拥有的多样化数据基础设施中以及跨多个数据湖发挥作用。这通常被称为“将计算转移到数据”。

数据越多就越好吗?

基于未分类、不足或无效数据的AI工作负载是一个日益严重的问题。但正如数据湖的发展所表明的那样,这是一个可以通过数据管理解决的已知问题。

显然,如果无法理解,那么获取大量数据也是无益的。如果能利用数据,数据越多越好。但如果不能利用,数据就没有任何用处。

数据湖、数据仓库及其数据湖屋分支使企业能够使用更多类型和更多数据。这对生成式人工智能模型很有帮助,这些模型在对大型、多样化的数据集进行训练时会得到改进。如今,数据湖以各种形式存在。

 CIBIS峰会 

由千家网主办的2024年第25届CIBIS建筑智能化峰会即将开启, 本届峰会主题为:“汇智提质:开启未来新篇章”。届时,我们将携手全球知名智能化品牌及业内专家,共同探讨物联网、AI、云计算、大数据、智慧建筑、智能家居、智慧安防等热点话题与最新技术应用,分享如何利用更智慧、更高效、更安全、更低碳的智慧技术,共同开启未来美好智慧生活。

欢迎建筑智能化行业小伙伴报名参会,共同分享交流!

报名方式

长沙站(10月24日):https://hdxu.cn/MrRqa

成都站(11月05日):https://hdxu.cn/7FoIq

西安站(11月07日):https://hdxu.cn/ToURP

北京站(11月19日):https://hdxu.cn/aeV0J

上海站(11月21日):https://hdxu.cn/xCWWb

广州站(12月05日):https://hdxu.cn/QaqDj

更多2024年峰会信息,详见峰会官网:http://summit.qianjia.com