此时此刻此景,“零”就代表着赢

Source

30d9a6a1fcafef4cf5fa738d7c81f855.gif

编辑 | 阿冒    设计 | 沐由

2022卡塔尔世界杯,终于步入到最强、最美和最终的华章,阿根廷与法兰西共同上演了世界杯决赛史上的一幕奇迹,意想不到的转折和蹉跎而至的结局,让人不得不感慨全球第一运动的巨大魅力。

在这种世界顶级水准的足球竞技中,自然少不了强硬的身体对抗,因此队员的偶尔受伤也无法完全避免。某种程度上,伤痛本身就是体育竞技的一部分。

不过,正如那句老话所说的那样:轻伤不能下火线。我们经常看到,队医拿着一个瓶子对队员的受伤部位喷洒之后,之前动弹不得的球员立马变得生龙活虎,迅疾返场参加比赛了。

懂行的人知道,这是一种快速喷雾止疼剂,其主要成份是氯乙烷(C2H5Cl),机理是迅速降低受伤部位的温度,在神经被冷冻麻痹之后,疼痛也就迅速缓解了,属于是短期的应急之举。

有没有发现,这一幕与数据领域ETL(extract-提取, transform-转换, load-加载)所面临的普遍“伤情”格外相似?

自从传统数据仓库理论形成至今,提取、转换和加载始终是钳制数据应用的主要痼疾,企业也顶多通过找到一些类似氯乙烷效用的ETL辅助工具加以过渡,从来没有办法做到治标治本。

然而,在大数据应用越来越普及的当下,诸如以上的ETL工具们依然停留在初级阶段,这也就使得企业遭受的痛楚比以往的任何时候都更加强烈,愈发地难以承受。

吃力不讨好的工作

日前盛大举行的亚马逊云科技re:Invent 2022上,传来了令人振奋的好消息。雄心勃勃的亚马逊云科技发布了几项将数据管理推向未来的新服务,企业不再需要考虑ETL的问题。

正如亚马逊云科技首席执行官 Adam Selipsky所说的那样,“我们已经为此做了多年的准备,在各种服务之间构建集成,以便更轻松地利用数据进行分析和机器学习。”

04e93915a3aa8d2939b4e3fd4436fd10.jpeg

数据已成为全新的资产。通过挖掘出其中蕴藏的有价值信息,发现数据的规律,让它们“开口说话”,管理者就能够迅速做出理性和科学的决策,从而在激烈的市场竞争中占得先机。

在现代化应用的推动下,数据的价值正在被不断放大。就像是堆乐高积木一样,新的应用被迅速建立,需要注入来源不同的各种数据,假如继续沿用之前的理念,就势必少不了ETL的过程。

没有人能够否认,ETL是一份极其吃力不讨好的工作。

我们知道,现代化应用的特征之一,就是数据的不断复用。为此,企业和组织需要经常搬运与传输数据,以便在不同的模型和应用中加载,从而释放数据的多重价值。

当数据量并不是很大时,企业尚能勉强接受以上的繁复流程。然而,当数据量达到一定程度之后,这一过程就变得困难无比,而且需要消耗大量的资源和成本。

通常情况下,构建ETL会占用整个项目至少三分之一的时间,而对ETL的维护也同样不是一件轻省的工作,某些时候构建和维护ETL会占用到数据工程师70%的工作量。

是不是很惊人?更不要说,为了ETL的过程更加顺利,企业还需要考察和测试相应的ETL辅助工具,而这同样会占用企业的大量人力物力资源,以及不菲的预算。

1ec4c0440aff04b529cbb5ecb24081a0.png

显然,如果能有一种新的产品方案或者理念,极大地加速甚至是跳过ETL的过程,让数据就像水一样自由流动起来,那显然是所有数据驱动型企业的“福音”。

Zero ETL的未来

亚马逊云科技正在做的,就是这样的工作。实际上,早在几年前,亚马逊云科技就开始进行投入,并以Zero ETL的理念引导产品方案的研发与构建。

此前,其实也有公司试图进行类似的努力,譬如通过在云数据湖、数据仓库或数据湖里,来进行相应的提取、转换和加载动作,但是也和之前的辅助工具一样,并没有在本质上带来改变与提升。

通过持续不断的努力,亚马逊云科技希望真正引导客户迈向一个“Zero ETL的未来”,借助相关的Zero ETL方案,减少在不同服务之间手动迁移或转换数据的工作。

罗马不是一天建成的,“Zero ETL的未来”也同样不可能一蹴而就。不过,只要技术的理念和方向是正确的,那么无论道路是如何崎岖,跬步也终会千里。

本次re:Invent 2022的全球大会上,亚马逊云科技就迈出了Zero ETL的重要一步:通过两项全新的集成功能,客户可以连接和分析多地存储的数据,无需在不同服务间进行数据迁移。

0522b90eb98c448f96df684dce8e8abe.jpeg

首先是Amazon Aurora Zero-ETL与Amazon Redshift的集成,客户无需自定义数据通道,即可分析PB级的数据;然后是Amazon Redshift与Apache Spark的集成,让客户更加轻松地通过Apache Spark访问Amazon Redshift上的实时数据。

数据流通的最大敌人就是“孤岛”——无论是否有意为之。亚马逊云科技提供的新技术和新方案,使得平台之间的数据交换被极大简化,而且无需事先提取、转换与加载。

亚马逊云科技数据和机器学习副总裁Swami Sivasubramanian表示,“无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,我们将助力客户专注于分析数据,面向业务获取新的洞察。”

5f4606dfcbe4ad620e28b6ebcced4d41.png

全球领先软件公司Adobe和方案商Infor,已经是亚马逊云科技Zero ETL产品方案的受益者:借由亚马逊云服务提供的新服务与新功能,业务团队无需自己进行日常维护,就能够通过动态数据得到更好的分析。

一小步和一大步

其实在数据的集成,也就是数据一体化方面,亚马逊云科技此前已经有一系列的集成工具,譬如Data Exchange、Athena联邦查询等,它们均有Zero ETL的理念在其中,可以直接查询Aurora的数据。

不过从存储架构上来说,这些均属于是异构的访问,因此在性能上就不可避免地会受到一定的影响。属于无服务器服务的Amazon Athena也是同理,它使用标准SQL分析Amazon S3的数据同样属于异构的访问——好处是客户不需要搬迁数据了。

ba3f12457fde4dcbd672098c57d26b75.png

正如我们在前文所说的,亚马逊云科技在Zero ETL方面的探索由来已久,譬如2017年发布的Amazon Redshift Spectrum与联邦查询即是一个经典的特性,无需数据移动,用户即可使用Spectrum来访问数据湖Amazon S3中的数据。

在最新的Zero ETL演进中,亚马逊云科技所做的主要工作之一,就是TP(事务处理)与AP(分析处理)的融合——这也是目前被公认的趋势与方向,即让TP与AP有很好的负载资源隔离,相互之间也不受彼此影响,应该说这种做法有着巨大的现实和经济意义。

我们知道,TP与AP的存储方式是不一样的。如果进行高频的交易,行存会优先于列存,因为行存可以去用索引的方式快速对某一行的数据进行修改;在进行批量数据分析的时候,列存又会优先于行存……

于是,部分厂商的做法就带有了几分“取巧”的意味在里面,他们采用了两套存储系统完成HTAP(混合事务/分析处理)。从性能上来看,这种做法没有问题,但是客户却需要为之付出两套存储的成本,而且这也完全背离了Zero ETL的初衷。

亚马逊云科技则坚定认为,一个产品不可能满足所有的需求,因此在迈向Zero ETL时,亚马逊云科技采用的是更多相关产品服务之间的“联动”。

譬如在本次大会发布的Amazon Aurora Zero ETL to Amazon Redshift中,亚马逊云科技支持将交易数据在写入 Amazon Aurora 后的几秒钟内就可以自动连续复制,使其在Amazon Redshift中即时可用,客户可以立即开始分析数据,并利用数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。

e22e68859065abddfc4a7e917ae72ef0.png

这只是亚马逊云科技的一小步,却是Zero ETL领域的一大步。相信在接下来的时间里,我们会见证更多的产品方案发布,收获Zero ETL的美好未来。

欲了解关于更多Zero ETL的技术细节与内容,请点击左下阅读原文,即刻注册2022亚马逊云科技INNOVATE在线大会,深度解读re:Invent 2022。

0631256dc8ee9b119f8c617a83194267.jpeg