Press "Enter" to skip to content

数据集成:最终指南

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

简单地说,它是移动数据的过程

 

 

什幺是数据集成?

 

快速谷歌搜索说:“数据集成是将数据与不同源的数据组合成一个统一视图”。听起来很简单吗?但是嘿 – 自从你正在读完这一点,你已经知道这种狭隘的数据集成定义,可以说是鲁莽的。

 

在我跳进描述数据集成真正意味着什幺之前,让我向您保证,本指南并不意味着说服特定的解决方案或技术比其他解决方案更好。相反,本指南的目标是为您提供全面,无偏见的数据集成景观的360度概述。

 

为此,我将介绍所有构成数据集成景观的技术 – iPAAS,CDP,ETL,ELT,最后,反向ETL。

 

即使您是一个经验丰富的数据人,我希望每次任务选择适当的方法移动数据时,本指南也会为您成为一个准备好的计算者。

 

好的,那幺哎呀是数据集成吗?

 

要简单地说出,数据集成是数据库之间移动数据的过程 – 内部,外部或两者。这里,数据库包括生产DBS,数据仓库(DWS)以及生成和存储数据的第三方工具和系统。

 

请记住,所有集成工具都使用相同的底层技术 – API。如果您想了解有关API的更多信息,这是一个深入的指南,视频和课程。

 

IPAAS或Integration Platform作为服务:数据在云应用程序之间移动直接在IPAAS中没有发生转换

 

CDP或客户数据平台:数据通过中心集线器在云应用程序之间移动,可实现适度的转换功能

 

ETL或提取,转换和加载:数据从云应用程序通过内置于ETL工具中的强大转换图层移动到数据仓库

 

ELT或提取,加载和变换:数据从云应用程序移动到数据仓库直接发布,通过SQL在仓库中发生转换和数据建模。这里的主要区别在于,使用ETL,在将数据装入仓库之前发生转换,而在ELT中,随后发生转换

 

反向ETL:数据从数据仓库移动到云应用程序。通常,核心变换在反向ETL过程之前在仓库中进行,但反向ETL工具可以具有最小的变换层以将数据拟合到外部系统的架构

 

现在让我们更详细地查看这些技术 – 他们的利弊,观众每个人都迎合,以及今天在市场上运营的主要球员。再次,请记住,评论完全基于所讨论的技术,而不是在其下运行的公司或产品。

 

IPAAS或Integration平台作为服务

 

据称,IPAAS于2008年由企业IPAAS供应商Boomi创造。从那时起,IPAAS已经广泛采用,并导致在各种形状和包装中提供IPAAS解决方案的公司的扩散。

 

在今天的更受欢迎的人中,是 Tray和Workato专注于企业和Zapier,Integromat和Automate.io Catering到SMBS。

 

毋庸置疑,集成和功能范围不同于供应商到供应商,但从根本上说,它们都这样做了相同的事情 – 基于触发器执行动作。触发基本上是在系统A中发送的事件,该事件被发送到积分平台(通过API呼叫或Webhook),然后执行一个或多个预定义动作。

 

最简单的例子是每次收到电子邮件(事件或触发器)时,也会收到具有该电子邮件的内容(动作一个)的内容的Slack消息,然后将电子邮件标记为读取(动作二)。在这里,您的电子邮件客户端一旦新的电子邮件在收件箱中的新电子邮件降落,那幺您的电子邮件客户端将此消息传递给集成平台,然后将IPAAS执行它所。

 

要记住IPAAS解决方案的有趣的事情是,它们还可以检查系统A的更改,如时间表(如每小时),如果检测到更改,则执行指定的操作。

 

采取相同的例子如上所述,集成平台每小时可以敲对您的收件箱,如果有一个新的电子邮件,它可以执行动作,如果没有,那幺它没有任何东西。此外,触发器也是您在收件箱中找到的新电子邮件,但此时,IPAAS必须从电子邮件客户端获取此信息而不是传递它。

 

 

> How data moves through an iPaaS

 

IPAAS解决方案还可用于在发生事件的内部系统之间移动数据。但是,它相当罕见,因为集成平台通常根据他们执行的操作或任务的数量来充电,并且它可以很快变得非常昂贵。

 

采用IPAAS的最大驱动程序之一是他们提供了一个可视界面来构建集成,使企业团队能够控制他们的工作流程自动化需求。从本质上讲,iPAAS将最简单的编码概念带入UI,这很容易衡量,几乎没有技术知识,这真的很棒!

 

此外,IPAAS解决方案闪耀的领域之一是与第三方SaaS工具提供的集成深度。只要API端点由SaaS供应商公开,IPAA就可以将数据从IT中拉出或将数据推向它,从而实现一些非常复杂的集成,否则将需要编写和维护大量代码。

 

也就是说,与任何其他技术一样,IPAAS具有一系列限制,并不是所有类型的集成需求的理想解决方案。当需要移动不依赖的数据时,基于事件的集成尤其如此短。最后,由于iPAAS解决方案是如此灵活和自由形式,因此它们会在用户上推出大量复杂性。

 

CDP或客户数据平台

 

客户数据平台从不同来源收集和融合客户数据,并将该数据发送到不同的目的地。这里有重要的是,除了移动数据外,CDP还通过专有的SDK和API实现数据收集。但是,我打算将本指南侧重于数据集成,因此将留下数据收集另一日和指南。

 

与iPAAS解决方案一样,CDPS在过去几年中也获得了Steam,导致水平的CDP供应商像Segment, mParticle, Lytics,和Tealium,以及像 Amperity(零售和热情好客)和Zaius(电子商务)这样的垂直CDPS专注于解决特定行业的需求。

 

 

> How data moves through a Customer Data Platform

 

在移动数据方面,客户数据平台依赖于预定义的数据模型,并与第三方供应商提供有限或浅的集成,使它们不太适合大量数据集成使用情况。

 

重要的是要记住客户数据平台是通过定义,CDP执行了多于工具之间的数据。它使营销和增长团队能够根据用户行为和用户特征构建段,并将这些段同步到第三方工具,以提供个性化体验 – 所有这些都不依赖于工程或数据团队。如果您很想了解有关CDPS的更多信息,请从数据LED Academy中查看本指南。

 

另一方面,如果您已经使用了Redshift,Snowflake或BueQuery等数据仓库,您甚至可能甚至不需要CDP – 阅读此深入的作品,旨在为您的客户数据平台应该是数据仓库和不是一种现成的产品。

 

ETL或提取,转换和加载

 

ETL是一种传统的数据集成过程,其起源,按照维基百科,日期回到20世纪70年代。但是,它只是在九十年代早期,Informatica在企业中常见。然后Talend于2005年推出,是今天ETL空间的领导者。

 

在ETL范例下,首先从一方数据库和第三方来源提取数据(主要是SaaS工具,用于销售,营销和支持),以满足分析师和数据科学家的需求,最后装入数据仓库。

 

 

> How data moves through an ETL/ELT solution

 

转型特别是资源 – 激励和耗时,这显着影响提取和数据加载之间所需的时间。

 

但是,由于仓储技术和生态系统的进步,ETL正在被ELT所取代,这更快,更灵活 – 阅读以了解更多。

 

ELT或提取,加载和变换

 

Elt是ETL的现代方法,这在很大程度上被燃料,因为云数据仓库,如隆幅,雪花和BigQuery已经变得非常快速可靠,使得改造能够在仓库本身内进行。添加到从存储和数据仓库分离计算的架构的灵活性和成本优势成为一个无意识。

 

Fivetran,Stitch和Matillion是领导新的Elt Paradigm的公司。Talend是一个领先的ETL提供商,2018年收购缝线以接受Elt。因此,可以说Elt是新的ETL,但两种术语今天都在玩耍。

 

在ELT范例下,数据从源系统中提取并加载到仓库中而不会发生任何转换。事实上,现代ELT工具甚至没有提供内置的转换功能,但与DBT这样的服务很好地集成了用于处理数据仓库内的转换层的DBT,需要在其他地方执行转换。

 

ELT快速,实惠,最重要的是,不需要编码,所有这些都是从ETL到ELT的转变。

 

反向ELT.

 

使用ELT工具从各种来源仓储数据的好处是充足的。但是,使用DBT等工具将数据转换数据的能力使得数据仓库成为所有类型的数据的真实源,特别是客户数据通常跨越内部和外部系统。因此,新的工具亮相并缺乏更好的术语,反向ETL诞生。

 

Hightouch是一个反向ETL工具,使数据团队能够在Retool,Superhuman和Zeplin等快速增长的公司中,以便使用仅SQL和没有脚本的数据仓库将客户数据同步到销售,营销和分析工具。

 

像Hightouch这样的反向ETL工具需要以下内容:

 

从仓库或数据库中提取数据,并在常规Cadence上加载到销售,营销和分析工具中

 

每次数据更改时都会触发Webhook或进行任意API调用

 

将提取的数据行移动到生产数据库以提供个性化体验 > How data moves through a Reverse ETL solution like Hightouch

 

那幺这个新的方法如何效益数据团队?

 

嗯,由于数据团队已经将数据仓库维持作为分析目的的清洁和一致的客户数据来源,因此将此数据移动到来自相同的事实源的云应用程序是一个没有大脑 – 数据工程师最终可以维护单个数据管道对于分析以及对数据行事的团队来说。

 

但这是否只有受益数据团队?一定不行!

 

销售,营销和分析团队因这些新数据工作流程而受到积极影响,因为它们最终能够分析和行动同样,一致,可靠的数据。这在团队中的数据和和谐中建立了信任。

 

结论

 

我希望这篇文章有助于您在整体数据集成景观中掌握句柄,并使您能够了解不同技术的优缺点。应该显而易见的是,有多种方法可以满足某些集成需求,最适合您真正取决于您的用例和可用的资源。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注