Press "Enter" to skip to content

ML和数据趋势:总结2020,并研究和超越2021

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

2020在世界范围内带来了数字化爆炸。微软估计大流行(三月和四月)的前两个月推动了两年的数字化。在整个年度剩下的时间里,大流行加速了对市场的唤醒,这已经很长一段时间了:每个成功的现代化公司都需要不仅是一家软件公司,而且是一个数据公司。

 

 

加速数字化和我们越来越多的胃口和生成数据在2020年的数据+ ML景观中推动了大量的发展。由于公司已经开始获得过去几年的预测分析和ML倡议的利益,他们显然在2021年展示一个健康的食欲。“我们可以更快地处理更多数据,更快和更便宜吗?我们如何在生产中部署更多ML模型?我们应该在实时做得更多吗?“……列表继续。在过去几年中,我们在数据基础设施空间中经历了一个惊人的演变。数据驱动的组织已从ETL(提取,转换,负载)移动到ELT(提取,负载,变换),其中原始数据从源系统复制并加载到数据仓库/数据湖中,然后转换为。现在甚至是一个新的范式在叫做反向ETL的制作中,展示了这个空间中进化的速度。

 

“现代数据栈”的概念在制作中是多年的 – 它开始出现在2012年时,随着Redshift,亚马逊的云数据仓库推出。但在过去的几年里,甚至可能在2020年被Snowflake截止,2020年被Snowflake夸张的IPO,云仓库的普及已经爆炸地增长,所以拥有整个数据和ML工具和周围的公司。

 

2020年代正在成为数据十年。虽然2010年是SaaS的十年 – 例如当Salesforce成为第一个违反100亿美元的SaaS公司时,2020年代将成为在强大的世俗途中成长的数据公司的时代(数据库初创公司,数据质量初创公司,数据谱系启动,机器学习启动等)。

 

 

> Image courtesy of Validio

 

正如我们刚刚进入咆哮的数据20,我们希望突出一些我们在数据和ML基础架构内展开得令人兴奋的趋势:

MLOPS穿过鸿沟
从河流进入董事会的数据质量
统一的数据基础架构和新数据层出现了
现代数据云(仓库VS Data Lakehouse)的战争为真实升温
数据工程师的崛起

1. MLOPS穿过鸿沟

 

ML,特别是在企业空间中,历史上一直缓慢且难以扩大,合作一直是困难和运营的模型,实际提供业务价值在(亚马逊,Facebook,Airbnbs和世界外的Google之外)。然而,许多ML工具公司使用的“旧”谚语,其中80%的模型永远不会使其进入生产,肯定达到了2021年的到期日期。事实是越来越多的公司正在成功将ML模型部署到生产中。

 

 

正如我们(希望)通过AI炒作的高峰(例如,为AI为AI的缘故),我们看到企业中出现了良好的“MLOPS”的需求 – 即机器学习操作措施意味着标准化和简化生命周期生产机器学习。

 

来自Kleiner Perkins的Bucky Moore借用了他1月博客文章的横穿Chasm框架,争论我们在MLOPS工具空间中的“早期大部分”采用阶段。与“创新者”和“早期采用者”群体相比,大多数人被描述为实用主义者,寻求全面和经济的解决问题,最好是来自市场领导者。与创新者和早期采用者不同,大多数人对采用技术不感兴趣,因为它们是“新的”,他们也不关心第一的风险。

 

一个相信MLOPS已经过鸿沟,没有,MLOPS的崛起(即ML的DEVOPS)信号从研发和POC(如何建立模型)到操作(如何运行模型)的行业转变。

 

根据艾恩贝纳奇和伊恩·霍加尔斯的艾达2020年报告,25%的2020次增长最快的GitHub项目中,Q2 2020有关ML基础设施,工具和操作。谷歌搜索流量为“MLOPS”现在是第一次上升。随着组织继续开发机器学习(ML)的练习,越来越需要能够处理整个ML生命周期的强大和可靠的平台需求。MLOP的崛起是有前途的,但许多挑战仍然存在,与任何新技术范例一样。

 

 

> Image courtesy of State of AI Report 2020

 

2. 数据质量从河流进入会议室的步骤

 

我们在2020年经历了在数据质量周围的嗡嗡声中清晰的加速度。大流行强调了需要不断管理,监控和验证数据质量和模型的需要,因为由于市场条件快速变化,消费者行为和输入数据,世界各地的ML型号在2020年初开始故障。在2021年,数据质量正在成为数据驱动组织使用的任何类型的分析系统的现代数据栈的核心部分 – 从基本报告到生产中的高级机器学习和预测分析。

 

数据质量差是广泛的机器学习的挑战性。与数据漂移一起,数据质量差是ML模型精度随着时间的推移最低的原因之一。

 

ML质量要求很高,并且坏数据可能导致双重背突发:当预测模型接受不良预测模型(坏)数据时,当模型应用于新(坏)数据时,以告知未来的决策。较差的数据质量的挑战是ML的独特之一 – 双背突发的第二部分影响所有数据驱动的决策,包括BI工具和仪表板,客户体验优化,业务分析和业务运营。事实上,它根据HBR(并鉴于数据加速度,今日售价为3万亿美元,今天该数字可能更高)。

 

数据社区中的数据质量周围的嗡嗡声由Uber和Airbnb的数据工程团队担任,他们都写了关于评估和管理数据质量问题的文章以及他们构建的东西来处理它。

 

 

质量问题源于跨越堆栈:数据源和摄入,统一和集成的不一致(例如,数据库并购,云集成),模式更改,源系统更改,系统升级,记录错误,格式不一致,人类错误……列表继续。目前,大多数公司都没有有效的流程或技术来识别“坏数据”或导致它的内容。通常,它是反应性的:有人发现问题,数据工程团队手动工作才能识别错误(并且希望其来源)并修复它。使数据适合目的是数据专业人员的最耗时的任务(占用最多80%),顺便提一下,他们最不享受的一项任务。

 

但是监控和验证数据质量的软件和工具开始出现,并且正在增加现代数据驱动的公司及其数据基础架构堆栈的兴趣。虽然有几个用于监视代码和缺失分类的工具(例如DATADOG,SUMOLogic,New Rlic,SPLUCK),但数据工作流程仍然主要是手动管理或DIY解决方案。

 

 

> Image courtesy of Validio

 

云原生计算无法成为我们的软件开发和工具的新时代。作为数据驱动的系统(经常通过机器学习启用)现在有能力解锁下一波创新浪潮,我们将看到类似的数据质量和模型性能监控工具,以实现实时数据质量保证,数据验证,数据漂移管理,模型性能优化等

 

3. 统一的数据基础架构和新数据层出现

 

通过现代企业数据卷的爆炸性增长,更多的组织比以往任何时候都有更多的组织,正在处理和存储大量的业务分析和运营数据。这种趋势导致需要现代数据基础架构架构。Andreessen Horowitz通过发布现代数据基础设施的蓝图,真正开启了2020年的游戏。

 

两个关键班次推动了Dataops的兴起,随后对统一数据基础设施的需求是基于云的数据仓库的升高以及从ETL转移到ELT(提取,转换,加载,加载,负载,变换)的转变。

 

在传统数据仓库中,存储和计算耦合,因此只能存储有用的数据是有意义的。因此,导入数据的标准过程是ETL:在加载到数据仓库时,将提取的数据转换(连接,聚合,清除等)。但随着2012年亚马逊红移的商业推出,2014年第一艘云原生数据仓库和Snowflake,储存量和计算的架构被解脱出来。从那时起,计算能力飙升,而成本急剧困扰。

 

进入elt。通过ELT,提取的数据以其原始形式加载到数据仓库中 – 然后在云中转换。由于ELT已经删除了收集和存储数据的障碍,因此新兴的默认模式是:“将所有内容推到Redshift / Snowflake / BigQuery,我们将在以后处理它”。

 

 

> Image courtesy of a16z

 

我们仍然在朝着现代统一数据基础设施的明确架构之旅中相对较早,但有些特点是明显结晶的。atomico是指这是“新数据层”。他们将这种新数据层视为现代企业的大班次,潜在的大幅度超过“代码”,在未来十年内创建了几个数十亿美元的类别。

 

在这个新的波浪层中,它是数据(而不是代码)及其驱动系统输出和性能的工作流程。因此,最大化数据的洞察力和价值正在成为现代企业的主要焦点,呼吁底层数据基础架构(或层)和工具的演变。为混合添加额外的风味,数据所有权正在变得越来越不清楚,因为团队正在向数据网格移动(分布式数据所有权)。

 

4. 现代数据云(仓库VS Data Lake VS Lakehouse)的战斗为真实升温

 

二十年前,数据仓库可能不会是最性感的话题,嗯,任何时候都是真的。但是,Dataops的目前崛起,跨职能数据团队,最重要的是:云已经制作了“云数据仓库”镇上的谈话,概念与创新诱惑积极地融化。

 

作为一个具体的例子,关于Hadoop在2021年的有趣的事情是,虽然节省成本和分析性能是它在动荡的2010年中回归最具吸引力的益处,但Spark着迅速摆脱了这两个功能,因为大多数财富500个公司(最后)离开了Hadoop。云使数据更容易管理,更广泛的用户更易于访问,更快地处理。在2021年,纯粹的数据量使得公司无法以有意义的方式使用数据,而无需利用一些云数据仓库解决方案。随着2012年亚马逊Redshift的发布,其次是Snowflake,谷歌Big Query等随后几年,市场已经加热了。

 

Snowflake带来了与数据湖(原始数据)合并了数据仓库(转换数据)的推动,但现在建立的Lakehouse的出现挑战(由Databricks’delta Lake的开创),其中包括在哪里和如何存储(和转换)数据已变得更复杂。 (基本上,两者之间的差异是Snowflake建立在数据仓库逻辑上,但云中的存储成本的解耦和计算成本呈现出加载原始数据的激烈,因此他们添加了转换功能。Databricks,另一个,已将数据仓库功能添加到数据湖中,顶部有一个开源事务元数据层,可以在数据的选择部分上进行转换和操作,而大多数则保存在低成本对象存储中。)

 

 

> Image courtesy of Databricks

 

虽然传统上,数据仓库经常对其主要用例用于数据分析和报告的数据平台进行了定义,而数据湖泊有服务更多的ML定向/预测分析用例,则两种型号正在收敛。随后,我们正在看到一个有趣的数据平台战斗的开始,在接下来的5到10年内发挥作用:谁将设定最终数据云的标准?雪花将保持其位置作为灵活和高效的存储的先驱,是否会成为另一个云数据仓库(如AWS Redshift或Google Buequery)为他们提供了持续的钱,或者将达到7美元的资金注入(例如S3,主要的云玩家)转换游戏领域?放下你的赌注并弹出你的爆米花,因为这将是一个好看的大戏!

 

5. 数据工程师的崛起

 

最后但并非最不重要的是,我们在2020年期间看到了数据工程师角色的迅速崛起。希望在阅读这篇文章后,它应该在读到这篇文章后毫不奇怪,其中86%的企业计划在接下来的12个月内增加他们的Dataops投资,而且数据工程师现在是技术最快的工作。然而,这是一个如此接近我们的心灵,我们认为它应该得到自己的博文。

 

敬请关注!

 

原文链接:

 

https://medium.com/validio/ml-data-trends-wrapping-up-2020-and-looking-into-2021-beyond-b3ff1eadc211

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注