Press "Enter" to skip to content

简单聊聊数据湖

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

简单聊聊数据湖

 

|0x00 什幺是数据湖

 

数据湖 的概念最初是由大数据厂商提出的,可以简单理解为一个 集中存储数据的数据库 ,不论是 结构化数据 o r非结构化数据 , 海量数据 or 少量数据 ,都能够 支持存储和计算 。 就像在湖中有多个支流进入一样 ,结构化数据、非结构化数据、日志数据、实时数据,都流入了 同一种数据存储结构 之中,并进行 不同类型的分析处理 ,以指导做出更好的决策。

 

 

数据湖通常采用 Hadoop 作为数据的承载对象,随着企业规模的扩大,不同类型的数据越来越多, 最终所有企业或个人相关的数据,都被认为是“大数据” ,虽然 廉价的HDFS 是存储数据的最佳选择,但面对 更多种类更多时效性 要求的数据,使得Hadoop体系无法成为所有场景的最佳答案。

 

|0x01  数据湖的核心能力与架构

 

数据湖的核心能力包括:

 

集成能力 :支持 ,半结构化和非结构化 类型的数据,提供统一多元的接入方式,并自动生成元数据信息;

 

存储能力 :支持 异构和多样的存储 ,供经济高效的存储并允许快速访问数据浏览;

 

治理能力 :通过数据的 血缘关系 ,建立完整的上下游脉络关系,支持问题数据的追踪治理;

 

安全能力 :每一层数据都能够实现 安全管控能力 ,包括数据的敏感打标与安全监管;

 

发现能力 :能够快速 搜索和使用目标数据 ,明确知悉其在数据湖中的位置;

 

分析能力 :针对已经接入的数据,提供报表、自助取数、交互式、数据分析、机器学习等 分析使用能力 ;

 

质量治理 :针对已经接入的数据,提供字段校验、完整性分析、产出监控等功能,确保 数据的质量是可用的 。

 

明确了核心能力,就可以设计对应的体系结构,大体包括:

 

数据接入层 :提供适配的 多源异构数据资源接入方式 ,包括数据源的配置、数据任务的同步、数据的分发与调度、数据的ETL加工等;

 

数据存储层 : 通常采用HDFS ,但针对不同的场景可以 提供其他的解决方案 ;

 

数据计算层 :采用 多种数据分析引擎 ,来满足批量、实时等特定计算场景;

 

数据应用层 :不仅需要批量报表、即席查询、交互式分析、、机器学习等上层应用,还需要提供 自助式数据探索能力 。

 

 

|0x02 数据仓库与数据湖的差异

 

一图解释:

 

 

额外提一下,数据仓库非常倾向于 事前定义 ,也就是从事务系统中提取,经过维度或其他方式建模后,固化下来。这幺做虽然能够更加清晰的展示基础数据结构,降低数据计算量,提升开发速度,但同时也带来了基础模型改动成本高、数据迁移周期长、数据质量管控难等问题,可以说 高度结构化的数据仓库,更适合于月度报告等操作用途 。而数据湖倾向于所有数据都 保持原始形式 ,在使用的时候直接用工具来统计分析,对于数据科学家而言, 使用起来更加灵活 ,但同时也非常考验数据引擎的性能,以及科学家对于数据的掌握程度。

 

更加通俗点讲,数据湖像“ 市场经济 ”,而数据仓库像“ 计划经济 ”。

 

|0xFF 数据湖的风险与收益

 

使用数据湖的风险点在于:

 

数据湖的设计要求更高 ,因为面向的 数据类型更加的不稳定 ,非结构化数据可能导致无法掌控的混乱;

 

数据湖的维护成本更高 ,随着时间的推移, 容易产生严重的数据孤岛问题 ;

 

数据的存储与计算成本更高 ,因为很多 特定的场景无法使用廉价的Hadoop体系 ;

 

数据的相互验证成本更高 ,因为缺少了结构化的数据处理, 不同的分析师容易产出完全相反的结论 ;

 

安全性与数据质量更难掌控 ,因为 架构之间存在比较大的割裂性 ,每种架构需要不同的实现方案。

 

使用数据湖的收益点在于:

 

提供更加高级的分析能力 ,完全 摆脱数据仓库对于数据使用的种种限制 ;

 

提供更加灵活的适应场景 ,比如 实时 ;

 

允许开发更加快速的适应业务变化 , 降低数据仓库架构变动带来的迁移成本 ;

 

适应更多的数据源类型 ,一些线下Excel数据也具备了 联动的能力 ;

 

数据的访问与使用更加灵活 ,对于一些业务快速发展的单元, 时间成本尤其重要 。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注