数据架构 - 现代数据仓库
在数据架构中,现代数据仓库 (MDW) 是组织可以存储和分析其所有数据的中心位置。它将 关系数据仓库 (RDW) 的组织结构与数据湖的灵活性相结合。这意味着企业可以访问实时数据、发现趋势并改善与客户的联系方式。
通过充分利用数据,现代数据仓库 可帮助组织保持创新和竞争力。在本章中,我们将介绍架构、MDW 的工作原理以及实现它们的步骤。
现代数据仓库架构
现代数据仓库 (MDW) 的架构结合了 关系数据仓库 (RDW) 和 数据湖 的功能。这种设计允许灵活的数据处理和强大的分析能力。
现代数据仓库 (MDW) 的结构将 关系数据仓库 (RDW) 的有序布局与数据湖的灵活性相结合。这种设置使组织能够更轻松地高效地存储和分析其数据。
MDW 的结构
现代数据仓库 (MDW) 的结构旨在处理不同类型的数据和分析过程。它包括。
- 关系数据仓库 (RDW):它使用自上而下的方法,这意味着在加载任何数据之前需要仔细规划(称为写入时架构)。它非常适合分析历史数据。
- 数据湖:采用自下而上的方法,允许以最少的初始设置(称为读取时模式)快速访问数据。它对于机器学习和识别未来趋势特别有用。
MDW 中的数据流阶段
现代数据仓库 (MDW) 中的数据流阶段解释了如何收集、存储、处理和分析数据。此过程将原始数据转化为对企业有用的见解。其工作原理如下:
- 提取:MDW 可以从不同来源收集不同类型的数据,包括结构化数据(如数据库)和非结构化数据(如电子邮件或社交媒体帖子)。
- 存储:然后,将收集到的数据存储在数据湖中,这为保存大量数据提供了灵活且经济高效的选项。
- 转换:之后,计算能力用于清理和组织数据,使其更易于使用和更有效地进行分析。
- 数据建模:准备好数据后,将其从数据湖移动到关系数据仓库 (RDW),通常以星型模式排列以简化报告。
- 可视化:最后,用户可以使用熟悉的报告工具分析组织好的数据,从而轻松理解并根据洞察采取行动。
MDW 的实施注意事项
在设置现代数据仓库 (MDW)时,组织应考虑一些要点。
- 数据提取频率:他们需要决定提取数据的频率,并确保有足够的容量来确保流程顺利进行。
- 使用机器学习:机器学习可用于不同步骤,以帮助从数据中发现有用的见解。
- 直接数据流:并非所有数据都需要经过每个步骤;有些可以直接从源移动到关系数据仓库 (RDW)。
现代数据仓库 (MDW) 正变得越来越流行,因为它们提供了一种灵活的数据管理方式。它们帮助组织结合使用关系数据仓库 (RDW)和数据湖的最佳功能,从而更轻松地处理和组合数据。
现代数据仓库的优势
现代数据仓库 (MDW) 具有许多优势,可帮助组织管理和分析其数据。以下是它们如何真正使企业受益。
- 实时数据访问:MDW 允许企业实时访问数据,帮助他们快速做出决策并快速响应市场变化。
- 灵活性:它们可以处理结构化和非结构化数据,使组织能够适应不同的数据需求。
- 可扩展性:MDW 可以随着业务的发展而发展,轻松处理大量数据,非常适合扩展公司和大数据应用程序。
- 改进的分析:通过组合来自不同来源的数据,MDW 提供了完整的视图,从而带来更深入的洞察和更好的分析。
- 成本效益:通过提供云存储选项,与传统方法相比,MDW 通常提供了一种更经济实惠的数据存储和处理方式。
现代数据仓库的缺点
虽然现代数据仓库有很多优点,但也有一些缺点需要注意。了解这些限制对于成功实施至关重要。
- 复杂性:MDW 中不同数据类型的组合可能使其设计和管理变得复杂,需要特殊技能和资源。
- 初始设置成本:启动 MDW 可能需要大量技术和基础设施资金。
- 潜在的数据重复:需要在数据湖和常规数据仓库中复制数据会增加存储成本并产生管理问题。
- 性能问题:根据系统的设置方式和处理的数据量,系统可能会变慢,尤其是在处理大量数据时。
- 数据治理挑战:在使用不同类型数据的系统中,确保数据质量、安全性和遵守规则可能更具挑战性。
结合 RDW 和数据湖
在现代数据仓库 (MDW)中,数据湖是存储和准备数据的地方,而关系数据仓库 (RDW)则确保数据安全并遵守规则。
数据湖
数据湖是一个灵活的存储空间,数据科学家和技术用户可以轻松处理大量原始数据。它可以帮助用户探索和清理数据。
- 它可以处理大批量数据和实时流式传输。
- 用户可以分析和改进数据,即使需要大量处理能力。
- 它还可以保留关系数据仓库 (RDW) 中的旧数据和备份。
- 用户可以创建副本进行测试和探索,而无需更改原始数据。
- 访问数据很快,不需要严格的格式。
关系数据仓库 (RDW)
关系数据仓库专为希望快速轻松访问结构化数据的业务用户而设计,非常适合生成报告和仪表板。
- 它针对快速查询进行了优化,尤其是针对复杂搜索。
- 许多用户可以同时运行查询而不会降低速度系统。
- 它包括强大的安全措施来保护敏感信息。
- 有不同的工具可帮助用户处理数据。
- 它是回答特定问题和获得宝贵见解的理想选择。
迈向 MDW 的垫脚石
创建现代数据仓库 (MDW) 是一项艰巨的任务,需要在技术和资源方面投入大量资金。当组织开始这一旅程时,他们通常需要临时解决方案来满足当前的数据需求。这些解决方案是迈向完整的现代数据仓库的步骤,可帮助企业在有效使用数据的同时保持灵活性。
以下是三种常见的垫脚石架构。
每个选项都有自己的优点和缺点。它们在帮助组织迁移到现代数据仓库 (MDW)方面的有效性取决于组织的需求、现有系统、预算和目标。让我们仔细看看每一个。
EDW 增强
企业数据仓库 (EDW) 增强是一种适用于已经拥有本地企业数据仓库 (EDW) 并希望管理更大数据集(通常称为"大数据")的公司的方法。这种方法可帮助组织充分利用其数据,同时解决与存储和处理能力相关的挑战。
EDW 增强的工作原理
在此设置中,将创建一个基于云的数据湖来存储大量数据。用户可以从该数据湖运行查询并创建报告,而主要数据保留在企业数据仓库(EDW)中。这使得公司可以使用云资源来管理大数据,而无需完全替换现有系统。
EDW 增强的好处
以下是使用企业数据仓库 (EDW)增强的一些主要好处。
- 增加容量:云数据湖有助于存储和处理更多数据,从而更轻松地管理大型数据集。
- 经济高效:这种方法是一种经济实惠的方式,可以在保留现有企业数据仓库 (EDW) 的同时进行高级数据分析。
- 支持业务增长:它可以帮助组织改变其数据管理以满足业务增长过程中的新需求。
EDW 增强的挑战
虽然企业数据仓库 (EDW) 增强有很多好处,但组织也应该牢记一些挑战。
- 数据传输问题:在 EDW 和数据湖之间移动数据可能很慢。
- 工具兼容性:当前用于运行查询的工具可能无法很好地与数据湖配合使用,从而导致访问信息变得更加困难。
- 需要新资源:组织可能需要更多的计算能力和技能来管理湖中的数据,这可能会增加成本。
- 工作负载平衡:这种方法不会减少现有 EDW 的工作负载,因此可能仍会面临性能问题。
使用 EDW 增强进行迁移
此设置可帮助组织缓慢地将本地企业数据仓库 (EDW)迁移到云。一旦数据湖到位,公司就可以开始将数据从 EDW 传输到数据湖,并可能传输到新的基于云的关系数据仓库 (RDW),作为完整现代数据仓库 (MDW) 的一部分。
临时数据湖加 EDW
当公司需要处理大数据但没有时间进行大量更改时,可以使用临时数据湖加 EDW方法。此设置有助于通过临时使用数据湖来减轻 EDW 的压力。
临时数据湖加 EDW 的工作原理
在此模型中,数据湖是一个临时存储空间,用于保存和改进数据。所有查询和报告均通过企业数据仓库 (EDW)完成,因此设置和处理起来非常方便,不会造成重大问题。
临时数据湖加 EDW 的优势
临时数据湖加 EDW 方法具有许多优势,可帮助组织更有效地管理其数据。
- 性能提升:通过将处理任务移至数据湖,EDW 的整体性能会变得更好。
- 速度和灵活性:在数据湖中使用不同的计算资源可提高处理速度并提供更大的灵活性。
- 经济高效的解决方案:此方法允许组织管理大型数据集,而不会中断其当前的 EDW 操作,因此是一种实用且适应性强的选择。
临时数据湖加 EDW 的挑战
临时数据加 EDW 方法的主要挑战之一是,由于数据湖仅供临时使用,因此组织可能无法充分利用数据湖的优势。这种有限的使用可能会阻止他们访问数据湖提供的所有功能和优势,从而降低其在改善数据管理方面的效率。
使用临时数据湖加 EDW 进行迁移
只需进行一些更改,这种方法就可以轻松过渡到完整的现代数据仓库 (MDW),使其成为组织的实用垫脚石。
一体化
一体化 架构在组织中很受欢迎,尤其是初创公司和小型企业,他们正在寻找一种简单的数据管理方法。它允许快速进行原型设计并专注于获得即时结果。
All-in-One 的工作原理
在此设置中,所有数据报告和查询都直接在数据湖中完成,无需单独的关系数据仓库 (RDW)。这使得整体数据结构更简单。
一体化的优势
一体化方法具有多项重要优势,可帮助组织更轻松地管理数据。
- 快速设置:此模型可让您快速启动并运行所有内容,以便立即访问数据。
- 结构更简单:通过将所有数据管理保留在数据湖中,减少了复杂维护和连接的需求。
- 灵活性:此设置可轻松更改,以处理不同类型的数据和新要求。
一体化的挑战
一体化方法面临一些挑战,尤其是在性能方面。如果没有关系数据仓库 (RDW),组织可能会在速度、安全性和用户体验方面遇到困难。虽然一些专注于数据科学的公司可能只使用数据湖就能应付自如,但他们最终需要添加关系数据仓库 (RDW),才能充分受益于完整的现代数据仓库 (MDW)。
使用 All-in-One 进行迁移
对于一些组织,尤其是那些专注于数据科学的组织,仅使用数据湖可能就足够了。但是,要完全过渡到完整的现代数据仓库 (MDW),他们最终需要添加关系数据仓库 (RDW)。
本章介绍了现代数据仓库 (MDW)和数据旅程中的五个步骤:提取、存储、转换、建模和可视化。我们讨论了现代数据仓库 (MDW)的优势和挑战,并探索了EDW 增强和临时数据湖等方法。