简述数仓分层的原则与思路 ?
参考答案:
数仓分层的原则与思路主要体现在以下几个方面:
一、原则
- 高内聚和低耦合:在逻辑和物理模型设计中,应遵循高内聚和低耦合的原则。这主要意味着将业务相近或相关的数据、粒度相同的数据设计为一个逻辑或物理模型,同时考虑数据的访问特性,将高概率同时访问的数据放在一起,而将低概率同时访问的数据分开存储。
- 核心模型与扩展模型分离:建立核心模型与扩展模型体系。核心模型应支持常用核心业务,而扩展模型则满足个性化或少量应用需求。在必要时,核心模型与扩展模型应建立关联,但要避免扩展字段过度侵入核心模型,以保持核心模型的架构简洁性和可维护性。
二、思路
- 原始数据层:作为数据仓库架构的基础,这一层主要存储从各个数据源采集而来的原始数据。其主要任务是保留数据的完整性,不进行任何数据处理和转换。
- 清洗和转换层:这一层负责对原始数据进行清洗、加工和转换。在这一层级上,数据会经过清洗、去重、格式转换、增加额外字段等操作,以适应后续的数据分析和查询需求。
- 维度建模层:这是数据仓库中的核心层级,主要用于构建星型模型或雪花模型,以支持复杂的分析和报表需求。这一层通常包含事实表和维度表,能够通过多维度分析来理解和处理数据。
此外,数仓分层还包括其他层级,如明细数据层(DWD层)、汇总数据层(DWS层)和应用层(APP层)等,每一层都有其特定的功能和作用,共同构成了一个完整的数据仓库体系。
总体来说,数仓分层的原则旨在确保数据的结构化、有序化和高效性,而分层思路则是根据数据的处理流程和应用需求,将数据仓库划分为不同的层级,以便更好地管理和利用数据。