从20世纪80年代中期以来,kimball一直是数据仓库和商业智能行业维度建模方法的思想开拓者。维度建模之初假设数据仓库仅限于单服务器数据库,随着大数据时代的到来,分布式计算和分式存储成为了新的趋势,所以Ralph Kimball所普及的维度数据建模方法和技术需要一些修订,这样才能更好地满足大数据建模的需求。需要注意的是,在数据仓库领域, Inmon和Kimball是两大主要阵营,但是Kimball的维度建模理论对于现代数仓建设的影响可谓是非常深远的,所以本文主要讨论维度建模的相关问题。
不要使用代理键
在KimBall的维度建模中,必须使用代理键作为每个维表的主键,用于处理缓慢变化维。
这个问题对于初学数仓维度建模的人而言,很容易陷入Kimball提出的代理键的漩涡之中,以至于把时间都浪费了。其实代理键在大数据仓库环境下显得很不合时宜,并且很难维护。在实际的建模中使用自然键是一个很好的选择,如果维度有一个复合主键,只需将它们与合理的分隔符连接在一起,即可根据多个自然键生成单个键。
总结下来不使用代理键主要有一下两个原因:
分布式计算系统,淡化了事务的概念,生成代理键的代价会很高 代理键会大大增加ETL的复杂性,对于ETL任务的开发和维护成本很高 避免使用 Type-2 SCD
缓慢变化维是维度建模理论的一个非常重要的概念,大多数情况下,Type-0 或 Type-1 SCD 可以解决问题。除非有特别关键的原因,否则我会避免使用 Type-2 SCD。尤其是在大数据环境下的数据建模,几乎很少使用Type-2 SCD。
关于SCD的解释如下:
SCD1:通过更新维度记录直接覆盖已存在的值,它不维护记录的历史。SCD1一般用于修改错误的数据。 SCD2:在源数据发生变化时,给维度记录建立一个新的“版本”记录,从而维护维度历史。SCD2不删除、修改已存在的数据。 SCD3:通常用作保持维度记录的几个版本。它通过给某个数据单元增加多个列来维护历史。例如,为了记录客户地址的变化,customer_dim维度表有一个 customer_address列和一个previous_customer_address列,分别记录当前和上一个版本的地址。SCD3可以有效维护有限的历史,而不像SCD2那样保存全部历史。SCD3 很少使用。它只适用于数据的存储空间不足并且用户接受有限维度历史的情况。
如果非得需要实现 Type-2 SCD(不建议使用),也不要使用代理键。相反,将自然键与表示 SCD 中的有效日期和到期日期字段结合使用。这只是查询稍微复杂一点,但更灵活,更容易实现,并且避免了对代理键的需要。
维表快照
在关系型数据仓库时代,快照维度显得没有意义,但在大数据环境中却非常有意义。简单将就是使用分区表,每个分区内存储的是截止当前时间的全量维度信息。
通过快照的方式处理缓慢变化维,是在大数据环境的数据仓库实践中常用的方式。以离线数仓为例,计算周期一般是每天一次,基于此周期,处理缓慢变化维的方式就是每天保留一份全量的快照数据。以商品维度为例,就是每天保留一份全量的商品快照数据。在下游的使用过程中,可以获取每天的维度信息,使用起来非常方便。
优点
简单,开发和维护成本低 方便,很容易理解,下游使用数据时只需要限定所需要的日期即可
缺点
存储浪费 综合看来,由于存储成本远低于CPU、内存的成本,此方法是牺牲存储获取ETL效率优化和逻辑上的简单,显然是利大于弊的。 数据建模的非规范化
所谓的非规范化,即是将某些维度属性冗余至事实表。过去之所以不赞成这样做,部分原因是因为 RDBMS 将数据存储在表中的方式。随着 Parquet 和 ORC 等列式数据存储格式的出现;这不再是一个大问题。
在传统的维度建模的星型模型中,对于维度的处理是将其单独存放在专门的维表中,然后通过事实表的外键获取维度。这样做的目的是为了减少事实表的冗余,从而减少存储消耗。
但是在大数据背景下,考虑到提高下游任务的使用效率,降低获取数据的复杂性,减少关联表的数量,通常的做法是将常用的维度冗余至事实表中。
善于使用复杂的数据类型
通常,作为数据工程师,我们的工作是将非结构化数据集重新组织为结构化(或半结构化)数据集,但是在一些场景下,非结构化是一个很好的选择。
复杂的数据类型违反了最重要的范式(原子列)规则,其实你会发现,维度数据建模的许多传统理论都违反了其中的一些规则。由于复杂数据类型使用起来非常灵活,其在现代数据仓库中功能是非常强大的。
当某个实体的详细信息在不久的将来发生变化时,使用一个 JSON来保存这些字段是很有必要的,直到schema的细节可以固化。
对于一对多的情况,使用数组或许是一个很好的方案,例如,如果在商品维度中存储一些标签字段,我们就可以将这些字段存在在一个数组字段中,而不是将标签存储在 一张标签表中。
值得注意的是,对于一些特殊的场景,要善于使用复杂类型,而不是滥用复杂数据类型。结构化依然是建模过程中需要考虑的重点。
总结
Ralph Kimball的维度建模理论对于当今数据仓库建模的影响可谓是非常深远的,我们现在主流的数仓建模都是基于维度建模的。随着大数据技术的不断发展,维度建模的一些方法需求随之做出一些调整,但是其核心思想是不变的。另外,作为数仓开发者,我们要遵循一个准则:数据仓库的设计是为了业务服务的,是为了发挥数据运营的优势而存在的,所以彰显数据价值,赋能业务增长才是我们需要考虑的最根本问题。
Ubuntu是一个以桌面应用为主的Linux操作系统。它是一个开放源代码的自由软件,提供了一个健壮、功能丰富的计算环境,既适合家庭使用又适用于商业环境。Ubuntu将为全球数百个公司提供商业支持。 ...
查看全文Docker采取了一种保守的方法来清理未使用的对象(通常称为“垃圾收集”),例如图像,容器,卷和网络:除非您明确要求Docker这样做,否则通常不会删除这些对象。这可能会导致Docker使用额外的磁盘空...
查看全文新浪科技讯 北京时间5月27日晚间消息,据报道,四位知情人士今日透露,亚马逊、微软和谷歌这三大云计算服务提供商,正在竞争波音公司(Boeing)价值10亿美元的云服务合同。 这些...
查看全文新浪科技讯 北京时间5月27日晚间消息,据报道,多位知情人士今日称,继加州、纽约州和华盛顿州之后,马萨诸塞州和宾夕法尼亚州的总检察长也加入到对亚马逊的反垄断调查中。 如今,越来越...
查看全文
您好!请登录