|
|
|
|
公众号矩阵

新数据仓库模式设计有利于企业用户

业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。

作者:邹铮 编译来源:TechTarget中国|2021-01-03 20:01

业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。

当尝试关联数据仓库中不同仪表板的信息时,企业用户开始面临挑战。这通常需要求助于数据工程师,数据工程师需要在数据仓库中创建数据集市–由多个星形图组成,而这可能导致数据丢失或数据重复。

这种复杂性促使Francesco Puppini探索可更好地支持最终用户的数据仓库模式设计。他在与Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一书中探讨了这一问题,该书由Technics Publications出版。

什么是星型图和雪花图?

在讨论Unified Star Schema之前,让我们看一下星型模式本身。

星型模式是最简单的尺寸建模形式。该模式由事实和维度组成。事实以事件为中心,而维度则引用与事实有关的信息。维度以类似于星型的方式与事实相关。

此外,雪花模式将维度与其他维度相关联并继续分支。Puppini认为,当数据没有问题时,雪花模式最适合。

他说:“但数据总是有问题。“

Unified Star Schema的好处

Puppini说:“当你将数据写入数据库时​​,它是按某种方式组织。但是当你阅读它,最好以一种不同的方式组织它。”

对于最终用户而言,星型和雪花模式的主要挑战是,企业用户在寻找见解方面缺乏独立性。为了使用此类数据仓库模式设计对数据执行复杂查询,最终用户需要数据工程师手动关联数据表。Puppini说,这就像每次需要一杯水时都叫水管工一样。此外,当关联不兼容表时,整合将事实表与联接通常会导致重复数据。

他说,数据重复的核心问题是扇形陷阱。当两个或多个一对多联接链接时,就会发生扇形陷阱。这会与数据产生冲突,从而导致数据重复。从历史上看,这是通过手动重复数据删除或这些临时连接解决。

Unified Star Schema的关键是连接事实表的桥接。在书中,Puppini将桥接与电话总机进行比较。在Unified Star Schema中,桥接处于中心位置,所有事实表和维度表围绕它,每个表都连接到该桥接。然后,这限制了对数据的转换次数。

Puppini说:“现在的数据仓库问题是它们不堪重负,正在过度转换。”

通过使用桥接并执行联合而不是联接,这使用户可以访问数据而无需进行转换。

他说:“你转换数据越多,你就越会陷入混乱。我只是采取最少步骤以将信息整合在一起。”

请点击此处查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰写的《The Unified Star Schema》的摘录,以了解有关Unified Star Schema的部署和用例的更多信息。

【责任编辑:赵宁宁 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

数据湖与数据仓库的分析实践攻略

数据湖与数据仓库的分析实践攻略

助力现代化数据管理:数据湖与数据仓库的分析实践攻略
共3章 | 创世达人

1人订阅学习

云原生架构实践

云原生架构实践

新技术引领移动互联网进入急速赛道
共3章 | KaliArch

30人订阅学习

数据中心和VPDN网络建设案例

数据中心和VPDN网络建设案例

漫画+案例
共20章 | 捷哥CCIE

207人订阅学习

视频课程+更多

AD活动目录管理 - 理论与实战

AD活动目录管理 - 理论与实战

讲师:杰森洋58506人学习过

鸿蒙手机应用开发入门(Java)

鸿蒙手机应用开发入门(Java)

讲师:钟洪发944人学习过

架构之路

架构之路

讲师:王军伟3122人学习过

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微