数据仓库 - OLAP

  • 简述

    联机分析处理服务器 (OLAP) 基于多维数据模型。它允许经理和分析师通过快速、一致和交互式的信息访问来深入了解信息。本章介绍了OLAP的类型、OLAP上的操作、OLAP的区别以及统计数据库和OLTP。
  • OLAP 服务器的类型

    我们有四种类型的 OLAP 服务器 -
    • 关系型 OLAP(ROLAP)
    • 多维联机分析处理 (MOLAP)
    • 混合 OLAP (HOLAP)
    • 专门的 SQL 服务器
  • 关系型 OLAP

    ROLAP 服务器位于关系后端服务器和客户端前端工具之间。为了存储和管理仓库数据,ROLAP 使用关系型或扩展关系型 DBMS。
    ROLAP 包括以下内容 -
    • 聚合导航逻辑的实现。
    • 每个 DBMS 后端的优化。
    • 额外的工具和服务。
  • 多维 OLAP

    MOLAP 使用基于数组的多维存储引擎来处理数据的多维视图。对于多维数据存储,如果数据集稀疏,存储利用率可能会很低。因此,许多 MOLAP 服务器使用两级数据存储表示来处理密集和稀疏数据集。
  • 混合 OLAP

    混合 OLAP 是 ROLAP 和 MOLAP 的组合。它提供了更高的 ROLAP 可扩展性和更快的 MOLAP 计算。HOLAP 服务器允许存储大量详细信息的数据。聚合单独存储在 MOLAP 存储中。
  • 专门的 SQL 服务器

    专门的 SQL 服务器为只读环境中星形和雪花模式的 SQL 查询提供高级查询语言和查询处理支持。
  • OLAP 操作

    由于 OLAP 服务器基于多维数据视图,我们将讨论多维数据中的 OLAP 操作。
    这是 OLAP 操作的列表 -
    • Roll-up
    • Drill-down
    • Slice and dice
    • Pivot (rotate)

    Roll-up

    汇总以下列任何方式对数据立方体执行聚合 -
    • 通过向上攀登维度的概念层次结构
    • 通过降维
    下图说明了汇总的工作原理。
    Roll-up
    • 汇总是通过爬升维度位置的概念层次结构来执行的。
    • 最初的概念层次是“街道 < 城市 < 省 < 国家”。
    • 在汇总时,通过将位置层次结构从城市级别提升到国家级别来汇总数据。
    • 数据按城市而非国家分组。
    • 执行汇总时,数据立方体中的一个或多个维度将被删除。

    Drill-down

    Drill-down是Roll-up的逆操作。它通过以下任一方式执行 -
    • 通过降低维度的概念层次结构
    • 通过引入一个新的维度。
    下图说明了Drill-down的工作原理 -
    Drill-down
    • 通过逐步降低维度时间的概念层次结构来执行Drill-down。
    • 最初,概念层次结构是“日 < 月 < 季度 < 年”。
    • Drill-down时,时间维度从季度级别下降到月份级别。
    • 执行Drill-down时,会添加数据立方体中的一个或多个维度。
    • 它将数据从不太详细的数据导航到非常详细的数据。

    Slice

    切Slice操作从给定的立方体中选择一个特定的维度并提供一个新的子立方体。考虑下图,它显示了 slice 是如何工作的。
    Slice
    • 这里使用标准时间 =“Q1”对维度“时间”执行切Slice。
    • 它将通过选择一个或多个维度来形成一个新的子立方体。

    Dice

    Dice 从给定的立方体中选择两个或多个维度,并提供一个新的子立方体。考虑以下显示Dice操作的图表。
    Dice
    基于以下选择标准对立方体的Dice操作涉及三个维度。
    • (位置=“多伦多”或“温哥华”)
    • (时间 =“Q1”或“Q2”)
    • (item = "手机" 或 "调制解调器")

    Pivot

    Pivot 操作也称为旋转。它旋转视图中的数据轴,以提供替代的数据表示。请考虑下图,其中显示了Pivot 轴操作。
    Pivot
  • OLAP 与 OLTP

    序号 数据仓库 (OLAP) 操作数据库 (OLTP)
    1 涉及信息的历史处理。 涉及日常处理。
    2 OLAP 系统被知识工作者使用,例如执行官、经理和分析师。 OLTP 系统由文员、DBA 或数据库专业人员使用。
    3 有助于分析业务。 对经营业务很有用。
    4 它侧重于信息输出。 它专注于数据。
    5 基于 Star Schema、Snowflake、Schema 和 Fact Constellation Schema。 基于实体关系模型。
    6 包含历史数据。 包含当前数据。
    7 提供汇总和合并的数据。 提供原始和高度详细的数据。
    8 提供数据的汇总和多维视图。 提供数据的详细和平面关系视图。
    9 数量或用户以数百为单位。 用户数以千计。
    10 访问的记录数以百万计。 访问的记录数以十为单位。
    11 数据库大小从 100 GB 到 1 TB 数据库大小从 100 MB 到 1 GB。
    12 高度灵活。 提供高性能。