数据挖掘 - 评估

  • 数据仓库

    数据仓库具有以下特征以支持管理层的决策过程 -
    • 以主题为导向− 数据仓库是面向主题的,因为它为我们提供围绕主题的信息,而不是组织的持续运营。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库不关注正在进行的操作,而是关注数据的建模和分析以进行决策。
    • 集成的− 数据仓库是通过整合来自关系数据库、平面文件等异构来源的数据来构建的。这种整合增强了对数据的有效分析。
    • 时间变量− 数据仓库中收集的数据具有特定的时间段。数据仓库中的数据从历史的角度提供信息。
    • 非易失性− 非易失性意味着在添加新数据时不会删除之前的数据。数据仓库与操作数据库分开,因此操作数据库的频繁更改不会反映在数据仓库中。
  • 数据仓库

    数据仓库是构建和使用数据仓库的过程。通过整合来自多个异构源的数据来构建数据仓库。它支持分析报告、结构化和/或临时查询以及决策制定。
    数据仓库涉及数据清洗、数据集成和数据整合。为了集成异构数据库,我们有以下两种方法 -
    • 查询驱动方法
    • 更新驱动方法
  • 查询驱动的方法

    这是集成异构数据库的传统方法。这种方法用于在多个异构数据库之上构建包装器和集成器。这些集成器也称为调解器。

    查询驱动方法的过程

    • 当向客户端发出查询时,元数据字典将查询转换为查询,以适合所涉及的各个异构站点。
    • 现在这些查询被映射并发送到本地查询处理器。
    • 来自异构站点的结果被集成到一个全局答案集中。

    缺点

    这种方法有以下缺点 -
    • 查询驱动方法需要复杂的集成和过滤过程。
    • 对于频繁查询来说,效率非常低,成本也非常高。
    • 这种方法对于需要聚合的查询来说是昂贵的。
  • 更新驱动的方法

    今天的数据仓库系统遵循更新驱动的方法,而不是前面讨论的传统方法。在更新驱动的方法中,来自多个异构源的信息被预先集成并存储在一个仓库中。此信息可用于直接查询和分析。

    优点

    这种方法具有以下优点 -
    • 这种方法提供了高性能。
    • 数据可以提前在语义数据存储中进行复制、处理、集成、注释、汇总和重组。
    查询处理不需要与本地源的处理接口。
  • 从数据仓库 (OLAP) 到数据挖掘 (OLAM)

    Online Analytical Mining 将 Online Analytical Processing 与多维数据库中的数据挖掘和挖掘知识相结合。这是显示 OLAP 和 OLAM 集成的图表 -
    OLAP 到 OLAM
  • OLAM 的重要性

    OLAM 很重要,原因如下:
    • 数据仓库中的高质量数据− 数据挖掘工具需要处理集成、一致和清洁的数据。这些步骤在数据预处理中的成本非常高。通过这种预处理构建的数据仓库对于 OLAP 和数据挖掘来说也是宝贵的高质量数据来源。
    • 围绕数据仓库的可用信息处理基础架构− 信息处理基础设施是指访问、集成、整合和转换多个异构数据库、Web 访问和服务设施、报告和 OLAP 分析工具。
    • 基于 OLAP 的探索性数据分析− 有效数据挖掘需要探索性数据分析。OLAM 为各种数据子集和不同抽象级别的数据挖掘提供了便利。
    • 在线选择数据挖掘功能− OLAP 与多种数据挖掘功能集成,在线分析挖掘为用户提供了灵活选择所需数据挖掘功能和动态交换数据挖掘任务的能力。