数据挖掘 - 问题

  • 简述

    数据挖掘不是一件容易的事,因为使用的算法可能会变得非常复杂,而且数据并不总是在一个地方可用。它需要从各种异构数据源集成。这些因素也会产生一些问题。在本教程中,我们将讨论有关的主要问题 -
    • 挖掘方法和用户交互
    • 性能问题
    • 不同的数据类型问题
    下图描述了主要问题。
    数据挖掘问题
  • 挖掘方法和用户交互问题

    它指的是以下类型的问题 -
    • 在数据库中挖掘不同类型的知识− 不同的用户可能对不同种类的知识感兴趣。因此,数据挖掘有必要涵盖广泛的知识发现任务。
    • 多层次抽象知识的交互式挖掘− 数据挖掘过程需要是交互式的,因为它允许用户集中搜索模式,根据返回的结果提供和细化数据挖掘请求。
    • 结合背景知识− 为了指导发现过程并表达发现的模式,可以使用背景知识。背景知识不仅可以用简洁的术语来表达发现的模式,而且可以用多个抽象层次来表达。
    • 数据挖掘查询语言和即席数据挖掘− 允许用户描述即席挖掘任务的数据挖掘查询语言应与数据仓库查询语言集成,并针对高效灵活的数据挖掘进行优化。
    • 数据挖掘结果的呈现和可视化− 一旦发现模式,就需要用高级语言和视觉表示来表达它。这些表示应该很容易理解。
    • 处理嘈杂或不完整的数据− 在挖掘数据规律的同时,需要数据清洗方法来处理噪声和不完整的对象。如果没有数据清理方法,那么发现模式的准确性就会很差。
    • 模式评估− 发现的模式应该很有趣,因为它们要么代表常识,要么缺乏新颖性。
  • 性能问题

    可能存在与性能相关的问题,如下所示 -
    • 数据挖掘算法的效率和可扩展性− 为了有效地从数据库中的海量数据中提取信息,数据挖掘算法必须高效且可扩展。
    • 并行、分布式和增量挖掘算法− 数据库规模庞大、数据分布广泛、数据挖掘方法复杂等因素推动了并行和分布式数据挖掘算法的发展。这些算法将数据分成多个分区,这些分区以并行方式进一步处理。然后合并来自分区的结果。增量算法无需从头开始再次挖掘数据即可更新数据库。
  • 不同的数据类型问题

    • 处理关系和复杂类型的数据− 数据库可能包含复杂的数据对象、多媒体数据对象、空间数据、时间数据等。一个系统不可能挖掘所有这些数据。
    • 从异构数据库和全球信息系统中挖掘信息− 数据可在 LAN 或 WAN 上的不同数据源获得。这些数据源可以是结构化的、半结构化的或非结构化的。因此,从他们那里挖掘知识给数据挖掘带来了挑战。