数据挖掘 - 聚类分析

  • 简述

    簇是属于同一类的一组对象。换句话说,相似的对象被分组在一个簇中,而不同的对象被分组在另一个簇中。
  • 什么是聚类?

    聚类是将一组抽象对象变成类似对象的类的过程。
    Points to Remember
    • 可以将一组数据对象视为一个组。
    • 在进行聚类分析时,我们首先根据数据相似性将数据集划分为组,然后将标签分配给组。
    • 与分类相比,聚类的主要优势在于,它可以适应变化并帮助挑选出区分不同组的有用特征。
  • 聚类分析的应用

    • 聚类分析广泛用于许多应用,例如市场研究、模式识别、数据分析和图像处理。
    • 聚类还可以帮助营销人员在其客户群中发现不同的群体。他们可以根据购买模式来描述他们的客户群。
    • 在生物学领域,它可用于推导植物和动物分类学,对具有相似功能的基因进行分类,并深入了解种群固有的结构。
    • 聚类还有助于在地球观测数据库中识别类似土地利用的区域。它还有助于根据房屋类型、价值和地理位置识别城市中的房屋组。
    • 聚类还有助于对 Web 上的文档进行分类以进行信息发现。
    • 聚类也用于异常值检测应用,例如信用卡欺诈检测。
    • 作为一种数据挖掘功能,聚类分析是一种深入了解数据分布以观察每个聚类特征的工具。
  • 数据挖掘中聚类的要求

    以下几点阐明了为什么在数据挖掘中需要聚类 -
    • Scalability− 我们需要高度可扩展的聚类算法来处理大型数据库。
    • Ability to deal with different kinds of attributes− 算法应该能够应用于任何类型的数据,例如基于区间的(数值)数据、分类数据和二进制数据。
    • Discovery of clusters with attribute shape− 聚类算法应该能够检测任意形状的聚类。它们不应仅限于倾向于找到小尺寸球形簇的距离度量。
    • High dimensionality− 聚类算法不仅要能够处理低维数据,还要能够处理高维空间。
    • Ability to deal with noisy data− 数据库包含嘈杂、缺失或错误的数据。一些算法对此类数据很敏感,可能会导致聚类质量不佳。
    • Interpretability− 聚类结果应该是可解释的、可理解的和可用的。
  • 聚类方法

    聚类方法可以分为以下几类 -
    • 分区方法
    • 分层法
    • 基于密度的方法
    • 基于网格的方法
    • 基于模型的方法
    • 基于约束的方法

    分区方法

    假设我们有一个包含“n”个对象的数据库,并且分区方法构造了“k”个数据分区。每个分区将代表一个集群,并且 k ≤ n。这意味着它将数据分为 k 组,满足以下要求 -
    • 每个组至少包含一个对象。
    • 每个对象必须恰好属于一个组。
    Points to remember −
    • 对于给定数量的分区(比如 k),分区方法将创建一个初始分区。
    • 然后它使用迭代重定位技术通过将对象从一组移动到另一组来改进分区。

    分层方法

    此方法创建给定数据对象集的分层分解。我们可以根据层次分解的形成方式对层次方法进行分类。这里有两种方法 -
    • 凝聚法
    • 分裂的方法

    凝聚法

    这种方法也称为自下而上的方法。在此,我们从每个对象开始形成一个单独的组。它不断合并彼此靠近的对象或组。它继续这样做,直到所有组合并为一个或直到终止条件成立。

    分裂的方法

    这种方法也称为自上而下的方法。在此,我们从同一个集群中的所有对象开始。在连续迭代中,一个集群被分成更小的集群。直到一个集群中的每个对象或终止条件成立,它才会停止。这种方法是刚性的,即一旦合并或拆分完成,就永远无法撤消。

    提高层次聚类质量的方法

    以下是用于提高层次聚类质量的两种方法 -
    • 在每个分层分区中仔细分析对象链接。
    • 集成层次凝聚,首先使用层次凝聚算法将对象分组为微簇,然后对微簇进行宏观聚类。

    基于密度的方法

    该方法基于密度的概念。基本思想是只要邻域中的密度超过某个阈值,就继续增长给定的集群,即对于给定集群内的每个数据点,给定集群的半径必须包含至少最小数量的点。

    基于网格的方法

    在这种情况下,对象一起形成一个网格。对象空间被量化为形成网格结构的有限数量的单元。
    Advantages
    • 这种方法的主要优点是处理时间快。
    • 它仅取决于量化空间中每个维度的单元数。

    基于模型的方法

    在这种方法中,为每个集群假设一个模型,以找到给定模型的最佳数据拟合。该方法通过对密度函数进行聚类来定位聚类。它反映了数据点的空间分布。
    该方法还提供了一种基于标准统计数据自动确定聚类数量的方法,同时考虑到异常值或噪声。因此,它产生了强大的聚类方法。

    基于约束的方法

    在这种方法中,聚类是通过结合用户或面向应用的约束来执行的。约束是指用户期望或期望的聚类结果的属性。约束为我们提供了一种与聚类过程进行交互的交互方式。约束可以由用户或应用程序要求指定。