数据挖掘 - 贝叶斯分类

  • 简述

    贝叶斯分类基于贝叶斯定理。贝叶斯分类器是统计分类器。贝叶斯分类器可以预测类成员概率,例如给定元组属于特定类的概率。
  • 贝叶定理

    贝叶斯定理以托马斯贝叶斯命名。有两种类型的概率 -
    • 后验概率 [P(H/X)]
    • 先验概率 [P(H)]
    其中 X 是数据元组,H 是一些假设。
    根据贝叶斯定理,
    P(H/X) = P(X/H)P(H) / P(X)
  • 贝叶斯信念网络

    贝叶斯信念网络指定联合条件概率分布。它们也被称为信念网络、贝叶斯网络或概率网络。
    • 信念网络允许在变量子集之间定义类条件独立性。
    • 它提供了一个因果关系的图形模型,可以在其上进行学习。
    • 我们可以使用经过训练的贝叶斯网络进行分类。
    有两个组件定义了贝叶斯信念网络 -
    • 有向无环图
    • 一组条件概率表
  • 有向无环图

    • 有向无环图中的每个节点代表一个随机变量。
    • 这些变量可以是离散的或连续的值。
    • 这些变量可能对应于数据中给出的实际属性。
  • 有向无环图表示

    下图显示了六个布尔变量的有向无环图。
    无环图
    图中的弧线可以表示因果知识。例如,肺癌受一个人的肺癌家族史以及该人是否吸烟的影响。值得注意的是,变量 PositiveXray 与患者是否有肺癌家族史或患者是否吸烟无关,因为我们知道患者患有肺癌。
  • 条件概率表

    显示其父节点、FamilyHistory (FH) 和 Smoker (S) 的值的每个可能组合的变量 LungCancer (LC) 值的条件概率表如下 -
    概率表