数据挖掘 - 任务 - 蝴蝶教程

简述

数据挖掘处理可以挖掘的模式类型。根据要挖掘的数据类型，数据挖掘涉及两类功能 -

描述性的
分类与预测

描述函数

描述性函数处理数据库中数据的一般属性。这是描述性函数的列表 -

类/概念描述
频繁模式挖掘
组合挖掘
相关性挖掘
集群挖掘

类/概念描述

类/概念是指与类或概念相关联的数据。例如，在一家公司中，销售商品的类别包括计算机和打印机，而客户的概念包括大手笔和预算手。这种对类或概念的描述称为类/概念描述。这些描述可以通过以下两种方式得出 -

数据表征− 是指对所研究班级的数据进行汇总。正在研究的这个类称为目标类。
数据区分− 它是指一个类与一些预定义的组或类的映射或分类。

频繁模式挖掘

频繁模式是那些在事务数据中频繁出现的模式。这是一种常见模式的列表 -

常见项目集− 指一组经常一起出现的物品，例如牛奶和面包。
频繁的后续事件− 一连串频繁出现的模式，如购买相机，紧随其后的是存储卡。
频繁子结构− 子结构是指不同的结构形式，如图形、树或格子，可以与项集或子序列组合。

组合挖掘

关联在零售销售中用于识别经常一起购买的模式。这个过程是指揭示数据之间的关系并确定关联规则的过程。

例如，零售商生成一个关联规则，显示 70% 的时间牛奶与面包一起出售，而饼干只有 30% 的时间与面包一起出售。

集群挖掘

簇是指一组类似的对象。聚类分析是指形成一组彼此非常相似但与其他聚类中的对象高度不同的对象。

分类与预测

分类是寻找描述数据类或概念的模型的过程。目的是能够使用该模型来预测类别标签未知的对象的类别。该派生模型基于对训练数据集的分析。派生模型可以以下列形式呈现 -

分类 (IF-THEN) 规则
决策树
数学公式
神经网络

这些过程中涉及的功能列表如下 -

分类− 它预测类别标签未知的对象类别。它的目标是找到一个描述和区分数据类或概念的派生模型。派生模型基于训练数据的分析集，即类标签众所周知的数据对象。
预言− 它用于预测缺失或不可用的数值数据值，而不是类标签。回归分析通常用于预测。预测还可用于根据可用数据识别分布趋势。
离群值分析− 异常值可定义为不符合可用数据的一般行为或模型的数据对象。
演化分析− 演化分析是指行为随时间变化的对象的描述和模型规律或趋势。

数据挖掘任务原语

我们可以以数据挖掘查询的形式指定数据挖掘任务。
该查询被输入到系统。
数据挖掘查询是根据数据挖掘任务原语定义的。

Note− 这些原语允许我们以交互方式与数据挖掘系统进行通信。这是数据挖掘任务原语的列表 -

要挖掘的一组任务相关数据。
需要挖掘的知识。
在发现过程中使用的背景知识。
模式评估的趣味性度量和阈值。
用于可视化发现的模式的表示。

要挖掘的任务相关数据集

这是用户感兴趣的数据库部分。这部分包括以下内容 -

数据库属性
感兴趣的数据仓库维度

需要挖掘的知识种类

它指的是要执行的功能的种类。这些功能是 -

表征
区分
关联和相关分析
分类
预言
聚类
异常值分析
进化分析

背景知识

背景知识允许在多个抽象层次上挖掘数据。例如，概念层次结构是允许在多个抽象级别上挖掘数据的背景知识之一。

模式评估的趣味性度量和阈值

这用于评估知识发现过程中发现的模式。对于不同种类的知识，有不同的有趣措施。

用于可视化发现的模式的表示

这是指将显示发现的模式的形式。这些陈述可能包括以下内容。-

规则
表
图表
图表
决策树
立方图