问题定义
问题定义可能是大数据分析管道中最复杂且被严重忽视的阶段之一。为了定义数据产品要解决的问题,经验是必须的。大多数有抱负的数据科学家在这个阶段几乎没有经验。
大多数大数据问题可以按以下方式分类 -
现在让我们更多地了解这四个概念。
监督分类
给定一个特征矩阵X = {x 1 , x 2 , ..., x n } ,我们开发了一个模型 M 来预测定义为y = {c 1 , c 2 , ..., c n }的不同类别。例如:给定保险公司客户的交易数据,可以开发一个模型来预测客户是否会流失。后者是一个二元分类问题,其中有两个类或目标变量:churn 和 not churn。
其他问题涉及预测多个类别,我们可能对进行数字识别感兴趣,因此响应向量将定义为:y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},最先进的模型将是卷积神经网络,特征矩阵将被定义为图像的像素。
监督回归
在这种情况下,问题定义与前面的示例非常相似;差异取决于响应。在回归问题中,响应 y ∈ ℜ,这意味着响应是实值的。例如,我们可以开发一个模型来根据个人简历的语料库来预测他们的时薪。
无监督学习
管理层通常渴望获得新的见解。细分模型可以提供这种洞察力,以便营销部门为不同的细分市场开发产品。开发分割模型而不是考虑算法的一种好方法是选择与所需分割相关的特征。
例如,在一家电信公司中,通过手机使用情况对客户进行细分是很有趣的。这将涉及忽略与分割目标无关的特征,而只包括那些与分割目标无关的特征。在这种情况下,这将选择特征作为一个月使用的短信数量、入站和出站分钟数等。
学习排名
这个问题可以被认为是一个回归问题,但它具有特殊的特点,值得单独处理。问题涉及给定一组文档,我们试图在给定查询的情况下找到最相关的排序。为了开发监督学习算法,需要在给定查询的情况下标记排序的相关性。
需要注意的是,为了开发监督学习算法,需要对训练数据进行标记。这意味着,为了训练一个能够识别图像中数字的模型,我们需要手动标记大量示例。有一些 Web 服务可以加快这个过程,并且通常用于这个任务,例如 amazon Mechanical turk。事实证明,当提供更多数据时,学习算法会提高其性能,因此在监督学习中标记大量示例实际上是强制性的。