大数据分析 - 问题定义

简述

通过本教程，我们将开发一个项目。本教程中的每个后续章节都处理小型项目部分中较大项目的一部分。这被认为是一个应用教程部分，它将提供对现实世界问题的了解。在这种情况下，我们将从项目的问题定义开始。

项目描述

该项目的目标是开发一个机器学习模型，以使用他们的简历 (CV) 文本作为输入来预测人们的时薪。

使用上面定义的框架，定义问题很简单。我们可以将X = {x ₁ , x ₂ , ..., x _n }定义为用户的 CV，其中每个特征可以用最简单的方式表示这个词出现的次数。然后响应是真正有价值的，我们试图以美元预测个人的时薪。

这两个考虑足以得出结论，提出的问题可以用监督回归算法来解决。

问题定义

问题定义可能是大数据分析管道中最复杂且被严重忽视的阶段之一。为了定义数据产品要解决的问题，经验是必须的。大多数有抱负的数据科学家在这个阶段几乎没有经验。

大多数大数据问题可以按以下方式分类 -

监督分类
监督回归
无监督学习
学习排名

现在让我们更多地了解这四个概念。

监督分类

给定一个特征矩阵X = {x ₁ , x ₂ , ..., x _n } ，我们开发了一个模型 M 来预测定义为y = {c ₁ , c ₂ , ..., c _n }的不同类别。例如：给定保险公司客户的交易数据，可以开发一个模型来预测客户是否会流失。后者是一个二元分类问题，其中有两个类或目标变量：churn 和 not churn。

其他问题涉及预测多个类别，我们可能对进行数字识别感兴趣，因此响应向量将定义为：y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}，最先进的模型将是卷积神经网络，特征矩阵将被定义为图像的像素。

监督回归

在这种情况下，问题定义与前面的示例非常相似；差异取决于响应。在回归问题中，响应 y ∈ ℜ，这意味着响应是实值的。例如，我们可以开发一个模型来根据个人简历的语料库来预测他们的时薪。

无监督学习

管理层通常渴望获得新的见解。细分模型可以提供这种洞察力，以便营销部门为不同的细分市场开发产品。开发分割模型而不是考虑算法的一种好方法是选择与所需分割相关的特征。

例如，在一家电信公司中，通过手机使用情况对客户进行细分是很有趣的。这将涉及忽略与分割目标无关的特征，而只包括那些与分割目标无关的特征。在这种情况下，这将选择特征作为一个月使用的短信数量、入站和出站分钟数等。

学习排名

这个问题可以被认为是一个回归问题，但它具有特殊的特点，值得单独处理。问题涉及给定一组文档，我们试图在给定查询的情况下找到最相关的排序。为了开发监督学习算法，需要在给定查询的情况下标记排序的相关性。

需要注意的是，为了开发监督学习算法，需要对训练数据进行标记。这意味着，为了训练一个能够识别图像中数字的模型，我们需要手动标记大量示例。有一些 Web 服务可以加快这个过程，并且通常用于这个任务，例如 amazon Mechanical turk。事实证明，当提供更多数据时，学习算法会提高其性能，因此在监督学习中标记大量示例实际上是强制性的。