大数据分析 - 方法论

  • 简述

    在方法论方面,大数据分析与传统的实验设计统计方法有很大不同。分析始于数据。通常,我们以解释响应的方式对数据进行建模。这种方法的目标是预测响应行为或了解输入变量如何与响应相关。通常在统计实验设计中,会开发一个实验并检索数据作为结果。这允许以统计模型可以使用的方式生成数据,其中某些假设成立,例如独立性、正态性和随机化。
    在大数据分析中,我们会看到数据。我们无法设计一个满足我们最喜欢的统计模型的实验。在分析的大规模应用中,仅仅为了清理数据就需要大量的工作(通常是 80% 的工作量),因此它可以被机器学习模型使用。
    在真正的大规模应用中,我们没有独特的方法可以遵循。通常,一旦定义了业务问题,就需要一个研究阶段来设计要使用的方法。然而,一般指南是相关的,需要提及并适用于几乎所有问题。
    大数据分析中最重要的任务之一是statistical modeling, 表示有监督和无监督的分类或回归问题。一旦数据被清理和预处理,可用于建模,应注意评估具有合理损失指标的不同模型,然后一旦模型实施,应报告进一步的评估和结果。预测建模中的一个常见缺陷是只实现模型而不测量其性能。