数据挖掘 - 挖掘 WWW

  • 简述

    万维网包含大量信息,为数据挖掘提供了丰富的资源。
  • Web 挖掘中的挑战

    基于以下观察,网络对资源和知识发现提出了巨大挑战 -
    • 网络太大了− 网络的规模非常庞大且迅速增长。这似乎网络对于数据仓库和数据挖掘来说太大了。
    • 网页的复杂性− 网页没有统一的结构。与传统的文本文档相比,它们非常复杂。网络数字图书馆中有大量的文档。这些库不是根据任何特定的排序顺序排列的。
    • Web是动态信息源− 网络信息更新迅速。新闻、股市、天气、体育、购物等数据定期更新。
    • 用户社区的多样性− 网络用户社区正在迅速扩大。这些用户具有不同的背景、兴趣和使用目的。有超过 1 亿台工作站连接到 Internet,并且还在快速增长。
    • 信息的相关性− 认为特定人通常只对网络的一小部分感兴趣,而网络的其余部分包含与用户无关的信息,可能会淹没所需的结果。
  • 挖掘网页布局结构

    网页的基本结构基于文档对象模型(DOM)。DOM 结构是指一种树状结构,其中页面中的 HTML 标记对应于 DOM 树中的一个节点。我们可以使用 HTML 中的预定义标签来分割网页。HTML 语法很灵活,因此网页不遵循 W3C 规范。不遵循 W3C 规范可能会导致 DOM 树结构错误。
    DOM 结构最初是为了在浏览器中呈现而引入的,而不是为了描述网页的语义结构。DOM 结构无法正确识别网页不同部分之间的语义关系。
  • 基于视觉的页面分割 (VIPS)

    • VIPS 的目的是根据网页的视觉呈现来提取网页的语义结构。
    • 这样的语义结构对应于树结构。在这棵树中,每个节点对应一个块。
    • 为每个节点分配一个值。该值称为相干度。基于视觉感知分配该值以指示块中的连贯内容。
    • VIPS 算法首先从 HTML DOM 树中提取所有合适的块。之后,它会找到这些块之间的分隔符。
    • 分隔符是指网页中的水平线或垂直线,它们在视觉上没有块状交叉。
    • 网页的语义是在这些块的基础上构建的。
    下图显示了 VIPS 算法的过程 -
    贵宾室