Python - 数据科学可视化之箱线图

  • 简述

    箱线图是衡量数据集中数据分布情况的指标。它将数据集分为三个四分位数。该图表示数据集中的最小值、最大值、中值、第一四分位数和第三四分位数。通过为每个数据集绘制箱线图来比较数据集的数据分布也很有用。
  • 绘制箱线图

    可以调用 Series.box.plot() 和 DataFrame.box.plot() 或 DataFrame.boxplot() 绘制箱线图,以可视化每列内的值分布。
    例如,这是一个箱线图,表示在 [0,1) 上对统一随机变量进行 10 次观察的 5 次试验。
    
    import pandas as pd
    import numpy as np
    df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
    df.plot.box(grid='True')
     
    它的output如下 -
    箱线图.png