Python - 数据科学之测量方差

  • 简述

    在统计学中,方差是衡量数据集中的值与平均值相差多远的量度。换句话说,它表示值的分散程度。它是通过使用标准偏差来衡量的。另一种常用的方法是偏度。
    这两个都是通过使用 pandas 库中可用的函数来计算的。
  • 测量标准偏差

    标准差是方差的平方根。方差是数据集中值与平均值的平方差的平均值。在 python 中,我们使用 pandas 库中的函数 std() 来计算这个值。
    
    import pandas as pd
    #Create a Dictionary of series
    d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
       'Lee','Chanchal','Gasper','Naviya','Andres']),
       'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
       'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
    #Create a DataFrame
    df = pd.DataFrame(d)
    # Calculate the standard deviation
    print df.std()
    
    它的输出如下 -
    
    Age       7.265527
    Rating    0.661628
    dtype: float64
    
  • 测量偏度

    它用于确定数据是对称的还是倾斜的。如果索引介于 -1 和 1 之间,则分布是对称的。如果索引不超过-1,则向左倾斜,如果至少为1,则向右倾斜
    
    import pandas as pd
    #Create a Dictionary of series
    d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
       'Lee','Chanchal','Gasper','Naviya','Andres']),
       'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
       'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
    #Create a DataFrame
    df = pd.DataFrame(d)
    print df.skew()
    
    它的输出如下 -
    
    Age       1.443490
    Rating   -0.153629
    dtype: float64
    
    所以年龄等级的分布是对称的,而年龄的分布是向右倾斜的。