第一部分:箱型图的含义
箱型图(Box Plot),也叫盒须图,是一种显示数据分布情况的图形工具。它直观地展示了数据的分散性、中心趋势以及异常值。箱型图通过几个关键统计量帮助理解数据的分布:第一四分位数、第三四分位数、中位数、最大值、最小值、上限、下限和异常值。
箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。
同时,利用箱型图无需数据服从正态分布
第二部分:箱型图的组成与计算
从上面这个图就能够看出来,对应大的异常值和小的异常值均不会被统计在内,就好比要研究一个小村庄里的人均收入,不小心马云从中进过,把马云也算进去了,那数据价格会出现巨大的变动,而马云在这里就叫做异常值。
第三部分:箱型图的实现
(1)示例
求解“学生成绩表.xlsx”中,“语文”,“数学”,“英语”成绩的箱型图数据分布,以显现其数据的分布状态。
(2)箱型图绘制代码
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import mpl
import numpy as np
# 设置中文显示字体
mpl.rcParams["font.sans-serif"] = ["Sim