箱线图是一种直观的数据可视化工具。它由一个箱体和两条须组成,箱体上下边界分别对应数据的上四分位数和下四分位数,中间线为中位数。上下须一般延伸至不超过特定范围的数据点,超出范围的点被视为异常值。箱线图能清晰展示数据的分布特征,如集中趋势、离散程度和对称性。通过箱体长度可判断数据集中程度,短则集中,长则分散。须的长度反映数据范围。还可比较不同组数据,多组箱线图放在一起能直观看出差异。同时,它能快速识别异常值,帮助分析数据中特殊情况的原因,以便决定是否处理。总之,箱线图在数据分析中作用显著。
0x01 使用boxplot()函数
一、函数用法及参数说明
boxplot(x,...)
1.
x
:必选参数,要绘制箱线图的数据。
2.names
:一个字符向量,用于指定每个箱线图的名称。
3.main
:设置图形的标题。
4.xlab
:设置 x 轴的标签。
5.ylab
:设置 y 轴的标签。
6.col
:设置箱线图的颜色。
7.horizontal
:逻辑值,设置箱线图是否为水平方向。默认值为FALSE
(垂直方向),设置为TRUE
则为水平方向。
8.outline
:逻辑值,设置是否绘制离群点。默认值为TRUE
,如果设置为FALSE
,则不绘制离群点。
9.notch
:逻辑值,设置是否绘制带缺口的箱线图。如果设置为TRUE
,则绘制带缺口的箱线图,缺口表示中位数的置信区间。默认值为FALSE
。
10.varwidth:逻辑值,用于控制箱线图的箱子宽度是否与样本大小成比例。默认FLASE所有箱体宽度相同,TRUE表示样本量大小作为其相对宽度。
二、数据准备
这里作为演示,我们使用R语言中的内置数据mtcars
作为演示,该数据集来自 1974 年的《Motor Trend》美国杂志,包含了 32 辆汽车(1973 - 1974 年车型)的燃油消耗以及汽车设计和性能的 10 个方面的数据。
三、绘制基本的箱线图
#以 cyl(气缸数量)作为分组变量,对 mpg(每加仑英里数)进行分组绘制箱线图。
boxplot(mpg~cyl,data = mtcars)
四、美化和调整
boxplot