箱形图

箱形图允许您通过其四分位数来显示和比较数值的分布与集中趋势。 四分位数是基于五个关键值(最小值、第一四分位数、中值、第三四分位数和最大值)将数值分为四个相等组的方法。 箱形图使用百分位数计算来确定四分位数值。 例如,第一个四分位数等于第 25 百分位数。

下图的方框部分显示数据值中间 50% 的数据,也称为四分位距 (IQR)。 描绘数据值中值的线,将方框一分为二。 IQR 可表明一组值的差异。 IQR 较大,表示值散布的范围较大;而 IQR 较小,则表示大多数值都落在中心附近。 箱形图还可显示介于须线或线内但延伸到方框外的最小和最大数据值以及异常值,即超出须线的点(视情况而定)。

箱形图逻辑示意图

示例

下面的箱形图显示了从 1800 年到 2040 年每个大洲的预期寿命分布,增量为 20 年。

  • 数值字段 -Life expectancy
  • 类别 -Year
  • 分割依据 -Continent
  • 显示异常值 - 启用
按大洲的预期寿命投票箱形图

数据

数据选项卡 数据 配置包括用于创建箱形图的变量。

变量

箱形图由 (x) 轴和 (y) 轴组成。 在 x 轴上,每个方框对应给一个类别或数值变量。 y 轴用于测量一组数字中的最小值、第一四分位数、中值、第三四分位数和最大值。

可以使用箱形图可视化一个或多个分布。 要显示单个分布,添加一个数值字段变量。 这将生成包含一个箱形图的图表,用于显示所选数值属性的分布。

可以添加其他数值字段变量以比较来自表中不同属性字段的多个分布。 例如,在县数据集中,可将 Population2010Population2015 作为数值字段变量添加。 生成的图表将显示两个箱形图,分别用于显示数据集中所有县的 Population2010Population2015 的分布。

如果根据多个数值字段创建箱形图,则默认情况下将应用 z 得分标准化。 标准化可使不同单位的数值变量具有可比性。

例如,如果没有标准化,则用于比较收入分布(值以万为单位)和失业率(值范围介于 0 和 1.0 之间)的箱形图将难以理解,因为失业率值比收入值小很多。

属性值的标准化涉及 Z 变换,即从每个值中减去所有值的平均值然后除以所有值的标准差。 z 得分标准化可将所有属性置于同一比例中,允许在同一图表中显示多个分布。 要改为显示原始值,关闭标准化值(z 得分)

当仅添加单个数值字段变量时,可以添加类别变量作为比较不同类别的分布的方法。 例如,对于县数据集,Population2010 设置为数值字段变量,StateName 设置为类别变量。 所生成的图表将显示每个州的箱形图,用于可视化每个州所辖各县的 Population2010 的分布情况。

多个系列

可使用多系列箱形图比较不同类型的分布或按不同类别进行比较。

要创建多系列箱形图,可通过指定一个类别字段和多个数值字段,或通过指定分割依据类别字段。

当使用一个类别变量与多个数值字段变量时,添加到系列表中的每个数值字段将创建一个系列。 例如,在县数据集中,StateName 设置为类别变量,Population2010Population2015Population2020 设置为数值字段变量。 所生成图表的 x 轴使用州作为类别,每个州具有三个系列(Population2010Population2015Population2020)。

或者,可添加分割依据变量,用于进一步划分数据并创建多个系列。 例如,对于县数据集,Population2010 设置为数值字段变量,StateName 设置为类别变量,ElectionWinner 设置为分割依据字段。 生成的图表将针对每个州并排显示两个箱形图(共 100 个箱形图),分别显示 ElectionWinner 值为 Democrat 的每个州所有县以及 ElectionWinner 值为 Republican 的每个州所有县的 Population2010 分布情况。

当使用多个数值字段变量而不是一个类别变量时,还可以使用分割依据字段。 例如,对于县数据集,Population2010Population2015Population2020 设置为数值字段变量,ElectionWinner 设置为分割依据字段。 所生成的图表沿 x 轴显示三个数值字段变量(Population2010Population2015Population2020),每个字段包含两个并排的箱形图,分别显示 ElectionWinner 值为 Democrat 的所有县以及 ElectionWinner 值为 Republican 的所有县的分布情况。

异常值

通过启用显示异常值,您可以将异常值显示为超出须线的点。 如果未启用,须线会延伸至包含所有数据点。

排序顺序

箱形图按类别的字母数字顺序自动排序(X 轴升序)。 排序顺序可使用排序顺序参数进行更改。 下列排序选项适用于箱形图:

  • X 轴升序 - 类别按字母数字顺序从左到右排列。
  • X 轴降序 - 类别按反向字母数字顺序排列。
  • 平均值升序 - 方框按平均值统计数据以升序进行排列。
  • 平均值降序 - 方框按平均值统计数据以降序进行排列。
  • 中值升序 - 方框按中值统计数据以升序进行排列。
  • 中值降序 - 方框按中值统计数据以降序进行排列。

系列

系列选项卡 系列 配置用于更改箱形图上方框的颜色和标注。

选项卡 轴 配置用于更改 x 轴和 y 轴的技术参数。

X 轴

默认情况下,类别标注将被截断为 11 个字符。 标注被截断时,可通过将鼠标悬停在标注上方来查看全文。 要在图表上显示整个标注文本,请增加标注字符限制值。

Y 轴

默认的 y 轴边界基于 y 轴上表示的数据值范围设置。 您可以通过输入下限上限值来自定义这些值。 设置 y 轴边界来使图表比例保持一致,以便进行比较。 单击重置按钮,以将轴边界恢复为默认值。

您可以通过指定小数位数和是否包括千位分隔符来设置 y 轴数值的显示格式。

参考线

参考线选项卡 参考线 配置用于向图表添加参考线或参考线范围。

可以向图表中添加参考线或范围作为参考或用以突出重要值。 单击添加参考线按钮可将参考线添加到 y 轴。

要创建参考线,输入线绘制位置的起始值。 要创建参考线范围,输入起始值和结束值。 您还可以更改参考线的外观或范围。 对于线,可以更新样式、宽度和颜色。 对于范围,可以更新填充颜色。

您可以使用参考线名称参数更改参考线的名称,也可以使用参考线标注参数(例如中值)向参考线添加文本。

您可以使用显示参数中的前面背面按钮选择参考线在图表的前面还是背面渲染。

格式

格式选项卡 格式 配置用于通过格式化文本和符号元素更改图表外观。

图表格式化选项包括以下内容:

  • 文本元素 - 图表标题、x 轴标题、y 轴标题、图例标题、描述文本、图例文本、轴标注和数据标注所使用的字体的大小、颜色和样式。 您可以在按住 Ctrl 的同时进行单击来选择多个元素,从而一次性更改多个元素的格式。
  • 符号元素 - 格网和轴线的颜色、宽度和样式(实线虚线)以及图表的背景颜色。

常规

常规选项卡 常规 配置用于更新图表、轴和图例的标题。

图表和轴的默认标题基于变量名称和图表类型。 您可以在常规选项卡上编辑或关闭标题。 还可以在图例标题参数中提供标题。 可以将图例对齐设置为。 还可以在描述参数中添加图表描述。 描述是显示在图表窗口底部的文本块。

资源

要了解有关图表的详细信息,请使用以下资源: