直方图

通过测量某些值在数据集中显示的频数,直方图直观地概述了连续型数字变量的分布。 直方图中的 x 轴 是一个数字行,该行已被拆分成数字范围或条柱。 对每个条柱而言,已绘制相应的条,其中条的宽度表示条柱范围,条的高度表示落入此范围内的数据点数。 了解数据分布是数据探索过程中的一个重要步骤。

示例

以下直方图可对 2016 年美国大选的投票率分布进行可视化。

  • 数字 - 投票率
  • 叠加 - 平均值,正态分布
2016 年美国大选投票率直方图

数据

数据配置包括用于创建直方图的变量、条柱数量和图表上显示的统计数据。

变量

直方图需要 x 轴上的一个连续数字变量。

某些分析方法需要呈正态分布的数据。 如果数据偏斜(分布不均衡),则可以将数据变换为正态分布。 您可以使用存在变换参数将变换应用于图表。 变换可以是对数变换或平方根变换。

提示:

对于参考,可以通过选中叠加下的正态分布向直方图添加一个正态分布叠加。

对数变换

对数变换通常用于呈正偏分布的数据,其中有些值非常大。 如果这些大值位于数据集中,则可以使用对数变换来使方差更加恒定并会归一化数据。

以下示例显示了 2016 年美国大选的总投票分布。 第一张图像为正偏分布,且未应用任何变换。 第二个图像应用了对数变换,从而使直方图具有更为正态的分布。

有和没有对数变换的总投票直方图

图像变换
图像 1

图像 2

对数

注:

对数变换只能应用于大于零的数字。

平方根变换

平方根变换和对数变换类似,因为它会减少数据集的右偏度。 不同于对数变换的是,平方根变换可以应用于零。

注:

平方根变换只能应用于大于零的数字和零。

图格

默认条柱数量为 32。 您可通过更改数据选项卡上的条柱值来调整此项。 通过更改条柱数量,可在数据结构中查看或多或少的详细信息。

可使用条柱颜色旁边的颜色图面更改直方图的条柱颜色。

叠加

将计算以下描述性统计信息并将其在直方图上显示为线:

  • 正态分布 - 一种钟形曲线,用于将数据与正态分布进行比较
  • 平均值 - 一条垂直线,用于指示数据集的平均值
  • 中值 - 一条垂直线,用于指示数据集的中值
  • 标准差 - 两条垂直线,用于指示平均值以上和以下一个标准差的值。

单击叠加以将其打开或关闭。 可使用统计数据旁边的颜色图面更改线颜色。

您可以使用显示数据标注参数打开标注。 标注可指示每个条柱的值计数。

统计数据

系统将列出所选数值字段的以下统计数据:

  • 平均值
  • 标准差
  • 计数
  • 最小值
  • 最大值
  • 总和

配置用于更改 x 轴和 y 轴的技术参数。

您可以通过指定小数位数和是否包括千位分隔符来设置 x 和 y 轴数值的显示格式。

默认的 y 轴边界基于 y 轴上表示的数据值范围设置。 您可以通过输入边界最大值来自定义这些值。 设置 y 轴边界来使图表比例保持一致,以便进行比较。 单击重置按钮,以将轴边界恢复为默认值。

参考线

可以向图表中添加参考线或范围作为参考或用以突出重要值。 单击添加参考线按钮可将参考线添加到 y 轴。

要创建参考线,输入线绘制位置的起始值。 要创建参考线范围,输入起始值和结束值。 您还可以更改参考线的外观或范围。 对于线,可以更新样式、宽度和颜色。 对于范围,可以更新填充颜色。

您可以使用参考线名称参数更改参考线的名称,也可以使用参考线标注参数(例如中值)向参考线添加文本。

您可以使用渲染参数中的上方下方按钮选择参考线在图表的上方还是下方渲染。

格式化

可以通过格式化文本和符号元素来配置图表的外观。 图表格式化选项包括以下内容:

  • 文本元素 - 图表标题、x 轴标题、y 轴标题、图例标题、描述文本、图例文本、轴标注和数据标注所使用的字体的大小、颜色和样式。 您可以在按住 Ctrl 的同时进行单击来选择多个元素,从而一次性更改多个元素的格式。
  • 符号元素 - 格网和轴线的颜色、宽度和样式(实线虚线)以及图表的背景颜色。

常规

图表和轴的默认标题基于变量名称和图表类型。 您可以在常规选项卡上编辑或关闭标题。 您还可以在图例标题参数中提供标题,并在描述参数中提供图表描述。 描述是显示在图表窗口底部的文本块。