Los histogramas resumen visualmente la distribución de una variable numérica continua midiendo la frecuencia con la que determinados valores aparecen en el dataset. En un histograma, el eje x es una línea numérica que se ha dividido en rangos de números o bins. Para cada bin, se dibuja una barra en la que el ancho de la barra representa el rango del bin y la altura de la barra representa el número de puntos de datos incluidos en ese rango. Conocer la distribución de los datos es un paso importante en el proceso de exploración de esos datos.
Ejemplo
En el histograma siguiente se visualiza la distribución de la participación electoral en las elecciones de Estados Unidos de 2016.
- Número: participación electoral
- Superposiciones: valor medio, distribución normal
Datos
Las configuraciones de Datos incluyen la variable que se utiliza para crear un histograma, el número de bins y las estadísticas que se muestran en el gráfico.
Variable
Los histogramas requieren una variable Número continua en el eje x.
Algunos métodos analíticos requieren que los datos se distribuyan normalmente. Cuando los datos están sesgados (la distribución es asimétrica), puede transformar los datos para que sean normales. Puede aplicar transformaciones al gráfico con el parámetro Con transformación. Las transformaciones pueden ser logarítmicas o de raíz cuadrada.
Sugerencia:
Como referencia, puede agregar una superposición de distribución normal al histograma seleccionando Distribución normal en Superposiciones.
Transformación logarítmica
La transformación logarítmica se usa normalmente si los datos tienen una distribución sesgada de forma positiva y algunos valores son grandes. Si estos valores grandes están en su dataset, puede utilizar la transformación logarítmica para que las varianzas sean más constantes y normalizar los datos.
Los siguientes ejemplos muestran la distribución de los votos totales en las elecciones de Estados Unidos de 2016. La primera imagen está sesgada de forma positiva y no tiene ninguna transformación aplicada. La segunda imagen tiene aplicada una transformación logarítmica que otorga al histograma una distribución más normal.
Imagen | Transformación |
---|---|
Ninguno | |
Logarítmico |
Nota:
Las transformaciones logarítmicas solo se pueden aplicar a números mayores que cero.
Transformación de raíz cuadrada
Una transformación de raíz cuadrada es similar a una transformación logarítmica en cuanto a que reduce el sesgo derecho de un dataset. A diferencia de las transformaciones logarítmicas, las transformaciones de raíz cuadrada se pueden aplicar a cero.
Nota:
Las transformaciones de raíz cuadrada solo se pueden aplicar a números mayores o iguales que cero.
Bins
El número de bins predeterminado es 32. Puede ajustarlo cambiando el valor de Bins en la pestaña Datos. Cambiar el número de bins permite ver más o menos detalle en la estructura de los datos.
Puede cambiar el color de los bins de un histograma con el parche de color situado junto a Color de bins.
Superposiciones
En los histogramas se calculan las siguientes estadísticas descriptivas y se muestran como líneas:
- Distribución normal: una curva con forma de campana utilizada para comparar los datos con una distribución normal
- Valor medio: una única línea vertical que indica el valor medio del dataset
- Mediana: una única línea vertical que indica la mediana del dataset
- Desviación estándar: dos líneas verticales que indican los valores de una desviación estándar por encima y por debajo de la media
Haga clic en la superposición para activarla o desactivarla. Puede cambiar el color de la línea mediante el parche de color junto a la estadística.
Puede activar las etiquetas con el parámetro Mostrar etiquetas de datos. Las etiquetas indican el recuento de valores para cada bin.
Estadísticas
Se enumeran las siguientes estadísticas para el campo numérico seleccionado:
- Valor medio
- Medium
- Desviación estándar
- Filas
- Recuento
- Mínimo
- Máximo
- Suma
- Nulos
Ejes
Las configuraciones de Ejes se utilizan para cambiar las especificaciones del eje x y del eje y.
Puede formatear el modo en que los ejes x e y muestran valores numéricos especificando el número de posiciones decimales y si se incluye un separador de miles.
Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Puede personalizar estos valores escribiendo un valor de Límites máximos. Configure un límite del eje y para mantener la coherencia de la escala de su gráfico para la comparación. Haga clic en el botón Restablecer para revertir el límite de eje al valor predeterminado.
Guías
Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Las guías se agregan al eje y haciendo clic en el botón Agregar guía.
Para crear una línea de guía, introduzca un valor de Inicio donde desee que se dibuje la línea. Para crear un rango de guía, introduzca un valor de Inicio y un valor de Fin. También puede cambiar la apariencia de la línea o el rango de guía. Para las líneas, es posible actualizar el estilo, el ancho y el color. En el caso de los rangos, es posible actualizar el color de relleno.
Si lo desea, puede cambiar el nombre de la guía con el parámetro Nombre de guía y agregar texto a la guía con el parámetro Etiqueta de guía (por ejemplo, Mediana).
Puede elegir si la guía se renderiza por encima del gráfico o por debajo del gráfico usando los botones Por encima y Por debajo del parámetro Renderizar.
Formato
Puede configurar la apariencia del gráfico cambiando el formato de los elementos de texto y símbolo. Entre las opciones para aplicar formato al gráfico se incluyen las siguientes:
- Elementos de texto: tamaño, color y estilo de la fuente utilizada para el título del gráfico, título del eje x, título del eje y, título de la leyenda, texto de descripción, texto de leyenda, etiquetas de ejes y etiquetas de datos. Puede cambiar el formato de varios elementos a la vez pulsando Ctrl y haciendo clic para seleccionar los elementos.
- Elementos de símbolo: color, ancho y estilo (Sólido, Punto o Guion) para la cuadrícula y las líneas de eje y el color de fondo del gráfico.
General
Los títulos predeterminados para los gráficos y los ejes se basan en los nombres de variable y el tipo de gráfico. Puede editar o desactivar los títulos en la pestaña General. También puede proporcionar un título en el parámetro Título de leyenda y una descripción del gráfico en el parámetro Descripción. Una descripción es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.
Recursos
Utilice estos recursos para obtener más información sobre los gráficos:
- Configurar gráficos
- Configurar elementos emergentes para agregar gráficos