Lenguaje estadístico-Medidas de propagación
¿Qué son las medidas de propagación?Las medidas de propagación describen cuán similar o variado es el conjunto de valores observados para una variable en particular (elemento de datos). Las medidas de propagación incluyen el rango, los cuartiles y el rango intercuartílico, la varianza y la desviación estándar.¿Cuándo podemos medir el spread?
La dispersión de los valores se puede medir para datos cuantitativos, ya que las variables son numéricas y se pueden organizar en un orden lógico con un valor final bajo y un valor final alto.¿Por qué medimos el spread?Resumir el conjunto de datos puede ayudarnos a comprender los datos, especialmente cuando el conjunto de datos es grande. Como se explica en la página Medidas de Tendencia Central, el modo, la mediana y la media resumen los datos en un solo valor que es típico o representativo de todos los valores del conjunto de datos, pero esto es solo una parte de la «imagen» que resume un conjunto de datos. Las medidas de propagación resumen los datos de una manera que muestra cuán dispersos son los valores y cuánto difieren del valor medio.
Por ejemplo:
El modo más frecuente de valor), la mediana (valor central*) y media (media aritmética) de los dos conjuntos de datos es de 6. |
¿Qué nos dice cada medida de propagación?
El rango es la diferencia entre el valor más pequeño y el valor más grande de un conjunto de datos.
Calcular el Intervalo
conjunto de datos
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
El rango es de 4, la diferencia entre el valor más alto (8 ) y el valor más bajo (4). Conjunto de datos B
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
El rango es 10, la diferencia entre el valor más alto (11 ) y el valor más bajo (1).
En una línea numérica, puede ver que el rango de valores para el conjunto de datos B es mayor que el Conjunto de datos A. |
Los cuartiles dividen un conjunto de datos ordenado en cuatro partes iguales y hacen referencia a los valores del punto entre los cuartos. Un conjunto de datos también puede dividirse en quintiles (cinco partes iguales) o deciles (diez partes iguales).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of valor. También se llama percentil 25.
El segundo cuartil (Q2) es el centro del conjunto de datos. También se llama percentil 50, o mediana.
El cuartil superior (Q3) es el punto entre el 75% más bajo y el 25% más alto de los valores. También se llama percentil 75.
Calculating Quartiles
Como el cuartil punto cae entre dos valores, la media (promedio) de esos valores es el cuartil valor:
Como el cuartil punto cae entre dos valores, la media (promedio) de esos valores es el cuartil valor: |
El rango intercuartil (IQR) es la diferencia entre la parte superior (Q3) e inferior (Q1) cuartil, y describe el 50% de los valores ordenados de menor a mayor. El IQR a menudo se ve como una mejor medida de propagación que el rango, ya que no se ve afectado por valores atípicos.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2
El IQR para el conjunto de datos B es = 5
IQR = Q3 – Q1
= 8.5 – 3.5
= 5
La varianza y la desviación estándar son medidas de la difusión de los datos alrededor de la media. Resumen la proximidad de cada valor de datos observado al valor medio.
En conjuntos de datos con una pequeña dispersión, todos los valores están muy cerca de la media, lo que resulta en una pequeña varianza y desviación estándar. Cuando un conjunto de datos está más disperso, los valores se separan más lejos de la media, lo que da lugar a una varianza y una desviación estándar mayores.Cuanto menor sea la varianza y la desviación estándar, mayor será el valor medio indicativo de todo el conjunto de datos. Por lo tanto, si todos los valores de un conjunto de datos son los mismos, la desviación estándar y la varianza son cero.
La desviación estándar de una distribución normal nos permite calcular intervalos de confianza. En una distribución normal, aproximadamente el 68% de los valores están dentro de una desviación estándar a cada lado de la media y aproximadamente el 95% de las puntuaciones están dentro de dos desviaciones estándar de la media.
La Varianza poblacional σ2 (pronunciada sigma cuadrada) de un conjunto discreto de números se expresa mediante la siguiente fórmula:
donde:
Xi representa la i-ésima unidad, comenzando desde la primera observación hasta la última
μ representa la media de la población
N representa el número de unidades en la población
La Varianza de una muestra s2 (pronunciada s cuadrada) se expresa mediante una fórmula ligeramente diferente:
donde:
xi representa la i-ésima unidad, comenzando desde la primera observación hasta la última
x representa la media muestral
n representa el número de unidades en la muestra
La desviación estándar es la raíz cuadrada de la varianza. La desviación estándar para una población está representada por σ, y la desviación estándar para una muestra está representada por s.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
Conjunto de datos B
Calcular la media poblacional (μ) del Conjunto de datos B. |
La mayor Varianza y Desviación estándar en el Conjunto de Datos B demuestra además que el Conjunto de datos B está más disperso que el Conjunto de datos A.
Volver a la página de inicio del Idioma Estadístico