Lenguaje estadístico-Medidas de propagación

¿Qué son las medidas de propagación?Las medidas de propagación describen cuán similar o variado es el conjunto de valores observados para una variable en particular (elemento de datos). Las medidas de propagación incluyen el rango, los cuartiles y el rango intercuartílico, la varianza y la desviación estándar.¿Cuándo podemos medir el spread?
La dispersión de los valores se puede medir para datos cuantitativos, ya que las variables son numéricas y se pueden organizar en un orden lógico con un valor final bajo y un valor final alto.¿Por qué medimos el spread?Resumir el conjunto de datos puede ayudarnos a comprender los datos, especialmente cuando el conjunto de datos es grande. Como se explica en la página Medidas de Tendencia Central, el modo, la mediana y la media resumen los datos en un solo valor que es típico o representativo de todos los valores del conjunto de datos, pero esto es solo una parte de la «imagen» que resume un conjunto de datos. Las medidas de propagación resumen los datos de una manera que muestra cuán dispersos son los valores y cuánto difieren del valor medio.

Por ejemplo:

conjunto de datos
conjunto de datos B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

El modo más frecuente de valor), la mediana (valor central*) y media (media aritmética) de los dos conjuntos de datos es de 6.
(*tenga en cuenta que la mediana de un conjunto de datos con números pares se calcula tomando la media de las dos observaciones intermedias).Si solo miramos las medidas de tendencia central, podemos asumir que los conjuntos de datos son los mismos.
Sin embargo, si observamos la propagación de los valores en el siguiente gráfico, podemos ver que el conjunto de datos B está más disperso que el Conjunto de datos A. Si se usan juntos, las medidas de tendencia central y las medidas de propagación nos ayudan a comprender mejor los datos

¿Qué nos dice cada medida de propagación?
El rango es la diferencia entre el valor más pequeño y el valor más grande de un conjunto de datos.

Calcular el Intervalo

conjunto de datos

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

El rango es de 4, la diferencia entre el valor más alto (8 ) y el valor más bajo (4).

Conjunto de datos B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

El rango es 10, la diferencia entre el valor más alto (11 ) y el valor más bajo (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

En una línea numérica, puede ver que el rango de valores para el conjunto de datos B es mayor que el Conjunto de datos A.

Los cuartiles dividen un conjunto de datos ordenado en cuatro partes iguales y hacen referencia a los valores del punto entre los cuartos. Un conjunto de datos también puede dividirse en quintiles (cinco partes iguales) o deciles (diez partes iguales).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of valor. También se llama percentil 25.
El segundo cuartil (Q2) es el centro del conjunto de datos. También se llama percentil 50, o mediana.
El cuartil superior (Q3) es el punto entre el 75% más bajo y el 25% más alto de los valores. También se llama percentil 75.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
P3
7 7 8

Como el cuartil punto cae entre dos valores, la media (promedio) de esos valores es el cuartil valor:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
P3
9 10 11

Como el cuartil punto cae entre dos valores, la media (promedio) de esos valores es el cuartil valor:
T1 = (3+4) / 2 = 3.5
T2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

El rango intercuartil (IQR) es la diferencia entre la parte superior (Q3) e inferior (Q1) cuartil, y describe el 50% de los valores ordenados de menor a mayor. El IQR a menudo se ve como una mejor medida de propagación que el rango, ya que no se ve afectado por valores atípicos.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2
El IQR para el conjunto de datos B es = 5
IQR = Q3 – Q1
= 8.5 – 3.5
= 5
La varianza y la desviación estándar son medidas de la difusión de los datos alrededor de la media. Resumen la proximidad de cada valor de datos observado al valor medio.
En conjuntos de datos con una pequeña dispersión, todos los valores están muy cerca de la media, lo que resulta en una pequeña varianza y desviación estándar. Cuando un conjunto de datos está más disperso, los valores se separan más lejos de la media, lo que da lugar a una varianza y una desviación estándar mayores.Cuanto menor sea la varianza y la desviación estándar, mayor será el valor medio indicativo de todo el conjunto de datos. Por lo tanto, si todos los valores de un conjunto de datos son los mismos, la desviación estándar y la varianza son cero.
La desviación estándar de una distribución normal nos permite calcular intervalos de confianza. En una distribución normal, aproximadamente el 68% de los valores están dentro de una desviación estándar a cada lado de la media y aproximadamente el 95% de las puntuaciones están dentro de dos desviaciones estándar de la media.
La Varianza poblacional σ2 (pronunciada sigma cuadrada) de un conjunto discreto de números se expresa mediante la siguiente fórmula:
Imagen: Ecuación
donde:
Xi representa la i-ésima unidad, comenzando desde la primera observación hasta la última
μ representa la media de la población
N representa el número de unidades en la población
La Varianza de una muestra s2 (pronunciada s cuadrada) se expresa mediante una fórmula ligeramente diferente:
Imagen; Ecuación
donde:
xi representa la i-ésima unidad, comenzando desde la primera observación hasta la última
x representa la media muestral
n representa el número de unidades en la muestra
La desviación estándar es la raíz cuadrada de la varianza. La desviación estándar para una población está representada por σ, y la desviación estándar para una muestra está representada por s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
la media (µ) = 6
Calcular la desviación de los valores individuales respecto a la media restando la media de cada valor en el conjunto de datos
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
al Cuadrado cada desviación individual de valor
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Calcular la media de los cuadrados de los valores de la desviación
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
Varianza σ2= 1.17
Calcular la raíz cuadrada de la varianza
Desviación estándar σ = 1,08

Conjunto de datos B

Calcular la media poblacional (μ) del Conjunto de datos B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
la media (µ) = 6
Calcular la desviación de los valores individuales respecto a la media restando la media de cada valor en el conjunto de datos
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
al Cuadrado cada desviación individual de valor
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Calcular la media de los cuadrados de los valores de la desviación
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
Varianza σ2 = 9.17
Calcular la raíz cuadrada de la varianza
Desviación estándar σ = 3.03

La mayor Varianza y Desviación estándar en el Conjunto de Datos B demuestra además que el Conjunto de datos B está más disperso que el Conjunto de datos A.
Volver a la página de inicio del Idioma Estadístico



Deja una respuesta

Tu dirección de correo electrónico no será publicada.