Linguaggio statistico-Misure di Spread

Che cosa sono le misure di spread?
Le misure di diffusione descrivono quanto sia simile o variato l’insieme dei valori osservati per una particolare variabile (data item). Le misure di diffusione includono l’intervallo, i quartili e l’intervallo interquartile, la varianza e la deviazione standard.
Quando possiamo misurare la diffusione?
La diffusione dei valori può essere misurata per dati quantitativi, poiché le variabili sono numeriche e possono essere disposte in un ordine logico con un valore di fascia bassa e un valore di fascia alta.
Perché misuriamo la diffusione?
Riassumere il set di dati può aiutarci a capire i dati, specialmente quando il set di dati è grande. Come discusso nella pagina Misure di Tendenza centrale, la modalità, la mediana e la media riassumono i dati in un unico valore tipico o rappresentativo di tutti i valori nel set di dati, ma questa è solo una parte del “quadro” che riassume un set di dati. Le misure di spread riassumono i dati in modo da mostrare quanto sono sparsi i valori e quanto differiscono dal valore medio.

Per esempio:

set di dati A
Dataset B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

La modalità più frequente di valore), mediana (valore centrale*) e medio (media aritmetica) di entrambi i set di dati è di 6.
(*si noti che la mediana di un set di dati pari è calcolata prendendo la media delle due osservazioni centrali).
Se abbiamo appena esaminato le misure di tendenza centrale, possiamo supporre che i set di dati siano gli stessi.
Tuttavia, se guardiamo la diffusione dei valori nel seguente grafico, si può vedere che Dataset B è più dispersi Dataset A. Usati insieme, le misure di tendenza centrale, misure di diffusione ci aiutano a comprendere meglio i dati

che Cosa fa ogni misura di dispersione dirci?
L’intervallo è la differenza tra il valore più piccolo e il valore più grande in un set di dati.

Calcolare l’Intervallo

set di dati A

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

L’intervallo è di 4, la differenza tra il valore più alto (8 ) e il valore più basso (4).

Dataset B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

L’intervallo è 10, la differenza tra il valore più alto (11 ) e il valore più basso (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

Su una riga numerica, è possibile vedere che l’intervallo di valori per il set di dati B è maggiore del Set di dati A.

I quartili dividono un set di dati ordinato in quattro parti uguali e si riferiscono ai valori del punto tra i quarti. Un set di dati può anche essere diviso in quintili (cinque parti uguali) o decili (dieci parti uguali).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of valore. È anche chiamato il 25 ° percentile.
Il secondo quartile (Q2) è al centro del set di dati. È anche chiamato il 50 ° percentile, o la mediana.
Il quartile superiore (Q3) è il punto tra il 75% più basso e il 25% più alto dei valori. È anche chiamato il 75 ° percentile.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

Come il quartile punto è compreso tra due valori, la media di tali valori è il quartile valore:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

Come il quartile punto è compreso tra due valori, la media di tali valori è il quartile valore:
Q1 = (3+4) / 2 = 3.5
2t = (6+6) / 2 = 6
3t = (8+9) / 2 = 8.5

Il range interquartile (IQR) è la differenza tra la parte superiore (Q3) e inferiore (Q1), quartili, e descrive la metà 50% di valori ordinati dal più basso al più alto. L’IQR è spesso visto come una misura migliore della diffusione rispetto alla gamma in quanto non è influenzato da valori anomali.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3-Q1
= 7 – 5
= 2
L’IQR per il Dataset B è = 5
IQR= Q3 – Q1
= 8.5 – 3.5
= 5
La varianza e la deviazione standard sono misure della diffusione dei dati attorno alla media. Essi riassumono la vicinanza di ciascun valore di dati osservato al valore medio.
Nei set di dati con un piccolo spread tutti i valori sono molto vicini alla media, con conseguente piccola varianza e deviazione standard. Quando un set di dati è più disperso, i valori vengono distribuiti più lontano dalla media, portando ad una maggiore varianza e deviazione standard.
Minore è la varianza e la deviazione standard, più il valore medio è indicativo dell’intero set di dati. Pertanto, se tutti i valori di un set di dati sono uguali, la deviazione standard e la varianza sono zero.
La deviazione standard di una distribuzione normale ci permette di calcolare gli intervalli di confidenza. In una distribuzione normale, circa il 68% dei valori si trova all’interno di una deviazione standard su entrambi i lati della media e circa il 95% dei punteggi si trova all’interno di due deviazioni standard della media.
La popolazione Varianza σ2 (pronunciato sigma al quadrato) di un insieme discreto di numeri è espresso dalla seguente formula:
Immagine: Equazione
dove:
Xi rappresenta la i-esima unità, a partire dalla prima osservazione: l’ultimo
µ rappresenta la media della popolazione
N rappresenta il numero di unità della popolazione
La Varianza di un campione s2 (si pronuncia s al quadrato) è espresso da una formula leggermente diversa:
Immagine; Equazione
dove:
xi rappresenta l’unità i, partendo dalla prima osservazione fino all’ultima
x rappresenta la media del campione
n rappresenta il numero di unità nel campione
La deviazione standard è la radice quadrata della varianza. La deviazione standard per una popolazione è rappresentata da σ e la deviazione standard per un campione è rappresentata da s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
media (µ) = 6
Calcola la deviazione dei singoli valori dalla media sottraendo la media per ogni valore del set di dati
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
Piazza ogni singolo valore di deviazione
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Calcola la media dei quadrati dei valori di deviazione
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
Varianza σ2= 1.17
Calcola la radice quadrata della varianza
Deviazione standard σ = 1.08

Dataset B

Calcola la media della popolazione (μ) del Dataset B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
media (µ) = 6
Calcola la deviazione dei singoli valori dalla media sottraendo la media per ogni valore del set di dati
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
Piazza ogni singolo valore di deviazione
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Calcola la media dei quadrati dei valori di deviazione
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
Varianza σ2 = 9.17
Calcola la radice quadrata della varianza
Deviazione standard σ = 3.03

La varianza e la deviazione standard più grandi nel set di dati B dimostrano ulteriormente che il set di dati B è più disperso del set di dati A.
Torna alla home page del linguaggio statistico



Lascia un commento

Il tuo indirizzo email non sarà pubblicato.