Langage statistique – Mesures de propagation

Que sont les mesures de propagation?
Les mesures de l’écart décrivent à quel point l’ensemble des valeurs observées est similaire ou varié pour une variable particulière (élément de données). Les mesures de l’écart comprennent la plage, les quartiles et la plage interquartile, la variance et l’écart type.
Quand pouvons-nous mesurer la propagation?
L’écart des valeurs peut être mesuré pour des données quantitatives, car les variables sont numériques et peuvent être organisées dans un ordre logique avec une valeur de bas de gamme et une valeur de haut de gamme.
Pourquoi mesurons-nous la propagation?
Résumer l’ensemble de données peut nous aider à comprendre les données, en particulier lorsque l’ensemble de données est volumineux. Comme indiqué dans la page Mesures de tendance centrale, le mode, la médiane et la moyenne résument les données en une seule valeur typique ou représentative de toutes les valeurs de l’ensemble de données, mais il ne s’agit que d’une partie de l' » image » qui résume un ensemble de données. Les mesures de l’écart résument les données de manière à montrer à quel point les valeurs sont dispersées et à quel point elles diffèrent de la valeur moyenne.

Par exemple:

Ensemble de données A
Ensemble de données B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

Le mode (valeur la plus fréquente), la médiane (valeur moyenne*) et la moyenne (moyenne arithmétique) des deux ensembles de données sont 6.
(* notez que la médiane d’un ensemble de données numéroté pair est calculée en prenant la moyenne des deux observations du milieu).
Si nous examinons simplement les mesures de tendance centrale, nous pouvons supposer que les ensembles de données sont les mêmes.
Cependant, si nous regardons l’étalement des valeurs dans le graphique suivant, nous pouvons voir que l’ensemble de données B est plus dispersé que l’ensemble de données A. Utilisées ensemble, les mesures de tendance centrale et les mesures d’étalement nous aident à mieux comprendre les données

Que nous dit chaque mesure d’étalement?
La plage est la différence entre la plus petite valeur et la plus grande valeur d’un ensemble de données.

Calcul de la plage

Jeu de données A

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

La plage est de 4, la différence entre la valeur la plus élevée (8) et la valeur la plus basse (4).

Jeu de données B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

La plage est de 10, la différence entre la valeur la plus élevée (11) et la valeur la plus basse (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

Sur une ligne numérique, vous pouvez voir que la plage de valeurs pour l’ensemble de données B est plus grande que l’ensemble de données A.

Les quartiles divisent un ensemble de données ordonné en quatre parties égales et se réfèrent aux valeurs du point entre les quarts. Un ensemble de données peut également être divisé en quintiles (cinq parties égales) ou déciles (dix parties égales).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of valeur. On l’appelle aussi le 25e centile.
Le deuxième quartile (Q2) est le milieu de l’ensemble de données. On l’appelle aussi le 50e centile, ou la médiane.
Le quartile supérieur (Q3) est le point entre les 75% les plus bas et les 25% les plus élevés des valeurs. On l’appelle aussi le 75e centile.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

Comme le point quartile se situe entre deux valeurs, la moyenne (moyenne) de ces valeurs est la valeur quartile:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

Comme le point quartile se situe entre deux valeurs, la moyenne (moyenne) de ces valeurs est la valeur quartile :
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

La plage interquartile (IQR) est la différence entre les quartiles supérieur (Q3) et inférieur (Q1), et décrit les 50% moyens des valeurs lorsqu’elles sont ordonnées du plus bas au plus haut. L’IQR est souvent considéré comme une meilleure mesure de la propagation que la fourchette, car il n’est pas affecté par des valeurs aberrantes.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3-Q1
= 7 – 5
=2
L’IQR pour l’ensemble de données B est = 5
IQR= Q3-Q1
= 8,5 – 3,5
=5
La variance et l’écart type sont des mesures de la propagation des données autour de la moyenne. Ils résument la proximité de chaque valeur de données observée avec la valeur moyenne.
Dans les ensembles de données avec un petit écart, toutes les valeurs sont très proches de la moyenne, ce qui entraîne une faible variance et un écart type. Lorsqu’un ensemble de données est plus dispersé, les valeurs sont plus éloignées de la moyenne, ce qui entraîne une variance et un écart-type plus importants.
Plus la variance et l’écart type sont petits, plus la valeur moyenne est indicative de l’ensemble des données. Par conséquent, si toutes les valeurs d’un ensemble de données sont identiques, l’écart-type et la variance sont nuls.
L’écart type d’une distribution normale nous permet de calculer des intervalles de confiance. Dans une distribution normale, environ 68 % des valeurs se situent à un écart-type de chaque côté de la moyenne et environ 95 % des scores se situent à deux écarts-types de la moyenne.
La variance de population σ2 (prononcé sigma au carré) d’un ensemble discret de nombres est exprimée par la formule suivante :
Image : Équation
où :
Xi représente la iième unité, à partir de la première observation jusqu’à la dernière
μ représente la moyenne de la population
N représente le nombre d’unités dans la population
La variance d’un échantillon s2 (prononcé s au carré) est exprimée par une formule légèrement différente :
br>Image; Équation
où:
xi représente la iième unité, à partir de la première observation jusqu’à la dernière
x représente la moyenne de l’échantillon
n représente le nombre d’unités dans l’échantillon
L’écart type est la racine carrée de la variance. L’écart type pour une population est représenté par σ et l’écart type pour un échantillon est représenté par s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
moyenne (μ) = 6
Calculez l’écart des valeurs individuelles par rapport à la moyenne en soustrayant la moyenne de chaque valeur de l’ensemble de données
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
Placez chaque valeur de déviation individuelle
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Calculer la moyenne des valeurs d’écart au carré
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
Variance σ2 = 1.17
Calculer la racine carrée de la variance
Écart type σ= 1,08

Jeu de données B

Calculer la moyenne de population (μ) de l’ensemble de données B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
moyenne (μ) = 6
Calculez l’écart des valeurs individuelles par rapport à la moyenne en soustrayant la moyenne de chaque valeur de l’ensemble de données
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
Placez chaque valeur de déviation individuelle
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Calculer la moyenne des valeurs d’écart au carré
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
Variance σ2 = 9.17
Calculer la racine carrée de la variance
Écart-type σ= 3,03

La Variance et l’Écart-type plus importants dans l’Ensemble de données B démontrent en outre que l’Ensemble de données B est plus dispersé que l’Ensemble de données A.
Retour à la Page d’accueil du Langage statistique



Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.