Statistische Sprache – Spreadmaße

Was sind Spreadmaße?Streuungsmaße beschreiben, wie ähnlich oder unterschiedlich die Menge der beobachteten Werte für eine bestimmte Variable (Datenelement) ist. Streuungsmaße umfassen den Bereich, Quartile und den Interquartilbereich, Varianz und Standardabweichung.
Wann können wir den Spread messen?
Die Streuung der Werte kann für quantitative Daten gemessen werden, da die Variablen numerisch sind und in einer logischen Reihenfolge mit einem niedrigen Endwert und einem hohen Endwert angeordnet werden können.
Warum messen wir den Spread?Die Zusammenfassung des Datensatzes kann uns helfen, die Daten zu verstehen, insbesondere wenn der Datensatz groß ist. Wie auf der Seite Maßnahmen der zentralen Tendenz erläutert, fassen Modus, Median und Mittelwert die Daten zu einem einzigen Wert zusammen, der typisch oder repräsentativ für alle Werte im Datensatz ist. Streuungsmaße fassen die Daten so zusammen, dass sie zeigen, wie verstreut die Werte sind und wie stark sie sich vom Mittelwert unterscheiden.

Zum Beispiel:

Datensatz A
Datensatz B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

Der Modus (häufigster Wert), Median (mittlerer Wert*) und Mittelwert (arithmetischer Durchschnitt) beider Datensätze beträgt 6.
(*Beachten Sie, dass der Median eines geradzahligen Datensatzes berechnet wird, indem der Mittelwert der mittleren zwei Beobachtungen genommen wird).
Wenn wir uns nur die Maße der zentralen Tendenz ansehen, können wir davon ausgehen, dass die Datensätze gleich sind.
Wenn wir uns jedoch die Streuung der Werte in der folgenden Grafik ansehen, können wir feststellen, dass Datensatz B stärker verstreut ist als Datensatz A. zusammengenommen helfen uns die Maße der zentralen Tendenz und der Streuung, die Daten besser zu verstehen

Was sagt uns jedes Spread-Maß?
Der Bereich ist die Differenz zwischen dem kleinsten und dem größten Wert in einem Datensatz.

Berechnung des Bereichs

Datensatz A

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

Der Bereich ist 4, die Differenz zwischen dem höchsten Wert (8) und dem niedrigsten Wert (4).

Datensatz B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

Der Bereich ist 10, die Differenz zwischen dem höchsten Wert (11) und dem niedrigsten Wert (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

In einer Zahlenzeile können Sie sehen, dass der Wertebereich für Datensatz B größer ist als für Datensatz A.

Quartile teilen einen geordneten Datensatz in vier gleiche Teile und beziehen sich auf die Werte des Punktes zwischen den Quartalen. Ein Datensatz kann auch in Quintile (fünf gleiche Teile) oder Dezile (zehn gleiche Teile) unterteilt werden.

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of Wertvorstellungen. Es wird auch das 25. Perzentil genannt.
Das zweite Quartil (Q2) ist die Mitte des Datensatzes. Es wird auch das 50. Perzentil oder der Median genannt.Das obere Quartil (Q3) ist der Punkt zwischen den niedrigsten 75% und den höchsten 25% der Werte. Es wird auch das 75. Perzentil genannt.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

Da der Quartilpunkt zwischen zwei Werten liegt, ist der Mittelwert (Durchschnitt) dieser Werte der Quartilwert:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

Da der Quartilpunkt zwischen zwei Werten liegt, ist der Mittelwert (Durchschnitt) dieser Werte der Quartilwert:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

Der Interquartilbereich (IQR) ist die Differenz zwischen dem oberen (Q3) und dem unteren (Q1) Quartil und beschreibt die mittleren 50% der Werte, wenn sie vom niedrigsten zum höchsten geordnet sind. Der IQR wird oft als besseres Maß für die Streuung angesehen als der Bereich, da er nicht von Ausreißern beeinflusst wird.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2
Der IQR für Datensatz B ist = 5
IQR = Q3 – Q1
= 8,5 – 3,5
= 5
Die Varianz und die Standardabweichung sind Maße für die Streuung der Daten um den Mittelwert. Sie fassen zusammen, wie nah jeder beobachtete Datenwert am Mittelwert liegt.
In Datensätzen mit einem kleinen Spread liegen alle Werte sehr nahe am Mittelwert, was zu einer geringen Varianz und Standardabweichung führt. Wenn ein Datensatz weiter verstreut ist, werden die Werte weiter vom Mittelwert entfernt verteilt, was zu einer größeren Varianz und Standardabweichung führt.
Je kleiner die Varianz und die Standardabweichung sind, desto mehr zeigt der Mittelwert den gesamten Datensatz an. Wenn also alle Werte eines Datensatzes gleich sind, sind die Standardabweichung und die Varianz Null.
Die Standardabweichung einer Normalverteilung ermöglicht es uns, Konfidenzintervalle zu berechnen. In einer Normalverteilung liegen etwa 68% der Werte innerhalb einer Standardabweichung zu beiden Seiten des Mittelwerts und etwa 95% der Werte liegen innerhalb von zwei Standardabweichungen des Mittelwerts.
Die Populationsvarianz σ2 (ausgesprochen Sigma-Quadrat) einer diskreten Menge von Zahlen wird durch die folgende Formel ausgedrückt:
Bild: Gleichung
wobei:
Xi steht für die i-te Einheit, beginnend mit der ersten Beobachtung bis zur letzten
μ steht für den Populationsmittelwert
N steht für die Anzahl der Einheiten in der Population
Die Varianz einer Stichprobe s2 (ausgesprochen s-Quadrat) wird durch eine etwas andere Formel ausgedrückt:
Bild; Gleichung
wo:
xi repräsentiert die i-te Einheit, beginnend mit der ersten Beobachtung bis zur letzten
x repräsentiert den Stichprobenmittelwert
n repräsentiert die Anzahl der Einheiten in der Stichprobe
Die Standardabweichung ist die Quadratwurzel der Varianz. Die Standardabweichung für eine Grundgesamtheit wird durch σ und die Standardabweichung für eine Stichprobe durch s dargestellt.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
Mittelwert (μ) = 6
Berechnen Sie die Abweichung der einzelnen Werte vom Mittelwert, indem Sie den Mittelwert von jedem Wert im Datensatz subtrahieren
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
Quadrat jeden einzelnen Abweichungswert
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Berechnen Sie den Mittelwert der quadrierten Abweichungswerte
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
Varianz σ2 = 1.17
Berechnen Sie die Quadratwurzel der Varianz
Standardabweichung σ = 1,08

Datensatz B

Berechnen Sie den Mittelwert der Grundgesamtheit (μ) von Datensatz B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
Mittelwert (μ) = 6
Berechnen Sie die Abweichung der einzelnen Werte vom Mittelwert, indem Sie den Mittelwert von jedem Wert im Datensatz subtrahieren
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
Quadrat jeden einzelnen Abweichungswert
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Berechnen Sie den Mittelwert der quadrierten Abweichungswerte
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
Varianz σ2 = 9.17
Berechnen Sie die Quadratwurzel der Varianz
Standardabweichung σ = 3,03

Die größere Varianz und Standardabweichung in Datensatz B zeigt weiter, dass Datensatz B stärker verstreut ist als Datensatz A.
Zurück zur Homepage der statistischen Sprache



Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.