Statistical Language-Measures of Spread

Wat zijn measures of spread?
spreadmetingen beschrijven hoe vergelijkbaar of gevarieerd de reeks waargenomen waarden zijn voor een bepaalde variabele (gegevenspost). Metingen van de spreiding omvatten het bereik, kwartielen en het interkwartielbereik, variantie en standaardafwijking.
Wanneer kunnen we spread meten?
de spreiding van de waarden kan worden gemeten voor kwantitatieve gegevens, omdat de variabelen numeriek zijn en in een logische volgorde kunnen worden gerangschikt met een lage eindwaarde en een hoge eindwaarde.waarom meten we spread?het samenvatten van de dataset kan ons helpen de gegevens te begrijpen, vooral wanneer de dataset groot is. Zoals besproken in de maten van centrale tendens pagina, de modus, mediaan, en gemiddelde samenvatting van de gegevens in een enkele waarde die typisch of representatief is voor alle waarden in de dataset, maar dit is slechts een deel van de ‘afbeelding’ die een dataset samenvat. Spreadmetingen vatten de gegevens samen op een manier die laat zien hoe verspreid de waarden zijn en hoeveel ze verschillen van de gemiddelde waarde.

bijvoorbeeld:

Dataset Een
Dataset B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

De modus (meest voorkomende waarde), de mediaan (middelste waarde*) en het gemiddelde (rekenkundig gemiddelde) van beide datasets is 6.
(*opmerking: de mediaan van een even genummerde dataset wordt berekend door het gemiddelde van de middelste twee waarnemingen te nemen).
als we alleen naar de maten van de centrale tendens keken, kunnen we aannemen dat de datasets hetzelfde zijn.
echter, als we kijken naar de spreiding van de waarden in de volgende grafiek, kunnen we zien dat Dataset B meer verspreid is dan Dataset A. Samen gebruikt, helpen de maten van centrale tendens en maten van verspreiding ons om de gegevens beter te begrijpen

Wat vertelt elke meting van verspreiding ons?
het bereik is het verschil tussen de kleinste en de grootste waarde in een dataset.

berekenen van het bereik

Dataset a

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

het bereik is 4, het verschil tussen de hoogste waarde (8 ) en de laagste waarde (4).

Dataset B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

het bereik is 10, het verschil tussen de hoogste waarde (11 ) en de laagste waarde (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

op een getallenlijn kunt u zien dat het bereik van waarden voor Dataset B groter is dan Dataset A.

kwartielen deel een geordende dataset in vier gelijke delen en refereer naar de waarden van het punt tussen de kwartalen. Een dataset kan ook worden verdeeld in quintiles (vijf gelijke delen) of deciles (tien gelijke delen).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of waarde. Het wordt ook wel het 25e percentiel genoemd.
Het tweede kwartiel (Q2) is het midden van de gegevensverzameling. Het wordt ook wel het 50e percentiel, of de mediaan genoemd.
het bovenste kwartiel (Q3) is het punt tussen de laagste 75% en de hoogste 25% van de waarden. Het wordt ook wel het 75e percentiel genoemd.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

Als het kwartiel punt valt tussen twee waarden, het gemiddelde van die waarden is het kwartiel:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

Als het kwartiel punt valt tussen twee waarden, het gemiddelde van die waarden is het kwartiel:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

De interkwartielafstand (IQR) is het verschil tussen de bovenste (3e kwartaal) en de onderste (Q1) kwartielen, en beschrijft de middelste 50% van de waarden bij de bestelling van de laagste tot de hoogste. De IQR wordt vaak gezien als een betere mate van verspreiding dan het bereik, omdat het niet wordt beïnvloed door uitschieters.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7-5
= 2
De IQR voor Dataset B is = 5
IQR = Q3 – Q1
= 8,5 – 3,5
= 5
de variantie en de standaardafwijking zijn maten van de spreiding van de gegevens rond het gemiddelde. Ze vatten samen hoe dicht elke waargenomen gegevenswaarde bij de gemiddelde waarde ligt.
In datasets met een kleine spread liggen alle waarden zeer dicht bij het gemiddelde, wat resulteert in een kleine variantie en standaardafwijking. Wanneer een dataset meer verspreid is, worden de waarden verder van het gemiddelde verwijderd, wat leidt tot een grotere variantie en standaardafwijking.
hoe kleiner de variantie en standaardafwijking, hoe meer de gemiddelde waarde indicatief is voor de hele dataset. Daarom, als alle waarden van een dataset hetzelfde zijn, zijn de standaardafwijking en variantie nul.
de standaardafwijking van een normale verdeling stelt ons in staat betrouwbaarheidsintervallen te berekenen. Bij een normale verdeling ligt ongeveer 68% van de waarden binnen één standaardafwijking aan weerszijden van het gemiddelde en ligt ongeveer 95% van de scores binnen twee standaardafwijkingen van het gemiddelde.
De populatievariantie σ2 (uitgesproken sigma kwadraat) van een discrete verzameling getallen wordt uitgedrukt door de volgende formule:
afbeelding: vergelijking
waarbij:
Xi de IDE eenheid vertegenwoordigt, beginnend vanaf de eerste waarneming tot de laatste
μ het populatiegemiddelde
N het aantal eenheden in de populatie
de variantie van een monster s2 (uitgesproken s kwadraat) wordt uitgedrukt door een iets andere formule:
afbeelding; vergelijking
waarbij:
xi vertegenwoordigt de IDE eenheid, vanaf de eerste waarneming tot de laatste
x vertegenwoordigt het steekproefgemiddelde
n vertegenwoordigt het aantal eenheden in de steekproef
de standaardafwijking is de vierkantswortel van de variantie. De standaardafwijking voor een populatie wordt weergegeven door σ en de standaardafwijking voor een steekproef wordt weergegeven door s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
gemiddelde (μ) = 6
Bereken de standaardafwijking van de individuele waarden van het gemiddelde door af te trekken van het gemiddelde van elke waarde in de dataset
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
het Plein elke individuele afwijking waarde
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Bereken het gemiddelde van de kwadratische afwijking waarden
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
Variantie σ2= 1.17
Bereken de vierkantswortel van de variantie
standaardafwijking σ = 1,08

Dataset B

Bereken het populatiegemiddelde (μ) van Dataset B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
gemiddelde (μ) = 6
Bereken de standaardafwijking van de individuele waarden van het gemiddelde door af te trekken van het gemiddelde van elke waarde in de dataset
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
het Plein elke individuele afwijking waarde
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Bereken het gemiddelde van de kwadratische afwijking waarden
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
Variantie σ2 = 9.17
Bereken de vierkantswortel van de variantie
standaardafwijking σ = 3.03

de grotere variantie en standaardafwijking in Dataset B toont verder aan dat Dataset B meer verspreid is dan dataset A.
terugkeer naar statistische taal Homepage



Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.