Statistisk sprog – mål for spredning

Hvad er mål for spredning?mål for spredning beskriver, hvor ens eller varieret sættet af observerede værdier er for en bestemt variabel (dataelement). Mål for spredning omfatter rækkevidde, kvartiler og interkvartil rækkevidde, varians og standardafvigelse.
Hvornår kan vi måle spredning?spredningen af værdierne kan måles for kvantitative data, da variablerne er numeriske og kan arrangeres i en logisk rækkefølge med en lav slutværdi og en høj slutværdi.
Hvorfor måler vi spredning?sammenfatning af datasættet kan hjælpe os med at forstå dataene, især når datasættet er stort. Som diskuteret på siden målinger af Central tendens opsummerer tilstanden, medianen og gennemsnittet dataene til en enkelt værdi, der er typisk eller repræsentativ for alle værdierne i datasættet, men dette er kun en del af ‘billedet’, der opsummerer et datasæt. Mål for spredning opsummerer dataene på en måde, der viser, hvor spredte værdierne er, og hvor meget de adskiller sig fra middelværdien.

for eksempel:

datasæt a
datasæt B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

tilstanden (hyppigst værdi), median (mellemværdi*) og middelværdi (aritmetisk gennemsnit) for begge datasæt er 6.
(*Bemærk, medianen af et lige nummereret datasæt beregnes ved at tage gennemsnittet af de to midterste observationer).
Hvis vi bare kiggede på målingerne af central tendens, kan vi antage, at datasættene er de samme.
men hvis vi ser på spredningen af værdierne i den følgende graf, kan vi se, at datasæt B er mere spredt end datasæt A. brugt sammen hjælper målingerne af central tendens og mål for spredning os til bedre at forstå dataene

Hvad fortæller hvert mål for spredning os?området er forskellen mellem den mindste værdi og den største værdi i et datasæt.

beregning af området

datasæt a

>4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

området er 4, forskellen mellem den højeste værdi (8 ) og den laveste værdi (4).

datasæt B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

området er 10, forskellen mellem den højeste værdi (11 ) og den laveste værdi (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

På en tallinje kan du se, at værdiområdet for datasæt B er større end datasæt A.

kvartiler deler et ordnet datasæt i fire lige store dele og henviser til værdierne for punktet mellem kvartalerne. Et datasæt kan også opdeles i kvintiler (fem lige store dele) eller deciler (ti lige store dele).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of værdi. Det kaldes også den 25.percentil.
den anden kvartil (2. kvartal) er midten af datasættet. Det kaldes også den 50.percentil eller medianen.
den øverste kvartil (3. kvartal) er punktet mellem de laveste 75% og højeste 25% af værdierne. Det kaldes også den 75. percentil.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
3
7 7 8

da Kvartilpunktet falder mellem to værdier, er gennemsnittet (gennemsnittet) af disse værdier kvartilværdien:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
3
9 10 11

da kvartilpunktet falder mellem to værdier, er gennemsnittet (gennemsnittet) af disse værdier kvartilværdien:
1. kvartal = (3+4) / 2 = 3.5
K2 = (6+6) / 2 = 6
K3 = (8+9) / 2 = 8.5

interkvartilområdet er forskellen mellem de øvre (3.kvartal) og nedre (1. kvartal) kvartiler og beskriver de midterste 50% af værdierne, når de bestilles fra laveste til højeste. Ik ses ofte som et bedre mål for spredning end rækkevidden, da det ikke påvirkes af outliers.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = 3. kvartal – 1. kvartal
= 7-5
= 2
IKR for datasæt B er = 5
IKR = 3.kvartal 1
= 8,5 – 3,5
= 5
variansen og standardafvigelsen er mål for spredningen af dataene omkring gennemsnittet. De opsummerer, hvor tæt hver observeret dataværdi er på middelværdien.
i datasæt med en lille spredning er alle værdier meget tæt på gennemsnittet, hvilket resulterer i en lille varians og standardafvigelse. Hvor et datasæt er mere spredt, spredes værdier længere væk fra gennemsnittet, hvilket fører til en større varians og standardafvigelse.
jo mindre variansen og standardafvigelsen er, desto mere er middelværdien vejledende for hele datasættet. Derfor, hvis alle værdier i et datasæt er de samme, er standardafvigelsen og variansen nul.
standardafvigelsen for en normalfordeling gør det muligt for os at beregne konfidensintervaller. 68% af værdierne inden for en standardafvigelse på hver side af gennemsnittet, og omkring 95% af scorerne er inden for to standardafvigelser fra gennemsnittet.
populationsvariansen (udtales Sigma i anden) af et diskret sæt tal udtrykkes med følgende formel:
billede: ligning
hvor:
Hi repræsenterer Ith-enheden, startende fra den første observation til den sidste
repræsenterer populationsgennemsnittet
n repræsenterer antallet af enheder i befolkningen
variansen af en prøve s2 (udtalt s i anden) udtrykkes med en lidt anden formel:
billede; ligning
hvor:
n repræsenterer antallet af enheder i prøven
standardafvigelsen er kvadratroden af variansen. Standardafvigelsen for en population er repræsenteret af kr., og standardafvigelsen for en prøve er repræsenteret af s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
middelværdi (kr) = 6
Beregn afvigelsen af de enkelte værdier fra gennemsnittet ved at trække gennemsnittet fra hver værdi i datasættet
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
firkant hver individuel afvigelsesværdi
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Beregn gennemsnittet af de kvadratiske afvigelsesværdier
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
varians kr2= 1.17
Beregn kvadratroden af variansen
standardafvigelse Kurt = 1.08

datasæt B

Beregn populationsgennemsnittet (Kurt) for datasæt B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
middelværdi (kr) = 6
Beregn afvigelsen af de enkelte værdier fra gennemsnittet ved at trække gennemsnittet fra hver værdi i datasættet
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
kvadrat hver enkelt afvigelsesværdi
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Beregn gennemsnittet af de kvadratiske afvigelsesværdier
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
varians-kr2 = 9.17
Beregn kvadratroden af variansen
standardafvigelse Lars = 3.03

den større varians og standardafvigelse i datasæt B viser yderligere, at datasæt B er mere spredt end datasæt A.
vend tilbage til statistisk Sproghjemmeside



Skriv et svar

Din e-mailadresse vil ikke blive publiceret.