Statistisk sprog – mål for spredning
Hvad er mål for spredning?mål for spredning beskriver, hvor ens eller varieret sættet af observerede værdier er for en bestemt variabel (dataelement). Mål for spredning omfatter rækkevidde, kvartiler og interkvartil rækkevidde, varians og standardafvigelse.
Hvornår kan vi måle spredning?spredningen af værdierne kan måles for kvantitative data, da variablerne er numeriske og kan arrangeres i en logisk rækkefølge med en lav slutværdi og en høj slutværdi.
Hvorfor måler vi spredning?sammenfatning af datasættet kan hjælpe os med at forstå dataene, især når datasættet er stort. Som diskuteret på siden målinger af Central tendens opsummerer tilstanden, medianen og gennemsnittet dataene til en enkelt værdi, der er typisk eller repræsentativ for alle værdierne i datasættet, men dette er kun en del af ‘billedet’, der opsummerer et datasæt. Mål for spredning opsummerer dataene på en måde, der viser, hvor spredte værdierne er, og hvor meget de adskiller sig fra middelværdien.
for eksempel:
tilstanden (hyppigst værdi), median (mellemværdi*) og middelværdi (aritmetisk gennemsnit) for begge datasæt er 6. |
Hvad fortæller hvert mål for spredning os?området er forskellen mellem den mindste værdi og den største værdi i et datasæt.
beregning af området
datasæt a
>4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
området er 4, forskellen mellem den højeste værdi (8 ) og den laveste værdi (4). datasæt B
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
området er 10, forskellen mellem den højeste værdi (11 ) og den laveste værdi (1).
På en tallinje kan du se, at værdiområdet for datasæt B er større end datasæt A. |
kvartiler deler et ordnet datasæt i fire lige store dele og henviser til værdierne for punktet mellem kvartalerne. Et datasæt kan også opdeles i kvintiler (fem lige store dele) eller deciler (ti lige store dele).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of værdi. Det kaldes også den 25.percentil.
den anden kvartil (2. kvartal) er midten af datasættet. Det kaldes også den 50.percentil eller medianen.
den øverste kvartil (3. kvartal) er punktet mellem de laveste 75% og højeste 25% af værdierne. Det kaldes også den 75. percentil.
Calculating Quartiles
da Kvartilpunktet falder mellem to værdier, er gennemsnittet (gennemsnittet) af disse værdier kvartilværdien:
da kvartilpunktet falder mellem to værdier, er gennemsnittet (gennemsnittet) af disse værdier kvartilværdien: |
interkvartilområdet er forskellen mellem de øvre (3.kvartal) og nedre (1. kvartal) kvartiler og beskriver de midterste 50% af værdierne, når de bestilles fra laveste til højeste. Ik ses ofte som et bedre mål for spredning end rækkevidden, da det ikke påvirkes af outliers.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = 3. kvartal – 1. kvartal
= 7-5
= 2
IKR for datasæt B er = 5
IKR = 3.kvartal 1
= 8,5 – 3,5
= 5
variansen og standardafvigelsen er mål for spredningen af dataene omkring gennemsnittet. De opsummerer, hvor tæt hver observeret dataværdi er på middelværdien.
i datasæt med en lille spredning er alle værdier meget tæt på gennemsnittet, hvilket resulterer i en lille varians og standardafvigelse. Hvor et datasæt er mere spredt, spredes værdier længere væk fra gennemsnittet, hvilket fører til en større varians og standardafvigelse.
jo mindre variansen og standardafvigelsen er, desto mere er middelværdien vejledende for hele datasættet. Derfor, hvis alle værdier i et datasæt er de samme, er standardafvigelsen og variansen nul.
standardafvigelsen for en normalfordeling gør det muligt for os at beregne konfidensintervaller. 68% af værdierne inden for en standardafvigelse på hver side af gennemsnittet, og omkring 95% af scorerne er inden for to standardafvigelser fra gennemsnittet.
populationsvariansen (udtales Sigma i anden) af et diskret sæt tal udtrykkes med følgende formel:
hvor:
Hi repræsenterer Ith-enheden, startende fra den første observation til den sidste
repræsenterer populationsgennemsnittet
n repræsenterer antallet af enheder i befolkningen
variansen af en prøve s2 (udtalt s i anden) udtrykkes med en lidt anden formel:
hvor:
n repræsenterer antallet af enheder i prøven
standardafvigelsen er kvadratroden af variansen. Standardafvigelsen for en population er repræsenteret af kr., og standardafvigelsen for en prøve er repræsenteret af s.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
datasæt B
Beregn populationsgennemsnittet (Kurt) for datasæt B. |
den større varians og standardafvigelse i datasæt B viser yderligere, at datasæt B er mere spredt end datasæt A.
vend tilbage til statistisk Sproghjemmeside