Statistiskt språk – mått på spridning
vad är mått på spridning?
mått på spridning beskriver hur lika eller varierat uppsättningen observerade värden är för en viss variabel (dataobjekt). Mått på spridning inkluderar intervall, kvartiler och interkvartilintervall, varians och standardavvikelse.
När kan vi mäta spridning?
spridningen av värdena kan mätas för kvantitativa data, eftersom variablerna är numeriska och kan ordnas i en logisk ordning med ett lågt slutvärde och ett högt slutvärde.
Varför mäter vi spridning?att sammanfatta datauppsättningen kan hjälpa oss att förstå data, särskilt när datauppsättningen är stor. Som diskuteras i mått på Central tendens sida, läget, median, och medelvärdet sammanfatta data till ett enda värde som är typiskt eller representativt för alla värden i datauppsättningen, men detta är bara en del av ’bilden’ som sammanfattar en datauppsättning. Mått på spridning sammanfattar data på ett sätt som visar hur spridda värdena är och hur mycket de skiljer sig från medelvärdet.
till exempel:
läget (mest frekvent värde), median (medelvärde*) och medelvärde (aritmetiskt medelvärde) för båda datamängderna är 6. |
vad berättar varje mått på spridning för oss?
intervallet är skillnaden mellan det minsta värdet och det största värdet i en dataset.
beräkning av intervallet
Dataset A
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
intervallet är 4, skillnaden mellan det högsta värdet (8 ) och det lägsta värdet (4). Dataset B
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
intervallet är 10, skillnaden mellan det högsta värdet (11 ) och det lägsta värdet (1).
på en talrad kan du se att värdena för Dataset B är större än Dataset A. |
kvartiler delar upp en ordnad dataset i fyra lika delar och hänvisar till värdena för punkten mellan kvartalen. En dataset kan också delas in i kvintiler (fem lika delar) eller deciles (tio lika delar).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of värde. Det kallas också den 25: e percentilen.
den andra kvartilen (Q2) är mitten av datamängden. Det kallas också den 50: e percentilen, eller medianen.den övre kvartilen (Q3) är punkten mellan de lägsta 75% och högsta 25% av värdena. Det kallas också den 75: e percentilen.
Calculating Quartiles
när kvartilpunkten faller mellan två värden är medelvärdet (medelvärdet) för dessa värden kvartilvärdet:
eftersom Kvartilpunkten faller mellan två värden är medelvärdet (medelvärdet) för dessa värden kvartilvärdet: |
interkvartilintervallet (IQR) är skillnaden mellan de övre (Q3) och nedre (Q1) kvartilerna och beskriver de mellersta 50% av värdena när de beställs från lägsta till högsta. IQR ses ofta som ett bättre mått på spridning än intervallet eftersom det inte påverkas av avvikare.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = Q3-Q1
= 7-5
= 2
IQR för Dataset B är = 5
IQR = Q3 – Q1
= 8.5 – 3.5
= 5
variansen och standardavvikelsen är mått på spridningen av data runt medelvärdet. De sammanfattar hur nära varje observerat datavärde är medelvärdet.
i dataset med en liten spridning är alla värden mycket nära medelvärdet, vilket resulterar i en liten varians och standardavvikelse. Där en dataset är mer spridd sprids värden längre bort från medelvärdet, vilket leder till en större varians och standardavvikelse.
ju mindre varians och standardavvikelse, desto mer är medelvärdet ett tecken på hela datamängden. Därför, om alla värden i en dataset är desamma, är standardavvikelsen och variansen noll.
standardavvikelsen för en normalfördelning gör det möjligt för oss att beräkna konfidensintervall. I en normalfördelning ligger cirka 68% av värdena inom en standardavvikelse på vardera sidan av medelvärdet och cirka 95% av poängen ligger inom två standardavvikelser från medelvärdet.
populationsvariansen2 (uttalad Sigma squared) för en diskret uppsättning tal uttrycks med följande formel:
där:
Xi representerar den ith-enheten, med början från den första observationen till den sista
attubbi representerar populationens medelvärde
n representerar antalet enheter i populationen
variansen för ett prov s2 (uttalad s squared) uttrycks med en något annorlunda formel:
br>
var:
xi representerar ith-enheten, med början från den första observationen till den sista
X representerar provmedelvärdet
n representerar antalet enheter i provet
standardavvikelsen är kvadratroten av variansen. Standardavvikelsen för en population representeras av Macau, och standardavvikelsen för ett prov representeras av s.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
Dataset B
beräkna populationsmedelvärdet (XHamster) för Dataset B. |
den större variansen och standardavvikelsen i Dataset B visar vidare att Dataset B är mer spridd än Dataset A.
återgå till statistiskt språk hemsida