mars 20, 2021

Statistiskt språk – mått på spridning

vad är mått på spridning?
mått på spridning beskriver hur lika eller varierat uppsättningen observerade värden är för en viss variabel (dataobjekt). Mått på spridning inkluderar intervall, kvartiler och interkvartilintervall, varians och standardavvikelse.
När kan vi mäta spridning?
spridningen av värdena kan mätas för kvantitativa data, eftersom variablerna är numeriska och kan ordnas i en logisk ordning med ett lågt slutvärde och ett högt slutvärde.
Varför mäter vi spridning?att sammanfatta datauppsättningen kan hjälpa oss att förstå data, särskilt när datauppsättningen är stor. Som diskuteras i mått på Central tendens sida, läget, median, och medelvärdet sammanfatta data till ett enda värde som är typiskt eller representativt för alla värden i datauppsättningen, men detta är bara en del av ’bilden’ som sammanfattar en datauppsättning. Mått på spridning sammanfattar data på ett sätt som visar hur spridda värdena är och hur mycket de skiljer sig från medelvärdet.

till exempel:

Dataset A	Dataset B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8	1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

läget (mest frekvent värde), median (medelvärde*) och medelvärde (aritmetiskt medelvärde) för båda datamängderna är 6.
(*notera, medianen för en jämn numrerad datamängd beräknas genom att ta medelvärdet av de två mellersta observationerna).
om vi bara tittade på måtten på central tendens kan vi anta att datamängderna är desamma.
men om vi tittar på spridningen av värdena i följande graf kan vi se att Dataset B är mer dispergerat än Dataset A. används tillsammans hjälper måtten på central tendens och spridningsåtgärder oss att bättre förstå data

vad berättar varje mått på spridning för oss?
intervallet är skillnaden mellan det minsta värdet och det största värdet i en dataset.

beräkning av intervallet

Dataset A

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

intervallet är 4, skillnaden mellan det högsta värdet (8 ) och det lägsta värdet (4).

Dataset B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

intervallet är 10, skillnaden mellan det högsta värdet (11 ) och det lägsta värdet (1).

Dataset A
0	1	2	3	4	5	6	7	8	9	10	11	12	13

Dataset B
0	1	2	3	4	5	6	7	8	9	10	11	12	13

på en talrad kan du se att värdena för Dataset B är större än Dataset A.

kvartiler delar upp en ordnad dataset i fyra lika delar och hänvisar till värdena för punkten mellan kvartalen. En dataset kan också delas in i kvintiler (fem lika delar) eller deciles (tio lika delar).

Quartiles

25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of värde. Det kallas också den 25: e percentilen.
den andra kvartilen (Q2) är mitten av datamängden. Det kallas också den 50: e percentilen, eller medianen.den övre kvartilen (Q3) är punkten mellan de lägsta 75% och högsta 25% av värdena. Det kallas också den 75: e percentilen.

Calculating Quartiles

Dataset A
4	5	5	Q1	5	6	6	Q2	6	6	7	Q3	7	7	8

när kvartilpunkten faller mellan två värden är medelvärdet (medelvärdet) för dessa värden kvartilvärdet:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1	2	3	Q1	4	5	6	Q2	6	7	8	Q3	9	10	11

eftersom Kvartilpunkten faller mellan två värden är medelvärdet (medelvärdet) för dessa värden kvartilvärdet:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

interkvartilintervallet (IQR) är skillnaden mellan de övre (Q3) och nedre (Q1) kvartilerna och beskriver de mellersta 50% av värdena när de beställs från lägsta till högsta. IQR ses ofta som ett bättre mått på spridning än intervallet eftersom det inte påverkas av avvikare.

Interquartile Range

25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3-Q1
= 7-5
= 2
IQR för Dataset B är = 5
IQR = Q3 – Q1
= 8.5 – 3.5
= 5
variansen och standardavvikelsen är mått på spridningen av data runt medelvärdet. De sammanfattar hur nära varje observerat datavärde är medelvärdet.
i dataset med en liten spridning är alla värden mycket nära medelvärdet, vilket resulterar i en liten varians och standardavvikelse. Där en dataset är mer spridd sprids värden längre bort från medelvärdet, vilket leder till en större varians och standardavvikelse.
ju mindre varians och standardavvikelse, desto mer är medelvärdet ett tecken på hela datamängden. Därför, om alla värden i en dataset är desamma, är standardavvikelsen och variansen noll.
standardavvikelsen för en normalfördelning gör det möjligt för oss att beräkna konfidensintervall. I en normalfördelning ligger cirka 68% av värdena inom en standardavvikelse på vardera sidan av medelvärdet och cirka 95% av poängen ligger inom två standardavvikelser från medelvärdet.
populationsvariansen2 (uttalad Sigma squared) för en diskret uppsättning tal uttrycks med följande formel:
bild: ekvation
där:
Xi representerar den ith-enheten, med början från den första observationen till den sista
attubbi representerar populationens medelvärde
n representerar antalet enheter i populationen
variansen för ett prov s2 (uttalad s squared) uttrycks med en något annorlunda formel:
br> bild; ekvation
var:
xi representerar ith-enheten, med början från den första observationen till den sista
X representerar provmedelvärdet
n representerar antalet enheter i provet
standardavvikelsen är kvadratroten av variansen. Standardavvikelsen för en population representeras av Macau, och standardavvikelsen för ett prov representeras av s.

Calculating the Population Variance σ2 and Standard Deviation σ

Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
medelvärde (XHamster) = 6
beräkna avvikelsen för de enskilda värdena från medelvärdet genom att subtrahera medelvärdet från varje värde i datasetet
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
kvadrat varje enskild avvikelse värde
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
beräkna medelvärdet av de kvadratiska avvikelsevärdena
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
varians 2= 1.17
beräkna kvadratroten av variansen
standardavvikelse Portugals = 1.08

Dataset B

beräkna populationsmedelvärdet (XHamster) för Dataset B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
medelvärde (XHamster) = 6
beräkna avvikelsen för de enskilda värdena från medelvärdet genom att subtrahera medelvärdet från varje värde i datasetet
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
kvadrat varje enskilt avvikelsevärde
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
beräkna medelvärdet av de kvadratiska avvikelsevärdena
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
varians 2 = 9.17
beräkna kvadratroten av variansen
standardavvikelse XVII = 3.03