Statisztikai nyelv-terjedési mértékek

mik azok a terjedési mértékek?
a szórás mértéke leírja, hogy a megfigyelt értékek halmaza mennyire hasonló vagy változatos egy adott változóhoz (adatelem). A szórás mértéke a tartomány, a kvartilisek és az interkvartilis tartomány, a variancia és a szórás.
mikor tudjuk mérni a terjedést?
az értékek szórása mérhető a kvantitatív adatok esetében, mivel a változók számszerűek, és logikai sorrendbe rendezhetők alacsony végértékkel és magas végértékkel.
Miért mérjük a terjedést?
az adatkészlet összefoglalása segíthet megérteni az adatokat, különösen akkor, ha az adatkészlet nagy. Amint azt a centrális tendencia mértékei oldal tárgyalja, a mód, a medián és az átlag az adatokat egyetlen értékbe foglalja össze, amely az adatkészlet összes értékére jellemző vagy reprezentatív, de ez csak egy része az adatkészletet összefoglaló képnek. A spread mértékei az adatokat oly módon foglalják össze, hogy megmutassák, mennyire szórtak az értékek, és mennyire különböznek az átlagértéktől.

például:

adatkészlet a
adatkészlet B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

mindkét adatkészlet módja (leggyakoribb érték), medián (középső érték*) és átlag (számtani átlag) 6.
(*Megjegyzés: A páros számozott adatkészlet mediánját a középső két megfigyelés átlagának figyelembe vételével számítjuk ki).
Ha csak a központi tendencia mértékeit nézzük, feltételezhetjük, hogy az adatkészletek azonosak.
azonban, ha megnézzük az értékek terjedését a következő grafikonon, láthatjuk, hogy a B adatkészlet szétszórtabb, mint az a adatkészlet. együtt használva a központi tendencia és a terjedés mértéke segít jobban megérteni az adatokat

mit mond az egyes terjedési mértékek?
a tartomány az adatkészlet legkisebb és legnagyobb értéke közötti különbség.

a tartomány kiszámítása

adatkészlet a

>4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

a tartomány 4, a legmagasabb (8 ) és a legalacsonyabb (4) érték közötti különbség.

adatkészlet B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

a tartomány 10, a legmagasabb (11 ) és a legalacsonyabb (1) érték közötti különbség.

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

egy számsoron látható, hogy a B adathalmaz értéktartománya nagyobb, mint az a adathalmaz.

a kvartilisek egy rendezett adathalmazt négy egyenlő részre osztanak, és a negyedek közötti pont értékeire hivatkoznak. Az adatkészlet fel is osztható kvintilisekre (öt egyenlő rész) vagy decilisekre (tíz egyenlő rész).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of értékek. Ezt 25.percentilisnek is nevezik.
a második kvartilis (Q2) az adathalmaz közepe. Ezt 50.percentilisnek vagy mediánnak is nevezik.
a felső kvartilis (Q3) az értékek legalacsonyabb 75% – A és legmagasabb 25% – A közötti pont. Ezt a 75.percentilisnek is nevezik.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

mivel a kvartilis pont két érték közé esik, ezen értékek átlaga (átlaga) a kvartilis érték:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

mivel a kvartilis pont két érték közé esik, ezen értékek átlaga (átlaga) a kvartilis érték:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

az interkvartilis tartomány (IQR) a felső (Q3) és az alsó (Q1) kvartilisek közötti különbség, és az értékek középső 50% – át írja le a legalacsonyabbtól a legmagasabbig. Az IQR-t gyakran jobb terjedési mércének tekintik, mint a tartományt, mivel a kiugró értékek nem befolyásolják.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2
A B adatkészlet IQR értéke = 5
IQR = Q3 – Q1
= 8,5-3,5
= 5
a szórás és a szórás az adatok átlag körüli eloszlásának mértéke. Összefoglalják, hogy az egyes megfigyelt adatok értéke milyen közel van az átlagértékhez.
A Kis szórású adatkészletekben minden érték nagyon közel van az átlaghoz, ami kis szórást és szórást eredményez. Ahol egy adatkészlet diszpergáltabb, az értékek távolabb kerülnek az átlagtól, ami nagyobb szórást és szórást eredményez.
minél kisebb a szórás és szórás, annál inkább az átlagérték jelzi a teljes adatkészletet. Ezért, ha egy adatkészlet összes értéke azonos, akkor a szórás és a szórás nulla.
a normál eloszlás szórása lehetővé teszi számunkra a konfidencia intervallumok kiszámítását. Normál eloszlásban az értékek körülbelül 68% – a az átlag mindkét oldalán egy szóráson belül van, a pontszámok körülbelül 95% – a pedig az átlag két szórásán belül van.
A lakosság Variancia σ2 (ejtsd: sigma négyzet) egy különálló számok fejezik ki a következő képlet adja meg:
Kép: Egyenlet
, ahol:
Xi jelöli az i-edik egység, kezdve az első megfigyelés, hogy a múlt
μ a sokaságot jelent,
N képviseli, az egységek számát a népesség
A Variancia a minta s2 (ejtsd s a négyzeten) fejezik ki, egy kicsit más a képlet:
Kép; Egyenlet
hol:
xi képviseli az i-edik egység, kezdve az első megfigyelés az utolsó
x képviseli a minta átlag
n jelenti az egységek száma a mintában
a szórás a négyzetgyök a variancia. A populációra vonatkozó szórást a következők képviselik: a mintára vonatkozó szórást pedig s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
átlag () = 6
Számítsa ki az egyes értékek eltérését az átlagtól úgy, hogy kivonja az átlagot az adatkészlet minden értékéből
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
négyzet minden egyes eltérés értéke
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Számítsa ki a négyzet eltérési értékek átlagát
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
variancia (variancia) 2= 1.17
Számítsa ki a variancia négyzetgyökét
szórás = 1,08

adatkészlet B

Számítsa ki a B adatkészlet populációs átlagát (KB).
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
átlag () = 6
Számítsa ki az egyes értékek eltérését az átlagtól úgy, hogy kivonja az átlagot az adatkészlet minden értékéből
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
négyzet minden egyes eltérés értéke
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Számítsa ki a négyzet eltérési értékek átlagát
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
variancia (variancia) 2 = 9.17
számítsuk ki a négyzetgyök a variancia
szórás ++ = 3.03

a nagyobb szórás és szórás adathalmaz B tovább bizonyítja, hogy adathalmaz B több szétszórt, mint adathalmaz A.
vissza a statisztikai nyelv honlapja



Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.