Statisztikai nyelv-terjedési mértékek
mik azok a terjedési mértékek?
a szórás mértéke leírja, hogy a megfigyelt értékek halmaza mennyire hasonló vagy változatos egy adott változóhoz (adatelem). A szórás mértéke a tartomány, a kvartilisek és az interkvartilis tartomány, a variancia és a szórás.
mikor tudjuk mérni a terjedést?
az értékek szórása mérhető a kvantitatív adatok esetében, mivel a változók számszerűek, és logikai sorrendbe rendezhetők alacsony végértékkel és magas végértékkel.
Miért mérjük a terjedést?
az adatkészlet összefoglalása segíthet megérteni az adatokat, különösen akkor, ha az adatkészlet nagy. Amint azt a centrális tendencia mértékei oldal tárgyalja, a mód, a medián és az átlag az adatokat egyetlen értékbe foglalja össze, amely az adatkészlet összes értékére jellemző vagy reprezentatív, de ez csak egy része az adatkészletet összefoglaló képnek. A spread mértékei az adatokat oly módon foglalják össze, hogy megmutassák, mennyire szórtak az értékek, és mennyire különböznek az átlagértéktől.
például:
mindkét adatkészlet módja (leggyakoribb érték), medián (középső érték*) és átlag (számtani átlag) 6. |
mit mond az egyes terjedési mértékek?
a tartomány az adatkészlet legkisebb és legnagyobb értéke közötti különbség.
a tartomány kiszámítása
adatkészlet a
>4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
a tartomány 4, a legmagasabb (8 ) és a legalacsonyabb (4) érték közötti különbség. adatkészlet B
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
a tartomány 10, a legmagasabb (11 ) és a legalacsonyabb (1) érték közötti különbség.
egy számsoron látható, hogy a B adathalmaz értéktartománya nagyobb, mint az a adathalmaz. |
a kvartilisek egy rendezett adathalmazt négy egyenlő részre osztanak, és a negyedek közötti pont értékeire hivatkoznak. Az adatkészlet fel is osztható kvintilisekre (öt egyenlő rész) vagy decilisekre (tíz egyenlő rész).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of értékek. Ezt 25.percentilisnek is nevezik.
a második kvartilis (Q2) az adathalmaz közepe. Ezt 50.percentilisnek vagy mediánnak is nevezik.
a felső kvartilis (Q3) az értékek legalacsonyabb 75% – A és legmagasabb 25% – A közötti pont. Ezt a 75.percentilisnek is nevezik.
Calculating Quartiles
mivel a kvartilis pont két érték közé esik, ezen értékek átlaga (átlaga) a kvartilis érték:
mivel a kvartilis pont két érték közé esik, ezen értékek átlaga (átlaga) a kvartilis érték: |
az interkvartilis tartomány (IQR) a felső (Q3) és az alsó (Q1) kvartilisek közötti különbség, és az értékek középső 50% – át írja le a legalacsonyabbtól a legmagasabbig. Az IQR-t gyakran jobb terjedési mércének tekintik, mint a tartományt, mivel a kiugró értékek nem befolyásolják.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2
A B adatkészlet IQR értéke = 5
IQR = Q3 – Q1
= 8,5-3,5
= 5
a szórás és a szórás az adatok átlag körüli eloszlásának mértéke. Összefoglalják, hogy az egyes megfigyelt adatok értéke milyen közel van az átlagértékhez.
A Kis szórású adatkészletekben minden érték nagyon közel van az átlaghoz, ami kis szórást és szórást eredményez. Ahol egy adatkészlet diszpergáltabb, az értékek távolabb kerülnek az átlagtól, ami nagyobb szórást és szórást eredményez.
minél kisebb a szórás és szórás, annál inkább az átlagérték jelzi a teljes adatkészletet. Ezért, ha egy adatkészlet összes értéke azonos, akkor a szórás és a szórás nulla.
a normál eloszlás szórása lehetővé teszi számunkra a konfidencia intervallumok kiszámítását. Normál eloszlásban az értékek körülbelül 68% – a az átlag mindkét oldalán egy szóráson belül van, a pontszámok körülbelül 95% – a pedig az átlag két szórásán belül van.
A lakosság Variancia σ2 (ejtsd: sigma négyzet) egy különálló számok fejezik ki a következő képlet adja meg:
, ahol:
Xi jelöli az i-edik egység, kezdve az első megfigyelés, hogy a múlt
μ a sokaságot jelent,
N képviseli, az egységek számát a népesség
A Variancia a minta s2 (ejtsd s a négyzeten) fejezik ki, egy kicsit más a képlet:
hol:
xi képviseli az i-edik egység, kezdve az első megfigyelés az utolsó
x képviseli a minta átlag
n jelenti az egységek száma a mintában
a szórás a négyzetgyök a variancia. A populációra vonatkozó szórást a következők képviselik: a mintára vonatkozó szórást pedig s.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
adatkészlet B
Számítsa ki a B adatkészlet populációs átlagát (KB). |
a nagyobb szórás és szórás adathalmaz B tovább bizonyítja, hogy adathalmaz B több szétszórt, mint adathalmaz A.
vissza a statisztikai nyelv honlapja