Statistical Language-Measures of Spread
What are measures of spread?
hajontamittarit kuvaavat, kuinka samanlaisia tai vaihtelevia havaitut arvot ovat tietylle muuttujalle (tietoerä). Hajonta-arvot ovat alue, kvartiilit ja kvartiilien välinen alue, varianssi ja keskihajonta.
When can we measure spread?
arvojen hajonta voidaan mitata kvantitatiiviselle datalle, sillä muuttujat ovat numeerisia ja ne voidaan järjestää loogiseen järjestykseen, jossa on alapään arvo ja yläloppuarvo.
Why do we measure spread?
aineiston tiivistäminen voi auttaa meitä ymmärtämään aineistoa, varsinkin kun aineisto on suuri. Kuten Measures of Central Tendency-sivulla on todettu, mode, mediaani ja mean summaavat tiedot yhdeksi arvoksi, joka on tyypillinen tai edustaa kaikkia tietokokonaisuuden arvoja, mutta tämä on vain osa ”kuvaa”, joka summaa aineiston. Hajontamittarit tiivistävät tiedot siten, että ne osoittavat, kuinka hajallaan arvot ovat ja kuinka paljon ne eroavat keskiarvosta.
esimerkiksi:
molempien tietojoukkojen moodi (yleisin arvo), mediaani (keskimmäinen arvo*) ja keskiarvo (aritmeettinen keskiarvo) on 6. |
mitä kukin leviämisen mitta kertoo meille?
vaihteluväli on tietojoukon pienimmän ja suurimman arvon erotus.
laskettaessa vaihteluväliä
Dataset a
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
vaihteluväli on 4, suurimman arvon (8 ) ja pienimmän arvon (4) erotus. Dataset b
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
vaihteluväli on 10, suurimman arvon (11 ) ja pienimmän arvon (1) erotus.
lukusuoralla voidaan nähdä, että aineiston B arvoalue on suurempi kuin aineisto A. |
kvartiilit jakavat järjestetyn aineiston neljään yhtä suureen osaan, ja viittaavat pisteen arvoihin neljännesten välillä. Aineisto voidaan jakaa myös kvintiileihin (viisi yhtä suurta osaa) tai desiileihin (kymmenen yhtä suurta osaa).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of arvo. Sitä kutsutaan myös 25.prosenttipisteeksi.
toinen kvartiili (Q2) on aineiston keskimmäinen. Sitä kutsutaan myös 50.prosenttipisteeksi eli mediaaniksi.
yläkvartiili (Q3) on piste alimman 75%: n ja korkeimman 25%: n arvojen välillä. Sitä kutsutaan myös 75.prosenttipisteeksi.
Calculating Quartiles
koska kvartiilin Piste sijoittuu kahden arvon väliin, näiden arvojen keskiarvo on kvartiilin arvo:
koska Kvartiilin piste sijoittuu kahden arvon väliin, näiden arvojen keskiarvo on kvartiilin arvo: |
kvartiilien välinen alue (IQR) on ylemmän (Q3) ja alemman (Q1) kvartiilin välinen erotus, ja kuvaa keskimmäistä 50% arvoista, kun ne on järjestetty alimmasta korkeimpaan. IQR: ää pidetään usein vaihteluväliä parempana leviämismittarina, koska poikkeamat eivät vaikuta siihen.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = Q3-Q1
= 7 – 5
= 2
aineiston B IQR on = 5
IQR = Q3 – Q1
= 8,5-3,5
= 5
varianssi ja keskihajonta ovat mittareita aineiston hajaantumisesta keskiarvon ympärille. Niissä esitetään yhteenveto siitä, kuinka lähellä kunkin havaitun aineiston arvo on keskiarvoa.
tietojoukoissa, joissa on pieni hajonta, kaikki arvot ovat hyvin lähellä keskiarvoa, mistä seuraa pieni varianssi ja keskihajonta. Jos aineisto on hajanaisempi, arvot leviävät kauemmas keskiarvosta, mikä johtaa suurempaan varianssiin ja keskihajontaan.
mitä pienempi varianssi ja keskihajonta, sitä enemmän keskiarvo kertoo koko aineistosta. Jos siis tietojoukon kaikki arvot ovat samat, keskihajonta ja varianssi ovat nolla.
normaalijakauman keskihajonta mahdollistaa luottamusvälien laskemisen. Normaalijakaumassa noin 68% arvoista on yhden keskihajonnan sisällä keskiarvon molemmin puolin ja noin 95% pisteistä kahden keskihajonnan sisällä keskiarvosta.
diskreetin lukujoukon perusjoukon varianssi σ2 (lausutaan Sigma potenssiin) ilmaistaan seuraavalla kaavalla:
missä:
Xi edustaa I: n yksikköä, alkaen ensimmäisestä havainnosta viimeiseen
μ edustaa perusjoukon keskiarvoa
N edustaa perusjoukon yksiköiden lukumäärää
otoksen S2 (lausutaan s potenssiin) varianssi ilmaistaan hieman eri kaavalla:
br>
missä:
xi edustaa i: nnen yksikköä, alkaen ensimmäisestä havainnosta viimeiseen
x edustaa otoksen keskiarvoa
n edustaa otoksen yksikkömäärää
keskihajonta on varianssin neliöjuuri. Perusjoukon keskihajonta esitetään σ: lla ja otoksen keskihajonta S: llä.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
tietojoukko b
laske tietojoukon B perusjoukon keskiarvo (μ). |
suurempi varianssi ja keskihajonta tietojoukossa B osoittaa edelleen, että tietojoukko B on hajaantuneempi kuin tietojoukko A.
palaa Tilastokielelle kotisivulle