Statistical Language-Measures of Spread

What are measures of spread?
hajontamittarit kuvaavat, kuinka samanlaisia tai vaihtelevia havaitut arvot ovat tietylle muuttujalle (tietoerä). Hajonta-arvot ovat alue, kvartiilit ja kvartiilien välinen alue, varianssi ja keskihajonta.
When can we measure spread?
arvojen hajonta voidaan mitata kvantitatiiviselle datalle, sillä muuttujat ovat numeerisia ja ne voidaan järjestää loogiseen järjestykseen, jossa on alapään arvo ja yläloppuarvo.
Why do we measure spread?
aineiston tiivistäminen voi auttaa meitä ymmärtämään aineistoa, varsinkin kun aineisto on suuri. Kuten Measures of Central Tendency-sivulla on todettu, mode, mediaani ja mean summaavat tiedot yhdeksi arvoksi, joka on tyypillinen tai edustaa kaikkia tietokokonaisuuden arvoja, mutta tämä on vain osa ”kuvaa”, joka summaa aineiston. Hajontamittarit tiivistävät tiedot siten, että ne osoittavat, kuinka hajallaan arvot ovat ja kuinka paljon ne eroavat keskiarvosta.

esimerkiksi:

Dataset a
Dataset B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

molempien tietojoukkojen moodi (yleisin arvo), mediaani (keskimmäinen arvo*) ja keskiarvo (aritmeettinen keskiarvo) on 6.
(*Huomaa, että parillisen numeroidun tietojoukon mediaani lasketaan ottamalla kahden keskimmäisen havainnon keskiarvo).
Jos vain tarkastelimme Keskisen tendenssin mittoja, saatamme olettaa, että aineistot ovat samat.
Jos kuitenkin tarkastelemme Seuraavassa kuvaajassa olevien arvojen leviämistä, voimme nähdä, että aineisto B on Hajaantuneempi kuin aineisto A. yhdessä käytettyinä keskeisen tendenssin Mittarit ja leviämisen mittarit auttavat meitä ymmärtämään paremmin aineistoa

mitä kukin leviämisen mitta kertoo meille?
vaihteluväli on tietojoukon pienimmän ja suurimman arvon erotus.

laskettaessa vaihteluväliä

Dataset a

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

vaihteluväli on 4, suurimman arvon (8 ) ja pienimmän arvon (4) erotus.

Dataset b

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

vaihteluväli on 10, suurimman arvon (11 ) ja pienimmän arvon (1) erotus.

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

lukusuoralla voidaan nähdä, että aineiston B arvoalue on suurempi kuin aineisto A.

kvartiilit jakavat järjestetyn aineiston neljään yhtä suureen osaan, ja viittaavat pisteen arvoihin neljännesten välillä. Aineisto voidaan jakaa myös kvintiileihin (viisi yhtä suurta osaa) tai desiileihin (kymmenen yhtä suurta osaa).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of arvo. Sitä kutsutaan myös 25.prosenttipisteeksi.

toinen kvartiili (Q2) on aineiston keskimmäinen. Sitä kutsutaan myös 50.prosenttipisteeksi eli mediaaniksi.
yläkvartiili (Q3) on piste alimman 75%: n ja korkeimman 25%: n arvojen välillä. Sitä kutsutaan myös 75.prosenttipisteeksi.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

koska kvartiilin Piste sijoittuu kahden arvon väliin, näiden arvojen keskiarvo on kvartiilin arvo:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

koska Kvartiilin piste sijoittuu kahden arvon väliin, näiden arvojen keskiarvo on kvartiilin arvo:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

kvartiilien välinen alue (IQR) on ylemmän (Q3) ja alemman (Q1) kvartiilin välinen erotus, ja kuvaa keskimmäistä 50% arvoista, kun ne on järjestetty alimmasta korkeimpaan. IQR: ää pidetään usein vaihteluväliä parempana leviämismittarina, koska poikkeamat eivät vaikuta siihen.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3-Q1
= 7 – 5
= 2
aineiston B IQR on = 5
IQR = Q3 – Q1
= 8,5-3,5
= 5
varianssi ja keskihajonta ovat mittareita aineiston hajaantumisesta keskiarvon ympärille. Niissä esitetään yhteenveto siitä, kuinka lähellä kunkin havaitun aineiston arvo on keskiarvoa.
tietojoukoissa, joissa on pieni hajonta, kaikki arvot ovat hyvin lähellä keskiarvoa, mistä seuraa pieni varianssi ja keskihajonta. Jos aineisto on hajanaisempi, arvot leviävät kauemmas keskiarvosta, mikä johtaa suurempaan varianssiin ja keskihajontaan.
mitä pienempi varianssi ja keskihajonta, sitä enemmän keskiarvo kertoo koko aineistosta. Jos siis tietojoukon kaikki arvot ovat samat, keskihajonta ja varianssi ovat nolla.
normaalijakauman keskihajonta mahdollistaa luottamusvälien laskemisen. Normaalijakaumassa noin 68% arvoista on yhden keskihajonnan sisällä keskiarvon molemmin puolin ja noin 95% pisteistä kahden keskihajonnan sisällä keskiarvosta.
diskreetin lukujoukon perusjoukon varianssi σ2 (lausutaan Sigma potenssiin) ilmaistaan seuraavalla kaavalla:
Kuva: yhtälö
missä:
Xi edustaa I: n yksikköä, alkaen ensimmäisestä havainnosta viimeiseen
μ edustaa perusjoukon keskiarvoa
N edustaa perusjoukon yksiköiden lukumäärää
otoksen S2 (lausutaan s potenssiin) varianssi ilmaistaan hieman eri kaavalla:
br>kuva; yhtälö
missä:
xi edustaa i: nnen yksikköä, alkaen ensimmäisestä havainnosta viimeiseen
x edustaa otoksen keskiarvoa
n edustaa otoksen yksikkömäärää
keskihajonta on varianssin neliöjuuri. Perusjoukon keskihajonta esitetään σ: lla ja otoksen keskihajonta S: llä.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
keskiarvo (μ) = 6
lasketaan yksittäisten arvojen poikkeama keskiarvosta vähentämällä keskiarvo kustakin aineistossa olevasta arvosta
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
neliö kunkin yksittäisen poikkeaman arvo
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
laske neliöpoikkeamien keskiarvo
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
varianssi σ2= 1.17
laske varianssin neliöjuuri
keskihajonta σ = 1, 08

tietojoukko b

laske tietojoukon B perusjoukon keskiarvo (μ).
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
keskiarvo (μ) = 6
lasketaan yksittäisten arvojen poikkeama keskiarvosta vähentämällä keskiarvo kustakin aineistossa olevasta arvosta
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
neliö jokaisen yksittäisen poikkeaman arvo
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
laske neliöpoikkeamien keskiarvo
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
varianssi σ2 = 9.17
laske varianssin neliöjuuri
keskihajonta σ = 3.03

suurempi varianssi ja keskihajonta tietojoukossa B osoittaa edelleen, että tietojoukko B on hajaantuneempi kuin tietojoukko A.
palaa Tilastokielelle kotisivulle



Vastaa

Sähköpostiosoitettasi ei julkaista.