Statistický jazyk-míry šíření
jaké jsou míry šíření?
míry šíření popisují, jak podobné nebo rozmanité jsou sady pozorovaných hodnot pro konkrétní proměnnou (datovou položku). Míry šíření zahrnují rozsah, kvartily a mezikvartilní rozsah, rozptyl a směrodatnou odchylku.
kdy můžeme měřit šíření?
rozložení hodnot lze měřit pro kvantitativní data, protože proměnné jsou číselné a mohou být uspořádány do logického pořadí s nízkou koncovou hodnotou a vysokou koncovou hodnotou.
proč měříme šíření?
shrnutí datové sady nám může pomoci porozumět datům, zejména pokud je datová sada velká. Jak je uvedeno v Opatření Centrální Tendence stránky, režim, medián, a tím shrnout data do jednoho hodnotu, že je typický nebo reprezentativní ze všech hodnot v souboru dat, ale to je jen část „obraz“, který shrnuje dataset. Míry šíření shrnují data způsobem, který ukazuje, jak jsou hodnoty rozptýleny a jak se liší od střední hodnoty.
například:
režim (nejčastější hodnota), medián (prostřední hodnota*) a průměr (aritmetický průměr) z obou souborů dat je 6. |
to, Co dělá každé opatření šíření říct?
rozsah je rozdíl mezi nejmenší hodnotou a největší hodnotou v datovém souboru.
Výpočet Rozpětí
Dataset
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
rozsah je 4, rozdíl mezi nejvyšší hodnotou (8 ) a nejnižší hodnotou (4). Dataset B
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
rozsah je 10, rozdíl mezi nejvyšší hodnotou (11 ) a nejnižší hodnotou (1).
Na číselné ose, můžete vidět, že rozsah hodnot pro datový soubor B je větší než objekt Dataset A. |
Kvartily rozdělují uspořádaný datový soubor na čtyři stejné části, a odkazují na hodnoty bodu mezi čtvrtletích. Datová sada může být také rozdělena na kvintily (pět stejných částí) nebo decily (deset stejných částí).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of hodnota. Nazývá se také 25. percentil.
druhý kvartil (Q2) je uprostřed datové sady. Nazývá se také 50. percentil nebo medián.
horní kvartil (Q3) je bod mezi nejnižšími 75% a nejvyššími 25% hodnot. Nazývá se také 75. percentil.
Calculating Quartiles
Jako kvartil bod spadá mezi dvě hodnoty, na průměrné (průměr) z těchto hodnot je kvartil hodnota:
Jako kvartil bod spadá mezi dvě hodnoty, na průměrné (průměr) z těchto hodnot je kvartil hodnota: |
mezikvartilové rozpětí (IQR) je rozdíl mezi horním (Q3) a nižší (Q1) kvartil, a popisuje, střední 50% hodnoty, při objednávce od nejnižší k nejvyšší. IQR je často považován za lepší míru šíření než rozsah, protože není ovlivněn odlehlými hodnotami.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2,
IQR pro Dataset je B = 5,
IQR = Q3 – Q1
= 8.5 – 3.5
= 5,
rozptyl a směrodatná odchylka jsou opatření z rozložení dat kolem střední hodnoty. Shrnují, jak blízko je každá pozorovaná hodnota dat střední hodnotě.
v datových sadách s malým rozsahem jsou všechny hodnoty velmi blízké průměru, což má za následek malý rozptyl a směrodatnou odchylku. Tam, kde je datová sada rozptýlenější, hodnoty jsou rozloženy dále od průměru, což vede k většímu rozptylu a směrodatné odchylce.
čím menší je rozptyl a směrodatná odchylka, tím více je střední hodnota indikativní pro celou datovou sadu. Pokud jsou tedy všechny hodnoty datové sady stejné, směrodatná odchylka a rozptyl jsou nulové.
směrodatná odchylka normálního rozdělení nám umožňuje vypočítat intervaly spolehlivosti. V normálním rozdělení je asi 68% hodnot v rámci jedné směrodatné odchylky na obou stranách průměru a asi 95% skóre je v rámci dvou směrodatných odchylek od průměru.
populační Rozptyl σ2 (vyslovuje se sigma na druhou) diskrétní množina čísel je vyjádřen pomocí následujícího vzorce:
kde:
Xi představuje i-tý jednotky, a to od prvního pozorování do posledního
μ představuje populační průměr,
N představuje počet jednotek v populaci
Rozptyl vzorku s2 (vyslovováno s na druhou) je vyjádřena mírně odlišný vzorec:
kde:
xi představuje i-tý jednotky, a to od prvního pozorování do posledního
x představuje výběrový průměr
n představuje počet jednotek ve vzorku
směrodatná odchylka je odmocnina z rozptylu. Směrodatná odchylka pro populaci je reprezentována σ a směrodatná odchylka pro vzorek je reprezentována s.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
Dataset B
Spočítejte populační průměr (μ) Dataset B. |
větší Rozptyl a Směrodatná Odchylka datového souboru B je dalším důkazem, že Dataset B je více rozptýlené, než Dataset A.
Návrat do Statistického Jazyka Domovskou stránku