Statistický jazyk-míry šíření

jaké jsou míry šíření?
míry šíření popisují, jak podobné nebo rozmanité jsou sady pozorovaných hodnot pro konkrétní proměnnou (datovou položku). Míry šíření zahrnují rozsah, kvartily a mezikvartilní rozsah, rozptyl a směrodatnou odchylku.
kdy můžeme měřit šíření?
rozložení hodnot lze měřit pro kvantitativní data, protože proměnné jsou číselné a mohou být uspořádány do logického pořadí s nízkou koncovou hodnotou a vysokou koncovou hodnotou.
proč měříme šíření?
shrnutí datové sady nám může pomoci porozumět datům, zejména pokud je datová sada velká. Jak je uvedeno v Opatření Centrální Tendence stránky, režim, medián, a tím shrnout data do jednoho hodnotu, že je typický nebo reprezentativní ze všech hodnot v souboru dat, ale to je jen část „obraz“, který shrnuje dataset. Míry šíření shrnují data způsobem, který ukazuje, jak jsou hodnoty rozptýleny a jak se liší od střední hodnoty.

například:

Dataset
Dataset B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

režim (nejčastější hodnota), medián (prostřední hodnota*) a průměr (aritmetický průměr) z obou souborů dat je 6.
(*všimněte si, že medián sudého číslovaného souboru dat se vypočítá tak, že se vezme průměr středních dvou pozorování).
Pokud bychom se jen podívali na Míry centrální tendence, můžeme předpokládat, že datové sady jsou stejné.
Nicméně, pokud se podíváme na šíření hodnot v následujícím grafu, můžeme vidět, že datový soubor B je více rozptýlené, než Dataset A Použity společně, opatření centrální tendence a opatření, šíření, nám pomáhají lépe pochopit data

to, Co dělá každé opatření šíření říct?
rozsah je rozdíl mezi nejmenší hodnotou a největší hodnotou v datovém souboru.

Výpočet Rozpětí

Dataset

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

rozsah je 4, rozdíl mezi nejvyšší hodnotou (8 ) a nejnižší hodnotou (4).

Dataset B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

rozsah je 10, rozdíl mezi nejvyšší hodnotou (11 ) a nejnižší hodnotou (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

Na číselné ose, můžete vidět, že rozsah hodnot pro datový soubor B je větší než objekt Dataset A.

Kvartily rozdělují uspořádaný datový soubor na čtyři stejné části, a odkazují na hodnoty bodu mezi čtvrtletích. Datová sada může být také rozdělena na kvintily (pět stejných částí) nebo decily (deset stejných částí).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of hodnota. Nazývá se také 25. percentil.

druhý kvartil (Q2) je uprostřed datové sady. Nazývá se také 50. percentil nebo medián.
horní kvartil (Q3) je bod mezi nejnižšími 75% a nejvyššími 25% hodnot. Nazývá se také 75. percentil.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

Jako kvartil bod spadá mezi dvě hodnoty, na průměrné (průměr) z těchto hodnot je kvartil hodnota:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

Jako kvartil bod spadá mezi dvě hodnoty, na průměrné (průměr) z těchto hodnot je kvartil hodnota:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
3= (8+9) / 2 = 8.5

mezikvartilové rozpětí (IQR) je rozdíl mezi horním (Q3) a nižší (Q1) kvartil, a popisuje, střední 50% hodnoty, při objednávce od nejnižší k nejvyšší. IQR je často považován za lepší míru šíření než rozsah, protože není ovlivněn odlehlými hodnotami.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2,
IQR pro Dataset je B = 5,
IQR = Q3 – Q1
= 8.5 – 3.5
= 5,
rozptyl a směrodatná odchylka jsou opatření z rozložení dat kolem střední hodnoty. Shrnují, jak blízko je každá pozorovaná hodnota dat střední hodnotě.
v datových sadách s malým rozsahem jsou všechny hodnoty velmi blízké průměru, což má za následek malý rozptyl a směrodatnou odchylku. Tam, kde je datová sada rozptýlenější, hodnoty jsou rozloženy dále od průměru, což vede k většímu rozptylu a směrodatné odchylce.
čím menší je rozptyl a směrodatná odchylka, tím více je střední hodnota indikativní pro celou datovou sadu. Pokud jsou tedy všechny hodnoty datové sady stejné, směrodatná odchylka a rozptyl jsou nulové.
směrodatná odchylka normálního rozdělení nám umožňuje vypočítat intervaly spolehlivosti. V normálním rozdělení je asi 68% hodnot v rámci jedné směrodatné odchylky na obou stranách průměru a asi 95% skóre je v rámci dvou směrodatných odchylek od průměru.
populační Rozptyl σ2 (vyslovuje se sigma na druhou) diskrétní množina čísel je vyjádřen pomocí následujícího vzorce:
Obrázek: Rovnice
kde:
Xi představuje i-tý jednotky, a to od prvního pozorování do posledního
μ představuje populační průměr,
N představuje počet jednotek v populaci
Rozptyl vzorku s2 (vyslovováno s na druhou) je vyjádřena mírně odlišný vzorec:
Obrázek; Rovnice
kde:
xi představuje i-tý jednotky, a to od prvního pozorování do posledního
x představuje výběrový průměr
n představuje počet jednotek ve vzorku
směrodatná odchylka je odmocnina z rozptylu. Směrodatná odchylka pro populaci je reprezentována σ a směrodatná odchylka pro vzorek je reprezentována s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
průměr (μ) = 6
Vypočítat odchylky jednotlivých hodnot od průměru, a to odečtením průměru od každé hodnoty ve dataset
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
Metr jednotlivé hodnoty odchylky
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Vypočítat průměrná kvadratická odchylka hodnot
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
Rozptyl σ2= 1.17
Vypočítat druhou odmocninu rozptylu
Směrodatná odchylka σ = 1.08

Dataset B

Spočítejte populační průměr (μ) Dataset B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
průměr (μ) = 6
Vypočítat odchylky jednotlivých hodnot od průměru, a to odečtením průměru od každé hodnoty ve dataset
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
Metr jednotlivé hodnoty odchylky
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Vypočítat průměrná kvadratická odchylka hodnot
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
Rozptyl σ2 = 9.17
Vypočítat druhou odmocninu rozptylu
Směrodatná odchylka σ = 3.03

větší Rozptyl a Směrodatná Odchylka datového souboru B je dalším důkazem, že Dataset B je více rozptýlené, než Dataset A.
Návrat do Statistického Jazyka Domovskou stránku



Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.