Język statystyczny-miary spreadu

czym są miary spreadu?
miary spreadu opisują, jak podobny lub zróżnicowany jest zbiór obserwowanych wartości dla danej zmiennej (pozycji danych). Miary rozprzestrzeniania obejmują zakres, kwartyle i zakres międzykwartylowy, wariancję i odchylenie standardowe.
kiedy możemy zmierzyć spread?
rozrzut wartości można mierzyć dla danych ilościowych, ponieważ zmienne są liczbowe i mogą być ułożone w logiczny porządek z niską wartością końcową i wysoką wartością końcową.
dlaczego mierzymy spread?
podsumowanie zbioru danych może pomóc nam zrozumieć Dane, zwłaszcza gdy zbiór danych jest duży. Jak omówiono na stronie Miary tendencji centralnej, tryb, mediana i średnia podsumowują dane w jedną wartość, która jest typowa lub reprezentatywna dla wszystkich wartości w zbiorze danych, ale jest to tylko część „obrazu”, który podsumowuje zbiór danych. Miary spreadu podsumowują dane w sposób, który pokazuje, jak rozproszone są wartości i jak bardzo różnią się od wartości średniej.

na przykład:

Dataset a
Dataset B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

tryb (najczęstsza wartość), mediana (średnia*) i średnia (średnia arytmetyczna) obu zestawów danych wynosi 6.
(*Uwaga, mediana parzystego zbioru danych jest obliczana na podstawie średniej z dwóch środkowych obserwacji).
jeśli przyjrzymy się miarom tendencji centralnej, możemy założyć, że zbiory danych są takie same.
jednak, jeśli spojrzymy na rozprzestrzenianie się wartości na poniższym wykresie, widzimy, że zbiór danych B jest bardziej rozproszony niż zbiór danych A. używane razem, Miary tendencji centralnej i miary rozprzestrzeniania pomagają nam lepiej zrozumieć dane

co mówi nam każda miara rozprzestrzeniania?
zakres jest różnicą między najmniejszą wartością a największą wartością w zbiorze danych.

Obliczanie zakresu

Dataset a

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

zakres wynosi 4, różnica między najwyższą wartością (8 ) A najniższą wartością (4).

Dataset B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

zakres wynosi 10, różnica między najwyższą wartością (11 ) A najniższą wartością (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

na linii liczbowej widać, że zakres wartości dla zbioru danych B jest większy niż zbioru danych A.

kwartyle dzielą uporządkowany zbiór danych na cztery równe części i odnoszą się do wartości punktu między ćwiartkami. Zbiór danych można również podzielić na kwintyle (pięć równych części) lub decyle (dziesięć równych części).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of wartości. Jest również nazywany 25.percentyl.
drugi kwartyl (Q2) jest środkiem zbioru danych. Nazywany jest również 50. percentylem lub medianą.
górny kwartyl (Q3) jest punktem pomiędzy najniższym 75% A najwyższym 25% wartości. Jest również nazywany 75.percentyl.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

ponieważ punkt kwartylu mieści się między dwiema wartościami, średnia (średnia) tych wartości jest wartością kwartylu:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

ponieważ punkt kwartylu mieści się między dwiema wartościami, średnia (średnia) tych wartości jest wartością kwartylu:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 6
Q3 = (8+9) / 2 = 8.5

zakres międzykwartylowy (IQR) jest różnicą między górnym (Q3) i dolnym (Q1) kwartylem i opisuje środkowe 50% wartości, gdy są uporządkowane od najniższego do najwyższego. IQR jest często postrzegany jako lepsza miara rozprzestrzeniania się niż zakres, ponieważ nie ma na niego wpływu wartości odstających.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2
IQR dla zbioru danych B wynosi = 5
IQR= Q3 – Q1
= 8,5 – 3,5
= 5
wariancja i odchylenie standardowe są miarą rozprzestrzeniania się Danych wokół średniej. Podsumowują one, jak blisko każdej obserwowanej wartości danych jest do wartości średniej.
w zestawach danych z małym spreadem wszystkie wartości są bardzo zbliżone do średniej, co skutkuje małą wariancją i odchyleniem standardowym. Gdzie zbiór danych jest bardziej rozproszony, wartości są rozłożone dalej od średniej, co prowadzi do większej wariancji i odchylenia standardowego.
im mniejsza wariancja i odchylenie standardowe, tym bardziej wartość średnia jest wskaźnikiem całego zbioru danych. Dlatego, jeśli wszystkie wartości zbioru danych są takie same, odchylenie standardowe i wariancja są zerowe.
odchylenie standardowe rozkładu normalnego pozwala obliczyć przedziały ufności . W rozkładzie normalnym około 68% wartości mieści się w granicach jednego odchylenia standardowego po obu stronach średniej, a około 95% wyników mieści się w granicach dwóch odchyleń standardowych średniej.
wariancja populacyjna σ2 (wymawiana Sigma do kwadratu) dyskretnego zbioru liczb wyraża się następującym wzorem:
Zdjęcie: równanie
Gdzie:
Xi oznacza i-tą jednostkę, począwszy od pierwszej obserwacji do ostatniej
μ oznacza średnią populacyjną
N oznacza liczbę jednostek w populacji
wariancja próbki S2 (wymawiana s do kwadratu) jest wyrażona nieco innym wzorem:
obraz; równanie
Gdzie:
xi reprezentuje i-tą jednostkę, począwszy od pierwszej obserwacji do ostatniej
x oznacza średnią z próby
n oznacza liczbę jednostek w próbie
odchylenie standardowe jest pierwiastkiem kwadratowym wariancji. Odchylenie standardowe dla populacji jest reprezentowane przez σ, a odchylenie standardowe dla próbki jest reprezentowane przez s.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
średnia (μ) = 6
Oblicz odchylenie poszczególnych wartości od średniej, odejmując średnią od każdej wartości w zbiorze danych
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
kwadratowa każda indywidualna wartość odchylenia
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
Oblicz średnią wartości odchylenia kwadratowego
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
wariancja σ2= 1.17
Oblicz pierwiastek kwadratowy wariancji
odchylenie standardowe σ = 1,08

zbiór danych B

Oblicz średnią populacyjną (μ) zbioru danych B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
średnia (μ) = 6
Oblicz odchylenie poszczególnych wartości od średniej, odejmując średnią od każdej wartości w zbiorze danych
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
kwadratowa każda indywidualna wartość odchylenia
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
Oblicz średnią wartości odchylenia kwadratowego
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
wariancja σ2 = 9.17
Oblicz pierwiastek kwadratowy wariancji
odchylenie standardowe σ = 3,03

większa wariancja i odchylenie standardowe w zbiorze danych B dodatkowo pokazuje, że zbiór danych B jest bardziej rozproszony niż zbiór danych A.
Powrót do strony głównej języka Statystycznego



Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.