Język statystyczny-miary spreadu
czym są miary spreadu?
miary spreadu opisują, jak podobny lub zróżnicowany jest zbiór obserwowanych wartości dla danej zmiennej (pozycji danych). Miary rozprzestrzeniania obejmują zakres, kwartyle i zakres międzykwartylowy, wariancję i odchylenie standardowe.
kiedy możemy zmierzyć spread?
rozrzut wartości można mierzyć dla danych ilościowych, ponieważ zmienne są liczbowe i mogą być ułożone w logiczny porządek z niską wartością końcową i wysoką wartością końcową.
dlaczego mierzymy spread?
podsumowanie zbioru danych może pomóc nam zrozumieć Dane, zwłaszcza gdy zbiór danych jest duży. Jak omówiono na stronie Miary tendencji centralnej, tryb, mediana i średnia podsumowują dane w jedną wartość, która jest typowa lub reprezentatywna dla wszystkich wartości w zbiorze danych, ale jest to tylko część „obrazu”, który podsumowuje zbiór danych. Miary spreadu podsumowują dane w sposób, który pokazuje, jak rozproszone są wartości i jak bardzo różnią się od wartości średniej.
na przykład:
tryb (najczęstsza wartość), mediana (średnia*) i średnia (średnia arytmetyczna) obu zestawów danych wynosi 6. |
co mówi nam każda miara rozprzestrzeniania?
zakres jest różnicą między najmniejszą wartością a największą wartością w zbiorze danych.
Obliczanie zakresu
Dataset a
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
zakres wynosi 4, różnica między najwyższą wartością (8 ) A najniższą wartością (4). Dataset B
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
zakres wynosi 10, różnica między najwyższą wartością (11 ) A najniższą wartością (1).
na linii liczbowej widać, że zakres wartości dla zbioru danych B jest większy niż zbioru danych A. |
kwartyle dzielą uporządkowany zbiór danych na cztery równe części i odnoszą się do wartości punktu między ćwiartkami. Zbiór danych można również podzielić na kwintyle (pięć równych części) lub decyle (dziesięć równych części).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of wartości. Jest również nazywany 25.percentyl.
drugi kwartyl (Q2) jest środkiem zbioru danych. Nazywany jest również 50. percentylem lub medianą.
górny kwartyl (Q3) jest punktem pomiędzy najniższym 75% A najwyższym 25% wartości. Jest również nazywany 75.percentyl.
Calculating Quartiles
ponieważ punkt kwartylu mieści się między dwiema wartościami, średnia (średnia) tych wartości jest wartością kwartylu:
ponieważ punkt kwartylu mieści się między dwiema wartościami, średnia (średnia) tych wartości jest wartością kwartylu: |
zakres międzykwartylowy (IQR) jest różnicą między górnym (Q3) i dolnym (Q1) kwartylem i opisuje środkowe 50% wartości, gdy są uporządkowane od najniższego do najwyższego. IQR jest często postrzegany jako lepsza miara rozprzestrzeniania się niż zakres, ponieważ nie ma na niego wpływu wartości odstających.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = Q3 – Q1
= 7 – 5
= 2
IQR dla zbioru danych B wynosi = 5
IQR= Q3 – Q1
= 8,5 – 3,5
= 5
wariancja i odchylenie standardowe są miarą rozprzestrzeniania się Danych wokół średniej. Podsumowują one, jak blisko każdej obserwowanej wartości danych jest do wartości średniej.
w zestawach danych z małym spreadem wszystkie wartości są bardzo zbliżone do średniej, co skutkuje małą wariancją i odchyleniem standardowym. Gdzie zbiór danych jest bardziej rozproszony, wartości są rozłożone dalej od średniej, co prowadzi do większej wariancji i odchylenia standardowego.
im mniejsza wariancja i odchylenie standardowe, tym bardziej wartość średnia jest wskaźnikiem całego zbioru danych. Dlatego, jeśli wszystkie wartości zbioru danych są takie same, odchylenie standardowe i wariancja są zerowe.
odchylenie standardowe rozkładu normalnego pozwala obliczyć przedziały ufności . W rozkładzie normalnym około 68% wartości mieści się w granicach jednego odchylenia standardowego po obu stronach średniej, a około 95% wyników mieści się w granicach dwóch odchyleń standardowych średniej.
wariancja populacyjna σ2 (wymawiana Sigma do kwadratu) dyskretnego zbioru liczb wyraża się następującym wzorem:
Gdzie:
Xi oznacza i-tą jednostkę, począwszy od pierwszej obserwacji do ostatniej
μ oznacza średnią populacyjną
N oznacza liczbę jednostek w populacji
wariancja próbki S2 (wymawiana s do kwadratu) jest wyrażona nieco innym wzorem:
Gdzie:
xi reprezentuje i-tą jednostkę, począwszy od pierwszej obserwacji do ostatniej
x oznacza średnią z próby
n oznacza liczbę jednostek w próbie
odchylenie standardowe jest pierwiastkiem kwadratowym wariancji. Odchylenie standardowe dla populacji jest reprezentowane przez σ, a odchylenie standardowe dla próbki jest reprezentowane przez s.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
zbiór danych B
Oblicz średnią populacyjną (μ) zbioru danych B. |
większa wariancja i odchylenie standardowe w zbiorze danych B dodatkowo pokazuje, że zbiór danych B jest bardziej rozproszony niż zbiór danych A.
Powrót do strony głównej języka Statystycznego