Limbaj statistic-măsuri de răspândire

Ce sunt măsuri de răspândire?
măsurile de răspândire descriu cât de similare sau variate sunt setul de valori observate pentru o anumită variabilă (element de date). Măsurile de răspândire includ intervalul, quartilele și intervalul interquartil, varianța și deviația standard.
când putem măsura răspândirea?răspândirea valorilor poate fi măsurată pentru date cantitative, deoarece variabilele sunt numerice și pot fi aranjate într-o ordine logică cu o valoare finală scăzută și o valoare finală ridicată.
De ce măsurăm răspândirea?
rezumarea setului de date ne poate ajuta să înțelegem datele, mai ales atunci când setul de date este mare. După cum s-a discutat în pagina măsuri de tendință centrală, modul, mediana și media rezumă datele într-o singură valoare care este tipică sau reprezentativă pentru toate valorile din setul de date, dar aceasta este doar o parte a imaginii care rezumă un set de date. Măsurile de răspândire rezumă datele într-un mod care arată cât de împrăștiate sunt valorile și cât de mult diferă de valoarea medie.

de exemplu:

setul de date A
setul de date B
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

modul (valoarea cea mai frecventă), mediana (valoarea medie*) și media (media aritmetică) a ambelor seturi de date este 6.
(*Notă, mediana unui set de date pare numerotate se calculează luând media de mijloc două observații).
dacă ne uităm doar la măsurile tendinței centrale, putem presupune că seturile de date sunt aceleași.cu toate acestea, dacă ne uităm la răspândirea valorilor din graficul următor, putem vedea că setul de date B este mai dispersat decât setul de date A. utilizate împreună, măsurile tendinței centrale și măsurile de răspândire ne ajută să înțelegem mai bine datele

Ce ne spune fiecare măsură de răspândire?
intervalul este diferența dintre cea mai mică valoare și cea mai mare valoare dintr-un set de date.

calcularea intervalului

setul de date A

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

intervalul este 4, diferența dintre cea mai mare valoare (8 ) și cea mai mică valoare (4).

set de date B

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

intervalul este 10, diferența dintre cea mai mare valoare (11 ) și cea mai mică valoare (1).

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

pe o linie numerică, puteți vedea că intervalul de valori pentru setul de date B este mai mare decât setul de date A.

Quartilele împart un set de date ordonat în patru părți egale și se referă la valorile punctului dintre sferturi. Un set de date poate fi, de asemenea, împărțit în chintile (cinci părți egale) sau decile (zece părți egale).

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of valori. Se mai numește și percentila 25.
A doua quartilă (Q2) este mijlocul setului de date. Se mai numește percentila 50 sau mediana.
quartila superioară (Q3) este punctul dintre cel mai mic 75% și cel mai mare 25% din valori. Se mai numește și percentila 75.

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7
Q3
7 7 8

deoarece punctul quartilei se încadrează între două valori, media (medie) a acestor valori este valoarea quartilei:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8
Q3
9 10 11

deoarece punctul Quartilei se încadrează între două valori, media (medie) a acestor valori este valoarea quartilei:
Q1 = (3+4) / 2 = 3.5
Q2 = (6+6) / 2 = 63 = (8+9) / 2 = 8.5

intervalul interquartil (IQR) este diferența dintre quartilele superioare (Q3) și inferioare (Q1) și descrie 50% din valori medii atunci când sunt ordonate de la cel mai mic la cel mai mare. IQR este adesea văzută ca o măsură mai bună a răspândirii decât intervalul, deoarece nu este afectată de valori aberante.

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR = Q3-Q1 = 7-5 = 2 IQR pentru setul de date B este = 5 IQR= Q3 – Q1= 8,5 – 3,5 = 5 varianța și deviația standard sunt măsuri ale răspândirii datelor în jurul mediei. Acestea rezumă cât de aproape este fiecare valoare de date observată de valoarea medie.
în seturile de date cu o răspândire mică, toate valorile sunt foarte apropiate de medie, rezultând o variație mică și o abatere standard. În cazul în care un set de date este mai dispersat, valorile sunt răspândite mai departe de medie, ducând la o varianță mai mare și o abatere standard.
Cu cât varianța și deviația standard sunt mai mici, cu atât valoarea medie este mai indicativă pentru întregul set de date. Prin urmare, dacă toate valorile unui set de date sunt aceleași, abaterea standard și varianța sunt zero.deviația standard a unei distribuții normale ne permite să calculăm intervalele de încredere. Într-o distribuție normală, aproximativ 68% Din valori se încadrează într-o abatere standard de fiecare parte a mediei și aproximativ 95% din scoruri se încadrează în două abateri standard ale mediei.
varianta populatiei inqq2 (pronuntata sigma patrata) a unui set discret de numere este exprimata prin urmatoarea formula:
Image: ecuatia
unde:
Xi reprezinta a i-a unitate, pornind de la prima observatie pana la ultima
inqcx reprezinta media populatiei
n reprezinta numarul de unitati din populatie
varianta unei probe s2 (pronuntata s patrata) este exprimata printr-o formula usor diferita:
br>imagine; ecuație
unde: X reprezintă media eșantionului n reprezintă numărul de unități din eșantion deviația standard este rădăcina pătrată a varianței. Deviația standard pentru o populație este reprezentată de SEC, iar deviația standard pentru un eșantion este reprezentată de SEC.

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
medie (inkt) = 6
calculați abaterea valorilor individuale de la medie scăzând media din fiecare valoare din setul de Date
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
pătrat fiecare valoare abatere individuală
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
calculați media valorilor deviației pătrate
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
varianță inktif2= 1.17
Se calculează rădăcina pătrată a varianței
abaterea standard de la 1,08

setul de date B

se calculează media populației (inkt) din setul de date B.
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
medie (inkt) = 6
calculați abaterea valorilor individuale de la medie scăzând media din fiecare valoare din setul de Date
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
pătrat fiecare valoare abatere individuală
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
calculați media valorilor deviației pătrate
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
varianță inktif2 = 9.17
Se calculează rădăcina pătrată a varianței
abaterea standard de la 3,03

varianța mai mare și deviația Standard în setul de date b demonstrează în continuare că setul de date B este mai dispersat decât setul de date A.
reveni la pagina de limbă Statistică



Lasă un răspuns

Adresa ta de email nu va fi publicată.