Limbaj statistic-măsuri de răspândire
Ce sunt măsuri de răspândire?
măsurile de răspândire descriu cât de similare sau variate sunt setul de valori observate pentru o anumită variabilă (element de date). Măsurile de răspândire includ intervalul, quartilele și intervalul interquartil, varianța și deviația standard.
când putem măsura răspândirea?răspândirea valorilor poate fi măsurată pentru date cantitative, deoarece variabilele sunt numerice și pot fi aranjate într-o ordine logică cu o valoare finală scăzută și o valoare finală ridicată.
De ce măsurăm răspândirea?
rezumarea setului de date ne poate ajuta să înțelegem datele, mai ales atunci când setul de date este mare. După cum s-a discutat în pagina măsuri de tendință centrală, modul, mediana și media rezumă datele într-o singură valoare care este tipică sau reprezentativă pentru toate valorile din setul de date, dar aceasta este doar o parte a imaginii care rezumă un set de date. Măsurile de răspândire rezumă datele într-un mod care arată cât de împrăștiate sunt valorile și cât de mult diferă de valoarea medie.
de exemplu:
modul (valoarea cea mai frecventă), mediana (valoarea medie*) și media (media aritmetică) a ambelor seturi de date este 6. |
Ce ne spune fiecare măsură de răspândire?
intervalul este diferența dintre cea mai mică valoare și cea mai mare valoare dintr-un set de date.
calcularea intervalului
setul de date A
4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
intervalul este 4, diferența dintre cea mai mare valoare (8 ) și cea mai mică valoare (4). set de date B
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
intervalul este 10, diferența dintre cea mai mare valoare (11 ) și cea mai mică valoare (1).
pe o linie numerică, puteți vedea că intervalul de valori pentru setul de date B este mai mare decât setul de date A. |
Quartilele împart un set de date ordonat în patru părți egale și se referă la valorile punctului dintre sferturi. Un set de date poate fi, de asemenea, împărțit în chintile (cinci părți egale) sau decile (zece părți egale).
Quartiles
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of valori. Se mai numește și percentila 25.
A doua quartilă (Q2) este mijlocul setului de date. Se mai numește percentila 50 sau mediana.
quartila superioară (Q3) este punctul dintre cel mai mic 75% și cel mai mare 25% din valori. Se mai numește și percentila 75.
Calculating Quartiles
deoarece punctul quartilei se încadrează între două valori, media (medie) a acestor valori este valoarea quartilei:
deoarece punctul Quartilei se încadrează între două valori, media (medie) a acestor valori este valoarea quartilei: |
intervalul interquartil (IQR) este diferența dintre quartilele superioare (Q3) și inferioare (Q1) și descrie 50% din valori medii atunci când sunt ordonate de la cel mai mic la cel mai mare. IQR este adesea văzută ca o măsură mai bună a răspândirii decât intervalul, deoarece nu este afectată de valori aberante.
Interquartile Range
|
||||||||||||||
25% of values
|
Q1
|
25% of values
|
Q2
|
25% of values
|
Q3
|
25% of values
|
The IQR for Dataset A is = 2
IQR = Q3-Q1 = 7-5 = 2 IQR pentru setul de date B este = 5 IQR= Q3 – Q1= 8,5 – 3,5 = 5 varianța și deviația standard sunt măsuri ale răspândirii datelor în jurul mediei. Acestea rezumă cât de aproape este fiecare valoare de date observată de valoarea medie.
în seturile de date cu o răspândire mică, toate valorile sunt foarte apropiate de medie, rezultând o variație mică și o abatere standard. În cazul în care un set de date este mai dispersat, valorile sunt răspândite mai departe de medie, ducând la o varianță mai mare și o abatere standard.
Cu cât varianța și deviația standard sunt mai mici, cu atât valoarea medie este mai indicativă pentru întregul set de date. Prin urmare, dacă toate valorile unui set de date sunt aceleași, abaterea standard și varianța sunt zero.deviația standard a unei distribuții normale ne permite să calculăm intervalele de încredere. Într-o distribuție normală, aproximativ 68% Din valori se încadrează într-o abatere standard de fiecare parte a mediei și aproximativ 95% din scoruri se încadrează în două abateri standard ale mediei.
varianta populatiei inqq2 (pronuntata sigma patrata) a unui set discret de numere este exprimata prin urmatoarea formula:
unde:
Xi reprezinta a i-a unitate, pornind de la prima observatie pana la ultima
inqcx reprezinta media populatiei
n reprezinta numarul de unitati din populatie
varianta unei probe s2 (pronuntata s patrata) este exprimata printr-o formula usor diferita:
br>
unde: X reprezintă media eșantionului n reprezintă numărul de unități din eșantion deviația standard este rădăcina pătrată a varianței. Deviația standard pentru o populație este reprezentată de SEC, iar deviația standard pentru un eșantion este reprezentată de SEC.
Calculating the Population Variance σ2 and Standard Deviation σ
|
|
Dataset A
Calculate the population mean (μ) of Dataset A. |
setul de date B
se calculează media populației (inkt) din setul de date B. |
varianța mai mare și deviația Standard în setul de date b demonstrează în continuare că setul de date B este mai dispersat decât setul de date A.
reveni la pagina de limbă Statistică