forelæsning1
Forelæsning1
typer af skalaer & måleniveauer
diskrete ogkontinuerlige variabler
Daniels tekst skelner mellem diskrete og kontinuerlige variabler. Disse er tekniske forskelle, der ikke vil være så vigtige for os i denne klasse. Ifølge teksten er diskrete variabler variabler, hvorier ingen mellemliggende værdier mulige. For eksempel antallet af telefonopkalddu modtager pr.dag. Du kan ikke modtage 6,3 telefonopkald. Kontinuerlige variablerer alt andet; enhver variabel, der teoretisk kan have værdier i mellempunkter (f.eks. mellem 153 og 154 lbs. eksempel). Det viser sig, at dette erikke alt, hvad der er nyttigt for en sondring til vores formål. Hvad der virkelig er mere vigtigt for statistiske overvejelser er det anvendte målingsniveau. Når jeg siger, at det er vigtigere, har jeg virkelig undervurderet dette.At forstå niveauet for måling af en variabel (eller skala eller måling) erden første og vigtigste skelnen man skal gøre om en variabel, nårstatistik!statistikere henviser ofte til” måleniveauerne ” for avariable, et mål eller en skala for at skelne mellem målte variabler, der har forskellige egenskaber. Der er fire grundlæggende niveauer: nominel, ordinær,interval og forhold.
Nominel
En variabel målt på en” nominel ” skala eren variabel, der ikke rigtig har nogen evaluerende skelnen. En værdi ervirkelig ikke større end en anden. Et godt eksempel på en nominel variabel erkøn (eller køn). Oplysninger i et datasæt om køn er normalt kodet som 0 eller 1, 1indikerer mand og 0 angiver kvinde (eller omvendt-0 for mand, 1 For kvinde). 1 i dette tilfælde er en vilkårlig værdi, og den er ikke større ellerbedre end 0. Der er kun en nominel forskel mellem 0 og 1. Med nominelvariabler er der en kvalitativ forskel mellem værdier, ikke en kvantitativen.
Ordinal
noget målt på en “ordinær” skalahar en evaluerende konnotation. En værdi er større eller større eller bedreend den anden. Produkt A foretrækkes frem for produkt B, og derfor modtager A en værdi på 1 og B modtager en værdi på 2. Et andet eksempel kan være at bedømme din jobtilfredshed på en skala fra 1 til 10, hvor 10 repræsenterer completesatisfaction. Med ordinære skalaer ved vi kun, at 2 erbedre end 1 eller 10 er bedre end 9; Vi ved ikke hvor meget. Det kan variere. Afstanden mellem 1 og 2 er måske kortere end mellem 9 og 10.
Interval
En variabel målt på en intervalskala giveroplysninger om mere eller bedre som ordinalskalaer gør, men intervalvariabler har en lige stor afstand mellem hver værdi.Afstanden mellem 1 og 2 er lig med afstanden mellem 9 og 10.Temperatur ved hjælp af Celsius eller Fahrenheit er et godt eksempel, der er den nøjagtigesamme forskel mellem 100 grader og 90, da der er mellem 42 og 32.
Ratio
noget målt på en ratio skala har det sammeegenskaber, som en interval skala har undtagen, med et forhold skalering, der er anabsolut nulpunkt. Temperatur målt i Kelvin er et eksempel. Der er novalue muligt under 0 grader Kelvin, det er absolut nul. Vægt er en andeneksempel, 0 lbs. er et meningsfuldt fravær af vægt. Din bankkonto saldo eren anden. Selvom du kan have en negativ eller positiv kontosaldo, er der en bestemt og ikke-arbitrær Betydning af en kontobalance på 0.
man kan tænke på nominel, ordinær, interval og forhold som rangeret i deres forhold til hinanden. Forholdet er mere sofistikeret end interval, interval er mere sofistikeret end ordinært,og ordinært er mere sofistikeret end nominelt. Jeg ved ikke, om rækkerne erlangt eller ej, sandsynligvis ikke. Så hvilken slags måleniveau er detteranking af måleniveauer?? Jeg vil sige ordinært. I statistikker er det bedst at værelidt konservativ, når du er i tvivl.
Togenerelle klasser af variabler (hvem bekymrer sig?)
Ok, husk jeg sagde, at dette er den første og vigtigste sondringnår du bruger statistik? Her er hvorfor. For det meste, statistikere ellerforskere ender kun med at bekymre sig om forskellen mellem nominel og allede andre. Der er generelt to klasser af statistikker: dem, der beskæftiger sig mednominale afhængige variabler og dem,der beskæftiger sig med ordinære, interval-eller forholdsvariabler. (Lige nu vil vi fokusere på den afhængige variabel ogsenere vil vi diskutere den uafhængige variabel). Når jeg beskriver disse typerto generelle klasser af variabler, jeg (og mange andre) henviser normalt til dem som”kategorisk” og “kontinuerlig.”(Nogle gange bruger jeg “dikotom”i stedet for “kategorisk” ). Bemærk også, at “kontinuerlig”i denne forstand ikke er nøjagtigt den samme som” kontinuerlig”, der bruges i kapitel 1 i teksten, når man skelner mellem diskret og kontinuerlig. Det er et meget løsere udtryk. Kategorisk ogdichotom betyder normalt, at en skala er nominel. “Kontinuerlige” variabler er normalt dem, der er ordinære eller bedre.
ordinære skalaer med få kategorier(2,3 eller muligvis 4) og nominelle mål klassificeres ofte som kategoriskog analyseres ved hjælp af binomial klasse af statistiske tests, mens ordinalskalaer med mange kategorier (5 eller mere), interval og forhold normaltanalyseres med den normale teoriklasse af statistiske tests. Selvom sondringen er en noget uklar, er det ofte en meget nyttig sondring for at vælge den rigtige statistisketest. Der er en række specialstatistikker, der er udviklet til at håndtere ordinære variabler med kun få mulige værdier, men vi vil ikke dække dem i denne klasse (Se Agresti, 1984, 1990; O ‘ Connell,2006; væge, 1989 for mere information om analyse af ordinære variabler).
generelle klasser afstatistik (Åh, jeg tror jeg er ligeglad)
Ok, så vi har disse to generelle kategorier (dvs. kontinuerlige og kategoriske),hvad næste…? Denne sondring (så uklar som den måske lyder) har meget vigtig betydning for den anvendte type statistiske procedure, og vi vil træffe beslutninger baseret på denne sondring gennem hele kurset. Der er to generelle klasser af statistikker: dem, der er baseret på binomial teori og dem, der er baseret på normal teori. Chi-kvadratisk og logistisk regression beskæftiger sig med binomialteori eller binomialfordelinger, og t-tests,ANOVA, korrelation og regression beskæftiger sig med normal teori. Så her er et bordat opsummere.
Type of Dependent Variable (or Scale) |
Level of Measurement |
General Class of Statistic |
Examples of Statistical Procedures |
Categorical (or dichotomous) |
nominal, ordinal with 2, 3, or 4 levels |
binomial |
chi-square, logistic regression |
Continuous |
ordinal with more than 4 categories |
normal |
ANOVA, regression, correlation, t-tests |
SurveyQuestions and Measures: Nogle almindelige eksempler
i praksis, forskereog forskningsproblemer i det virkelige liv fortæller dig ikke, hvordan den afhængige variabelskal kategoriseres, så jeg vil skitsere et par typer undersøgelsesspørgsmål ellerandre foranstaltninger, der ofte bruges.
ja/nej spørgsmål
ethvert spørgsmål om en undersøgelse,der har Ja eller nej som et muligt svar, er nominelt, og så binomial statistik vil blive anvendt, når et enkelt ja/nej spørgsmåltjener som den afhængige variabel eller en af de afhængige variabler i ananalyse.
Likert Scales
En særlig form for undersøgelsesspørgsmål bruger et sæt svar, der er bestilt, så et svar er større end et andet. Denterm Likert skala er opkaldt efter opfinderen,Rensis Likert, hvis navner udtalt “Lickert.”Generelt er detteTerm bruges til ethvert spørgsmål, der har omkring 5 eller flere mulige muligheder. Et eksempel kan være: “hvordan vil du bedømme din afdelingsadministrator?”1=Meget inkompetent, 2=noget inkompetent, 3=hverken Kompetent, 4=noget Kompetent eller 5=meget kompetent. Likert skalaer erenten ordinær eller interval, og mange psykometriciansville hævde, at de er interval skalaer, fordi, når godt konstrueret, thereis lige afstand mellem hver værdi. Så hvis en Likertscale bruges som en afhængig variabel i en analyse, normal teori statistik bruges som ANOVA eller regression ville blive brugt.
fysiske foranstaltninger
De fleste fysiske foranstaltninger, såsom højde, vægt, systolisk blodtryk, afstand osv., er interval eller forholdskalaer, så de falder ind under den generelle “kontinuerlige “kategori. Derfor anvendes normal teori type statistik også, når en sådan foranstaltning tjener som den afhængige variabel i ananalyse.
tæller
tæller er vanskelige. Hvis en variabel måles ved at tælle, såsom tilfældet, hvis aresearcher tæller antallet af dage, en hospitalspatient har væretindlagt, variablen er på en forholdsskala og behandles som en kontinuertvariabel. Særlige statistikker anbefales dog ofte, fordi tællevariabler ofte har en meget skæv fordeling med et stort antal tilfælde med nulantal (se Agresti, 1990, s. 125; Cohen, Cohen, Vest, & Aiken, 2003, Kapitel 13). Hvis en forsker tæller antallet afemner i et eksperiment (eller antal tilfælde i datasættet), bruges en kontinuerlig type foranstaltning ikke rigtig. Tælling i dette tilfælde er virkeligundersøge frekvensen, at en vis værdi af en variabel opstår. For eksempel tæller antallet af emner i datasættet, der rapporterer at have væretindlagt i det sidste år, afhængig af en dikotom variabel i datasættetder står for at blive indlagt eller ikke blive indlagt på hospitalet (f. eks., fra spørgsmål som “er du blevet indlagt på hospitalet i det sidste år?”).Selv hvis man skulle tælle antallet af sager baseret på spørgsmålet “hvordanmange dage i det forløbne år er du blevet indlagt på hospitalet”, hvilket er enkontinuerlig foranstaltning, er variablen, der anvendes i analysen, virkelig ikke denkontinuerlig variabel. I stedet ville forskeren faktisk analysere adichotom variabel ved at tælle antallet af personer, der ikke havde væretindlagt i det forløbne år (0 dage) vs. dem, der havde været (1 eller meredage).