maximální odběr vzorků pro průzkumy a skupiny konsensu
co je maximální odběr vzorků?
namísto hledání reprezentativnosti prostřednictvím stejných pravděpodobností se vzorkování maximálních variací snaží zahrnout širokou škálu extrémů. Zásada je, že pokud jste vědomě se snažit, aby rozhovor velmi odlišný výběr lidí, jejich souhrnné odpovědi mohou být blízko k celé populace. Metoda zní divně, ale funguje dobře v místech, kde náhodný vzorek nelze vyvodit. Jedná se o rozšíření statistického principu regrese směrem k průměru – jinými slovy, pokud je skupina lidí extrémní několika různými způsoby, bude obsahovat lidi, kteří jsou průměrní jinými způsoby. Takže pokud jste hledal „minimální změna“ vzorek jen se snaží pokrýt typy lidí, kteří si myslel, že jsou průměrné, měli byste být pravděpodobné, že přijít na řadu různých skupin, které tvoří poměrně velkou část populace. Ale hledáním maximální variace, průměrní lidé jsou automaticky zahrnuti.
vzorek maximální variace (někdy nazývaný vzorek maximální rozmanitosti nebo vzorek maximální heterogenity) je zvláštní druh účelového vzorku. Obvykle, účelový vzorek není reprezentativní, a netvrdí, že je. Maximální vzorek variace, pokud je pečlivě nakreslen, však může být stejně reprezentativní jako náhodný vzorek. Navzdory tomu, co mnoho lidí (s malou znalostí statistik) věří, náhodný vzorek nemusí být nutně nejreprezentativnější, zvláště když je velikost vzorku malá.
Kdy použít maximální odchylka vzorků
Existují dva hlavní příležitosti pro využití maximální odchylka vzorků:
- Když velikost vzorku je velmi malá, nebo
- Kdy ne populace informace je k dispozici (a to není těžké najít populaci členy s vybranými charakteristikami)
2.1. Maximální variace vzorkování pro malé velikosti vzorku
„malé“ zde, mám na mysli méně než asi 30. („Asi 30“ znamená něco od asi 20 do asi 50 – při zvyšování velikosti vzorku nedochází k náhlé změně.) Bez ohledu na skutečný počet, náhodný výběr nefunguje dobře pro tyto malé vzorky: existuje vysoká šance na získání vzorku, který není reprezentativní, i když byl vybrán náhodně. Pokud je vzorek tak malý jako 3 (pro sadu konsenzuálních skupin), náhodný výběr je příliš nebezpečný. Místo toho můžete použít vzorkování kvót nebo vzorkování maximálních variací. Pokud máte dostatek údajů o populaci, odběr kvót je v pořádku. Například, pokud vzorkujete 20 lidé z populace města, jednoduchou formou odběru kvót je vybrat 10 muži a 10 ženy. Odběr kvót-ze zveřejněných nebo odhadnutých údajů o populaci-však není vždy relevantní. To je, když maximální vzorkování variace je nejužitečnější. Například, když vybíráte vzorek pro soubor konsenzuálních skupin, obvykle berete tři typy lidí, kteří se budou co nejvíce lišit v otázce, která je zkoumána.
2.2. Maximální vzorkování variací při absenci údajů o populaci
ačkoli náhodný výběr je považován za ideální metodu odběru vzorků, někdy není možné vzít náhodný vzorek. V některých zemích nejsou informace o sčítání k dispozici, nebo tolik let zastaralé, že jsou zbytečné. I když existují nedávné a podrobné údaje ze sčítání lidu, nemusí existovat žádné mapy ukazující hranice oblastí, na které se data vztahují. A i když existují jak dobré údaje ze sčítání lidu, tak související mapy, nemusí existovat žádné vzorkovací rámce.
dobrou zprávou (z hlediska výběru vzorků) je, že tyto podmínky obvykle platí ve velmi chudých a nerozvinutých zemích s velkým venkovským obyvatelstvem. Z mé zkušenosti, v těchto populacích není široká škála variací. Čím rozvinutější je země, zdá se, tím více rozdílů mezi jejími občany existuje. Proto tam, kde náhodný výběr není možný, možná to není tak nutné. Ale v chudých zemích, kde vzorkové rámce neexistují, může být vzorkování maximálních variací velmi účinné pomocí vícestupňové metody vysvětlené níže.
jaká je nejlepší velikost vzorku pro maximální variantu vzorku?
pro jednostupňový vzorek nebo na základní úrovni odběru vzorků je nejlepší omezit maximální vzorek variace na ne více než 50 jednotek. Nad tímto číslem, tazatelé jsou zmateni, a další metody, jako je vzorkování kvót a radiální vzorkování, jsou jednodušší, a často komplexnější. Tím, že kombinuje tyto sub-vzorky 50 nebo méně ve vícefázovém vzorku, celkový vzorek může být tisíce lidí, ale proto, že další úsilí, které by neměl, pokud tam byl žádná alternativa. Největší snažil jsem byl asi 200, ve skupinách 12 – ale kvóty vzorku (např. věkové skupiny, podle pohlaví u povolání typu) by mohl být jako zástupce, a by potřeboval mnohem méně dohledu nad tazatelů.
jak vybrat vzorek maximální variace
při vzorkování maximální variace se pokusíte zahrnout všechny extrémy v populaci. Například v malé vesnici, pro průzkum rozhlasového publika, můžete požádat o rozhovor…
- nejstarší osobou v obci, kdo poslouchá rádio
- nejstarší, kdo nebude poslouchat radio
- nejmladší, kdo poslouchá rádio
- člověk, který poslouchá rádio celý den
- člověk, který často hovoří o tom, rádio programů, on nebo ona má slyšel,
- člověk, který poslouchá rádio v noci
- člověk, který nikdy poslouchal rádio v jeho nebo její život
- osoba s nejvíce rádia (opravář, možná)
- osoba s největší letecký
- osoba, která je myšlenka být naprosto průměrné ve všech směrech
- osoba, která tráví hodně času na ulici a na veřejných místech
- osoba, která pracuje téměř po celou dobu
…a tak dále-střídavě mění „osobu“ na „muže“ nebo „ženu“, aby bylo zajištěno rovné zastoupení obou pohlaví. Samozřejmě to funguje pouze tehdy, když jsou takové informace o jiných lidech všeobecně známy. Výše uvedený seznam lidí by mohl být vyroben ve vesnici, kde mnoho lidí zná mnoho dalších, ale ve velkém městě by to bylo mnohem obtížnější.
Často je užitečné mít předběžné debaty s počáteční skupinou místních informátorů (kteří by neměli být případné respondentů). Předložte jim počáteční seznam osobních typů, podobný výše uvedenému, ale vhodně upravený pro účely vašeho studia. Požádejte je, aby přišli s dalšími typy lidí, a říct vám, zda některé z typů, které jste vynalezli, nemají v této oblasti smysl. Ale pokud nezačnete příkladem, zjistil jsem, že je pro lidi obtížné pochopit, na co se ptáte.
jedním z problémů při kreslení vzorku, jak je uvedeno výše, jsou informátoři, které používáte k identifikaci lidí s těmito vlastnostmi. Je lákavé – protože je to snadné-jít na úřad místní správy a požádat úředníky, aby jmenovali lidi těchto typů. Jejich seznam můžete získat rychle,ale jedním důležitým způsobem nebude maximální variace: navrhovaní respondenti budou všichni známí úředníkům místní správy.
Vaše síť může být obsazení více široce sekvenční vzorkování (snowball sampling), jak se jen pár navrhl respondentů z každého zdroje. Jinými slovy, informátor a navrhuje respondenty B A C z Vašeho seznamu charakteristik, B navrhuje D A E, C navrhuje F A G-a tak dále . Vzhledem k principu „šest stupňů odloučení“, a skutečnost, že respondenti jsou požádáni, aby navrhnout jejich přátelé, ale lidé s uvedené vlastnosti, maximální odchylka metoda by měla dát většina lidí v průzkumu oblasti šanci být zařazen do vzorku.
všimli jste si chyby v tomto argumentu? Problém je v tom, že čím více lidí je potenciální respondent známo, tím je pravděpodobnější, že tato osoba bude vybrána do průzkumu. Proto, seznam osobních typů musí výslovně zahrnovat sociálně izolované lidi, přidáním kritérií, jako je…
- starší muž, který má velmi málo návštěvníků
- mladší muž, který moc nemluví
- starší žena, která žije sama a nemá žádné rodinné příslušníky žijící v okolí
- mladá žena, která je svobodná a sotva kdy opustí domov
…a tak dále-mění výše uvedené popisy tak, aby vyhovovaly kultuře. (V některých částech světa nikdy nenajdete ženu žijící sama.) Tam, kde je segregace podél náboženských, jazykových nebo kmenových linií, budete muset zahájit samostatná vlákna vyšetřování v každé z těchto kulturních skupin.
Pokud žádáte o určitý typ osoby a informátor nemůže někoho přesně tak pojmenovat, je v pořádku přijmout aproximaci založenou na nějakém jiném kritériu, které se zdá být relevantní. To může představit další dimenze rozmanitosti, o kterých jste původně nemysleli.
Výběr rozměry variace
Ve výše uvedeném příkladu, 12 různé druhy rádio posluchač (plus další 4 druhy sociálních izolátů) byly nalezeny pomocí představit si sociální okolnosti, které by mohly mít vliv na poslouchání rádia. Seznam nebyl vyčerpávající nebo systematický, ale pokud si chcete být jisti, že žádná skupina lidí nebyla vynechána, můžete použít rozměrovou analýzu k vytvoření komplexnějšího seznamu. Dělá se to takhle…
Krok 1 je rozhodnout, jakou velikost vzorku chcete. Řekněme například, že je to 20. To určuje počet rozměrů: 20 je 2 k moci čeho? Nejbližší odpověď je 4, protože 2 x 2 x 2 x 2 = 16. Takže můžete použít 4 Rozměry k získání 16 případů, pak přidat několik dalších faktorů, jako jsou sociálně izolovaní lidé. (Pro vzorek 32 použijte 5 rozměrů a pro 64 použijte 6. Nad 100 nebo tak, vzorkování kvót obvykle funguje lépe.)
Krok 2 je rozhodnout o těchto rozměrech. Přemýšlejte o některých charakteristikách lidí, které (a) se mezi lidmi velmi liší ve vztahu k předmětu, který zkoumáte, a (b) jsou známy široké škále dalších lidí. Například, pokud je předmětem, kolik času lidé tráví posloucháním rádia, nemusí být užitečné zvolit pohlaví jako dimenzi, protože ve většině zemí tráví muži a ženy přibližně stejný čas posloucháním rádia. Nicméně, zda lidé mají rádio doma, je velký rozdíl v jejich době poslechu. Dalšími viditelnými faktory, které ovlivňují poslech rádia, jsou to, zda mají lidé doma televizi a kolik času lidé tráví mimo domov, v místech bez rádia. Dalším faktorem je, jak moc rádi poslouchají místní programy, ale to není snadno pozorovatelné, takže možná budete muset použít proměnnou proxy, například jak často říkají, že mluví o rozhlasových programech. Nyní máme 4 proměnné, každá se dvěma extrémními odpověďmi. Dejte každé možné odpovědi písmenný kód, začínající od A, takhle…
- rádio doma: ano (A), nebo ne (B)
- Mít TV doma: ano (C) nebo (D)
- Zůstat doma většinu času (E), nebo daleko od domova většinu času (F)
- Jak často mluví s ostatními o rozhlasových programů: „většina dní „(G) nebo“ stěží někdy “ (H)
Vezmeme-li každou ze 4 proměnných postupně, existuje 16 možných kategorií (2 x 2 x 2 x 2). Tyto jsou
ACEG, ACEH, ACFG, ACFH
BCEG, BCEH, BCFG, BCFH
ADEG, ADEH, ADFG, ADFH
BDEG, BDEH, BDFG, BDFH
například, BDGH = někdo, kdo nemá žádné rádio doma, nemám doma TELEVIZI, je daleko od domova, většina z času, a sotva kdy mluví o rádio.
Krok 3. Jediné,co musíte udělat, je najít někoho, kdo odpovídá tomuto popisu-a zopakovat tento úkol pro 15 jiné typy lidí. Co když nemůžete najít lidi, kteří splňují některé z těchto popisů? To se může stát – například, může být těžké najít někoho, kdo většinu času zůstane doma, a nemá doma rádio, ale hodně o tom mluví. V tomto případě skončíte s více než jednou osobou v některé z 16 kategorie. Žádný velký problém: jen se ujistěte, že lidé ve stejné kategorii jsou velmi odlišní jiným způsobem, který se zdá být relevantní pro vaši studii.
Krok 4. Nakonec nezapomeňte přidat 4 lidi, kteří zřídka komunikují s ostatními. Tím se váš vzorek zvýší na 20. Chceš víc než 20? Stačí přidat další lidi, pokud jsou od sebe co nejvíce odlišní nějakým relevantním způsobem.
i Když tento systematický způsob výběru respondentů je jednodušší, když rozpisu tazatelů, jsem zjistil, že to produkuje více různých vzorků více než náhodné metody popsané v části 4 výše.
vícestupňový vzorkování maximálních variací
při výběru vícestupňového vzorku může být první fází nakreslení vzorku okresů v celé zemi. Pokud je toto číslo menší než asi 30, je pravděpodobné, že vzorek bude v některých ohledech vážně nereprezentativní. Dvě řešení jsou stratifikace a maximální variace vzorkování. Pro oba tyto, některé místní znalosti je zapotřebí.
při průzkumu velké zeměpisné oblasti lze vzorek maximální variace nakreslit v několika fázích. První etapou je rozhodnout, které části populace budou zkoumány. Pokud má například průzkum představovat celou provincii a není možné zkoumat každou část provincie, musíte se rozhodnout, které části provincie (řekněme jim kraje) budou zahrnuty. Jejich výběr se provádí takto…
6.1. Stupeň 1
1. Přemýšlejte o všech způsobech, kterými se kraje mohou lišit od provincie jako celku-zejména způsoby, které souvisejí s předmětem průzkumu. Pokud se průzkum týká FM rádia a některé oblasti jsou kopcovité, příjem tam může být chudší. Pokud se průzkum týká malárie a některé kraje mají velké bažiny se spoustou komárů, zahrňte jeden takový kraj a ten, který je opačný. Pokud se téma týká úrovně bohatství nebo vzdělání (tolik výzkumných témat), zjistěte, které kraje mají nejbohatší a nejlépe vzdělané lidi a které nejchudší a nejméně vzdělané. Zkuste přemýšlet o 5 až 10 faktorech, které jsou pro studii relevantní.
2. Pak se pokuste shromáždit objektivní údaje o těchto faktorech. Pokud tomu tak není, zkuste najít odborníky na tato témata nebo lidi, kteří cestovali po celé provincii. Pomocí této informace, pro každý faktor se seznam krajů, které mají vysokou úroveň faktoru (např. spousta hor, spousta bažin, nebo bohatý) a krajů, které mají nízkou úroveň faktoru (např. všechny ploché, žádné bažiny, nebo chudí).
3. Do průzkumu by měly být zahrnuty kraje zmiňované nejčastěji v těchto seznamech extrémů. Označte tyto kraje na mapě provincie. Byla vynechána nějaká velká a dobře osídlená oblast? Pokud ano, přidejte další Kraj, který je co nejdále od všech ostatních zmíněných.
6.2. Fáze 2
Když byly vybrány kraje (nebo jak se oblasti nazývají), další fází je zjistit, kde by měl být v každém kraji vybrán klastr. Pokračujte v principu maximální variace pomocí stejného principu uvnitř každého vybraného kraje. Pokud byl Kraj vybrán pro svou bažinatost a rovinnost, vyberte nejplošší a bažinatější oblast v zemi. Pokud byla vybrána pro své hory a bohatství, vyberte si bohatou horskou oblast. Zjistit, kde jsou tyto oblasti, možná budete muset cestovat do každého kraje a mluvit s místními odborníky.
6.3. Fáze 3
Pokud jste vybrali měst a venkovských lokalitách, můžete buď pokračovat v používání maximální odchylka vzorků, nebo si můžete zvolit jinou metodu, například kvótním výběrem, blok výpis z leteckých snímků, nebo radiální vzorků. Pokud pro konečnou fázi použijete vzorkování maximálních variací, obvykle si vyberete několik klastrů (ulic nebo čtvrtí)a poté vyberete respondenty v každém klastru pomocí zásad vysvětlených v oddíle 4 nebo 5 výše.
Chcete si přečíst více o vzorkování maximální variace? Promiň, ale nemůžeš! Tato stránka není příliš podrobná, ale i tak, zdá se, že je to nejpodrobnější vysvětlení maximálního vzorkování variací, jaké kdy bylo napsáno. Další nejpodrobnější (a nejrozšířenější) se zdá být v knize Michaela Quinna Pattona kvalitativní výzkum a metody hodnocení, na stranách 234-235 v edici 2001 (celkem méně než jedna stránka). Taky, tato stránka se zaměřuje na vzorkování maximálních variací pro průzkumy. Jeho použití pro kvalitativní výzkum, jako jsou hloubkové rozhovory a případové studie, by vyžadovalo malé odchylky. Napíšu na to samostatnou stránku, až bude potřeba.
doporučená citace pro tuto stránku:
List, Dennis (2004). Maximální výběr vzorků variací pro průzkumy a skupiny konsensu. Adelaide: Dialog Publika. K dispozici na www.audiencedialogue.org/maxvar.html, 12. září 2004.
další principy vzorkování uvedené výše (náhodný odběr vzorků, odběr kvót, stratifikovaný odběr vzorků a odběr vzorků sněhové koule) jsou popsány v kapitole 2 Poznej své publikum.