Campionamento a variazione massima per indagini e gruppi di consenso

Che cos’è il campionamento a variazione massima?

Invece di cercare la rappresentatività attraverso probabilità uguali, il campionamento della variazione massima lo cerca includendo una vasta gamma di estremi. Il principio è che se si tenta deliberatamente di intervistare una selezione molto diversa di persone, le loro risposte aggregate possono essere vicine a quelle di tutta la popolazione. Il metodo sembra strano, ma funziona bene in luoghi in cui non è possibile disegnare un campione casuale. Questa è un’estensione del principio statistico della regressione verso la media – in altre parole, se un gruppo di persone è estremo in diversi modi, conterrà persone che sono medie in altri modi. Quindi, se hai cercato un campione di “variazione minima” cercando solo di coprire i tipi di persone che pensavi fossero nella media, potresti perdere un certo numero di gruppi diversi che costituiscono una percentuale piuttosto elevata della popolazione. Ma cercando la massima variazione, le persone medie sono automaticamente incluse.

Un campione di variazione massima (a volte chiamato campione di diversità massima o campione di eterogeneità massima) è un tipo speciale di campione mirato. Normalmente, un campione intenzionale non è rappresentativo e non pretende di esserlo. Tuttavia, un campione di variazione massima, se accuratamente disegnato, può essere rappresentativo come un campione casuale. Nonostante ciò che molte persone (con una scarsa conoscenza delle statistiche) credono, un campione casuale non è necessariamente il più rappresentativo, specialmente quando la dimensione del campione è piccola.

Quando usare la massima variazione di campionamento

Ci sono due occasioni per l’utilizzo di variazione massima di campionamento:

  • Quando la dimensione del campione è molto piccolo, o
  • Quando non popolazione informazioni è disponibile (e non è difficile trovare popolazione membri con le caratteristiche selezionate)

2.1. Campionamento della variazione massima per piccole dimensioni del campione

Per “piccolo” qui, intendo meno di circa 30. (“Circa 30” significa qualcosa da circa 20 a circa 50-non vi è alcun cambiamento improvviso all’aumentare della dimensione del campione.) Indipendentemente dal numero effettivo, il campionamento casuale non funziona bene per questi piccoli campioni: c’è un’alta probabilità di ottenere un campione che non sia rappresentativo, anche se è stato scelto a caso. Quando il campione è piccolo come 3 (per un insieme di gruppi di consenso) campionamento casuale è troppo pericoloso. Invece, è possibile utilizzare il campionamento delle quote o il campionamento della variazione massima. Se si dispone di dati sufficienti sulla popolazione, il campionamento delle quote va bene. Ad esempio, se si campionano 20 persone della popolazione di una città, una semplice forma di campionamento delle quote consiste nel scegliere 10 uomini e 10 donne. Ma il campionamento delle quote-da dati di popolazione pubblicati o indovinati-non è sempre rilevante. Questo è quando il campionamento massima variazione è più utile. Ad esempio, quando si sceglie un campione per un insieme di gruppi di consenso, normalmente si prendono tre tipi di persone che saranno il più diverse possibile sul problema oggetto di ricerca.

2.2. Campionamento a variazione massima in assenza di dati di popolazione

Sebbene il campionamento casuale sia considerato il metodo di campionamento ideale, a volte non è possibile prelevare un campione casuale. In alcuni paesi, le informazioni del censimento non sono disponibili o sono così obsolete da essere inutili. Anche quando esistono dati di censimento recenti e dettagliati, potrebbero non esserci mappe che mostrino i confini delle aree a cui si applicano i dati. E anche quando esistono sia buoni dati di censimento e mappe correlate, non ci possono essere fotogrammi di campionamento.

La buona notizia (da un punto di vista campionario) è che queste condizioni di solito si applicano in paesi molto poveri e non sviluppati con grandi popolazioni rurali. Nella mia esperienza, non c’è una vasta gamma di variazioni in queste popolazioni. Più un paese è sviluppato, a quanto pare, più differenze ci sono tra i suoi cittadini. Pertanto, dove il campionamento casuale non è possibile, forse non è così necessario. Ma nei paesi poveri in cui i frame di campionamento sono inesistenti, il campionamento a variazione massima può essere molto efficace, utilizzando il metodo multistadio spiegato di seguito.

Qual è la migliore dimensione del campione per il campione di variazione massima?

Per un campione a stadio singolo, o a livello di base del campionamento, è meglio limitare un campione di variazione massima a non più di circa 50 unità. Al di sopra di quel numero, gli intervistatori si confondono e altri metodi, come il campionamento delle quote e il campionamento radiale, sono più semplici e spesso più completi. Combinando quei sottocampioni di 50 o meno in un campione multistadio, il campione totale può essere migliaia di persone, ma a causa dello sforzo aggiuntivo richiesto, non lo faresti a meno che non ci fosse alternativa. Il più grande che ho provato era di circa 200, in gruppi di 12 – ma un campione di quota (ad esempio gruppo di età per sesso per tipo di occupazione) avrebbe potuto essere rappresentativo e avrebbe avuto bisogno di molta meno supervisione degli intervistatori.

Come selezionare un campione di variazione massima

Con il campionamento di variazione massima, si tenta di includere tutti gli estremi nella popolazione. Ad esempio, in un piccolo villaggio, per un sondaggio del pubblico radiofonico, potresti chiedere di intervistare…

  • il più anziano del villaggio che ascolta la radio
  • il più antico che non ascolto la radio
  • il più giovane che ascolta radio
  • una persona che ascolta la radio tutto il giorno
  • una persona che parla spesso di programmi radio e lui o lei ha sentito
  • una persona che ascolta la radio nel mezzo della notte
  • una persona che non ha mai ascoltato la radio nella sua vita
  • la persona con la maggior parte radio (un riparatore, forse)
  • la persona con l’aereo più grande
  • una persona che è pensato per essere completamente in media in tutti i modi
  • una persona che trascorre molto tempo in strada e in luoghi pubblici
  • una persona che lavora quasi tutto il tempo

…e così via-cambiando “persona” a “uomo” o “donna” alternativamente, per garantire la parità di rappresentanza di entrambi i sessi. Naturalmente questo funziona solo quando tali informazioni su altre persone sono ampiamente conosciute. L’elenco di cui sopra di persone potrebbe essere prodotto in un villaggio, dove molte persone conoscono molti altri, ma sarebbe molto più difficile in una grande città.

Spesso è utile avere una sessione preliminare di brainstorming con un gruppo iniziale di informatori locali (che non dovrebbero essere eventuali intervistati). Presenta loro un elenco iniziale di tipi personali, simile al precedente, ma opportunamente modificato ai fini del tuo studio. Chiedere loro di venire con alcuni più tipi di persona, e per dirvi se alcuni dei tipi che hai inventato non hanno senso in quella zona. Ma a meno che tu non inizi con un esempio, ho scoperto che le persone trovano difficile capire cosa stai chiedendo.

Un problema con il disegno di un campione come sopra sono gli informatori che usi per identificare le persone con quelle caratteristiche. È allettante – perché è facile-andare all’ufficio del governo locale e chiedere ai funzionari di nominare persone di quel tipo. È possibile ottenere un elenco di loro rapidamente, ma in un modo importante non ci sarà la massima variazione: intervistati suggeriti saranno tutti noti ai funzionari del governo locale.

La tua rete può essere lanciata più ampiamente mediante campionamento sequenziale (campionamento a palle di neve), ottenendo solo alcuni intervistati suggeriti da ciascuna fonte. In altre parole, l’informatore A suggerisce gli intervistati B e C dal tuo elenco di caratteristiche, B suggerisce D ed E, C suggerisce F e G-e così via. Dato il principio di “sei gradi di separazione” e il fatto che agli intervistati non viene chiesto di suggerire i loro amici, ma persone con caratteristiche specificate, il metodo di variazione massima dovrebbe dare alla maggior parte delle persone nell’area dell’indagine la possibilità di essere inclusi nel campione.

Hai notato il difetto in quell’argomento? Il problema è che più persone è noto un potenziale intervistato, più è probabile che la persona debba essere selezionata per il sondaggio. Pertanto, l’elenco dei tipi personali deve includere esplicitamente le persone socialmente isolate, aggiungendo criteri come…

  • un uomo più anziano che ha pochissimi visitatori
  • un uomo più giovane che non parla molto
  • una donna più anziana che vive da sola e non ha membri della famiglia che vivono nelle vicinanze
  • una giovane donna che non è sposata e quasi mai esce di casa

…e così via – variando le descrizioni di cui sopra per soddisfare la cultura. (In alcune parti del mondo non troverai mai una donna che vive da sola.) Dove c’è segregazione lungo linee religiose, linguistiche o tribali, sarà necessario avviare fili separati di indagine in ciascuno di questi gruppi culturali.

Se chiedi un particolare tipo di persona e l’informatore non può nominare qualcuno esattamente così, va bene accettare un’approssimazione, basata su qualche altro criterio che sembra rilevante. Questo può introdurre altre dimensioni della diversità che inizialmente non hai pensato.

Selezionando le dimensioni della variazione

Nell’esempio precedente, i 12 diversi tipi di ascoltatore radio (più altri 4 tipi di isolati sociali) sono stati trovati immaginando le circostanze sociali che potrebbero influenzare l’ascolto radio. L’elenco non era esaustivo o sistematico, ma se si vuole essere sicuri che nessun gruppo di persone è stato omesso, è possibile utilizzare l’analisi dimensionale per creare un elenco più completo. E ‘fatto cosi’…

Passo 1 è decidere quale dimensione del campione che si desidera. Ad esempio, diciamo che è 20. Questo determina il numero di dimensioni: 20 è 2 al potere di cosa? La risposta più vicina è 4, perché 2 x 2 x 2 x 2 = 16. Quindi puoi usare 4 dimensioni per ottenere 16 casi, quindi aggiungere alcuni altri fattori, come le persone socialmente isolate. (Per un campione di 32, utilizzare 5 dimensioni e per 64 utilizzare 6. Sopra 100 o giù di lì, campionamento quota di solito funziona meglio.)

Il passaggio 2 consiste nel decidere su quelle dimensioni. Pensa ad alcune caratteristiche delle persone che (a) differiscono ampiamente tra le persone in relazione al soggetto che stai ricercando e (b) sono note a una vasta gamma di altre persone. Ad esempio, se il soggetto è quanto tempo le persone trascorrono ascoltando la radio, potrebbe non essere utile scegliere il genere come dimensione, perché nella maggior parte dei paesi uomini e donne trascorrono circa lo stesso tempo ascoltando la radio. Tuttavia, se le persone hanno una radio a casa fa una grande differenza per il loro tempo di ascolto. Altri fattori visibili che influenzano l’ascolto della radio sono se le persone hanno la TV a casa e quanto tempo le persone trascorrono lontano da casa, in luoghi senza radio. Un altro fattore è quanto gli piace ascoltare i programmi locali, ma non è facilmente osservabile, quindi potrebbe essere necessario utilizzare una variabile proxy, come la frequenza con cui dicono di parlare di programmi radio. Ora abbiamo le 4 variabili, ognuna con due risposte estreme. Dare ad ogni possibile risposta un codice di lettera, a partire da A, come questo…

  • Avere una radio a casa: sì (A) o no (B)
  • Avere la TV a casa: sì (C) o no (D)
  • Stare a casa la maggior parte del tempo (E) o lontano da casa la maggior parte del tempo (F)
  • Quanto spesso parlano con gli altri di programmi radiofonici: “quasi tutti i giorni “(G) o” quasi mai ” (H)

Prendendo ciascuna delle 4 variabili a turno, ci sono 16 possibili categorie (2 x 2 x 2 x 2). Questi sono
ACEG, ACEH, ACFG, ACFH
BCEG, BCEH, BCFG, BCFH
ADEG, ADEH, ADFG, ADFH
BDEG, BDEH, BDFG, BDFH

Per esempio, BDGH = qualcuno che non ha la radio a casa, senza TV a casa, è lontano da casa la maggior parte del tempo, e quasi mai parla di radio.

Passaggio 3. Tutto quello che devi fare ora è trovare qualcuno che corrisponda a quella descrizione e ripetere quell’attività per gli altri 15 tipi di persone. E se non riesci a trovare persone che incontrano alcune di quelle descrizioni? Questo può accadere – per esempio, potrebbe essere difficile trovare qualcuno che rimane a casa la maggior parte del tempo, e non ha la radio a casa, ma ne parla molto. In questo caso, ti ritroverai con più di una persona in alcune delle 16 categorie. Nessun grande problema: basta fare in modo che le persone nella stessa categoria sono molto diversi in qualche altro modo che sembra rilevante per il vostro studio.

Passaggio 4. Infine, non dimenticare di aggiungere le 4 persone che raramente comunicano con gli altri. Questo porta il tuo campione fino a 20. Ne vuoi più di 20? Basta aggiungere altre persone, purché siano il più diverse possibile l’una dall’altra in qualche modo pertinente.

Sebbene questo metodo sistematico di selezione dei rispondenti sia più semplice quando si selezionano gli intervistatori, non ho trovato che produca un campione più diversificato rispetto al metodo più casuale descritto nella sezione 4 sopra.

Campionamento della variazione massima a più stadi

Quando si seleziona un campione multistadio, la prima fase potrebbe essere quella di disegnare un campione di distretti in tutto il paese. Se questo numero è inferiore a circa 30, è probabile che il campione sarà seriamente non rappresentativo in qualche modo. Due soluzioni a questo sono stratificazione e campionamento massima variazione. Per entrambi, è necessaria una certa conoscenza locale.

Quando si sta rilevando una vasta area geografica, un campione di massima variazione può essere disegnato in più fasi. La prima fase consiste nel decidere quali parti dell’area della popolazione saranno esaminate. Ad esempio, se un sondaggio deve rappresentare un’intera provincia e non è possibile esaminare ogni parte della provincia, è necessario decidere quali parti della provincia (chiamiamole contee) saranno incluse. Selezionarli è fatto in questo modo…

6.1. Fase 1

1. Pensate a tutti i modi in cui le contee possono differire dalla provincia nel suo complesso – specialmente modi che sono legati al soggetto del sondaggio. Se un sondaggio riguarda la radio FM e alcune aree sono collinari, la ricezione potrebbe essere più povera lì. Se il sondaggio riguarda la malaria, e alcune contee hanno grandi paludi con molte zanzare, includi una di queste contee e una che è l’opposto. Se l’argomento è legato alla ricchezza o ai livelli di istruzione (come molti argomenti di ricerca), scopri quali contee hanno le persone più ricche e meglio istruite e quali hanno i più poveri e meno istruiti. Prova a pensare da 5 a 10 fattori rilevanti per lo studio.

2. Quindi prova a raccogliere dati oggettivi su questi fattori. In caso contrario, cercare di trovare esperti sugli argomenti, o persone che hanno viaggiato in tutta la provincia. Utilizzando queste informazioni, per ogni fattore fare un elenco delle contee che hanno un alto livello del fattore (ad esempio un sacco di montagne, un sacco di paludi, o ricchi) e contee che hanno un basso livello del fattore (ad esempio tutti piatta, senza paludi, o poveri).

3. Le contee menzionate più spesso in questi elenchi di estremi dovrebbero essere incluse nel sondaggio. Segna queste contee su una mappa della provincia. È stata omessa un’area grande e ben popolata? Se è così, aggiungere un’altra contea, che è il più lontano possibile da tutti gli altri menzionati.

6.2. Fase 2

Quando sono state scelte le contee (o qualunque siano le aree chiamate), la fase successiva consiste nel capire dove in ogni contea dovrebbe essere scelto il cluster. Continuare il principio di massima variazione utilizzando lo stesso principio all’interno di ogni contea selezionata. Se una contea è stata scelta per la sua paludosità e planarità, scegli l’area più piatta e paludosa del paese. Se è stato scelto per le sue montagne e la sua ricchezza, scegli una ricca zona montuosa. Per scoprire dove sono queste aree, potrebbe essere necessario recarsi in ogni contea e parlare con esperti locali.

6.3. Fase 3

Dopo aver scelto le città e le località rurali, è possibile continuare a utilizzare il campionamento a variazione massima o scegliere un altro metodo, come il campionamento delle quote, l’elenco dei blocchi da fotografie aeree o il campionamento radiale. Se si utilizza il campionamento della variazione massima per la fase finale, normalmente si sceglie un numero di cluster (strade o quartieri), quindi scegliere i rispondenti in ciascun cluster utilizzando i principi spiegati nella sezione 4 o 5 sopra.

Vuoi saperne di più sul campionamento della variazione massima? Scusa, ma non puoi! Questa pagina non è molto dettagliata, ma anche così, sembra essere la spiegazione più dettagliata del campionamento massima variazione mai scritto. Il prossimo più dettagliato (e più ampiamente citato) sembra essere nel libro di Michael Quinn Patton Qualitative Research and Evaluation Methods, alle pagine 234-235 nell’edizione del 2001 (meno di una pagina in totale). Inoltre, questa pagina si concentra sul campionamento massima variazione per le indagini. Usarlo per la ricerca qualitativa, come interviste approfondite e studi di casi, richiederebbe leggere variazioni. Scriverò una pagina separata su questo, quando si presenta la necessità.

Citazione suggerita per questa pagina:
List, Dennis (2004). Campionamento variazione massima per sondaggi e gruppi di consenso. Adelaide: Dialogo pubblico. Disponibile presso www.audiencedialogue.org/maxvar.html, 12 settembre 2004.

Altri principi di campionamento sopra menzionati (campionamento casuale, campionamento di quote, campionamento stratificato e campionamento a palle di neve) sono descritti nel capitolo 2 di Know Your Audience.



Lascia un commento

Il tuo indirizzo email non sarà pubblicato.