Muestreo de variación máxima para encuestas y grupos de consenso
¿Qué es el muestreo de variación máxima?
En lugar de buscar la representatividad a través de probabilidades iguales, el muestreo de variación máxima la busca al incluir una amplia gama de extremos. El principio es que si deliberadamente intenta entrevistar a una selección muy diferente de personas, sus respuestas agregadas pueden ser cercanas a las de toda la población. El método suena extraño, pero funciona bien en lugares donde no se puede dibujar una muestra aleatoria. Esta es una extensión del principio estadístico de regresión hacia la media, en otras palabras, si un grupo de personas es extremo de varias maneras diferentes, contendrá personas que son promedio de otras maneras. Por lo tanto, si buscara una muestra de «variación mínima» solo tratando de cubrir los tipos de personas que creía que eran promedio, es probable que se pierda un número de grupos diferentes que constituyen una proporción bastante alta de la población. Pero al buscar la máxima variación, las personas promedio se incluyen automáticamente.
Una muestra de variación máxima (a veces llamada muestra de diversidad máxima o muestra de heterogeneidad máxima) es un tipo especial de muestra intencional. Normalmente, una muestra intencional no es representativa y no afirma serlo. Sin embargo, una muestra de variación máxima, si se dibuja cuidadosamente, puede ser tan representativa como una muestra aleatoria. A pesar de lo que muchas personas (con poco conocimiento de estadísticas) creen, una muestra aleatoria no es necesariamente la más representativa, especialmente cuando el tamaño de la muestra es pequeño.
Cuándo usar el muestreo de variación máxima
Hay dos ocasiones principales para usar el muestreo de variación máxima:
- Cuando el tamaño de la muestra es muy pequeño, o
- Cuando no se dispone de información sobre la población (y no es difícil encontrar miembros de la población con las características seleccionadas)
2.1. Muestreo de variación máxima para tamaño de muestra pequeño
Por» pequeño » aquí, quiero decir menos de aproximadamente 30. («Alrededor de 30» significa cualquier cosa de alrededor de 20 a alrededor de 50; no hay cambios repentinos a medida que aumenta el tamaño de la muestra. Independientemente del número real, el muestreo aleatorio no funciona bien para estas muestras pequeñas: hay una alta probabilidad de obtener una muestra que no sea representativa, a pesar de que se eligió al azar. Cuando la muestra es tan pequeña como 3 (para un conjunto de grupos de consenso), el muestreo aleatorio es demasiado peligroso. En su lugar, puede usar muestreo de cuotas o muestreo de variación máxima. Si tiene suficientes datos sobre la población, el muestreo de cuotas está bien. Por ejemplo, si está muestreando a 20 personas de la población de una ciudad, una forma simple de muestreo de cuotas es elegir a 10 hombres y 10 mujeres. Pero el muestreo de cuotas, a partir de datos de población publicados o conjeturados, no siempre es relevante. Ahí es cuando el muestreo de máxima variación es más útil. Por ejemplo, cuando elige una muestra para un conjunto de grupos de consenso, normalmente toma tres tipos de personas que serán lo más diferentes posible en el tema que se investiga.
2.2. Muestreo de variación máxima en ausencia de datos de población
Aunque el muestreo aleatorio se considera el método de muestreo ideal, a veces no es posible tomar una muestra aleatoria. En algunos países, la información del censo no está disponible o está tan desactualizada que es inútil. Incluso cuando existen datos censales recientes y detallados, es posible que no haya mapas que muestren los límites de las zonas a las que se aplican los datos. E incluso cuando existen buenos datos censales y mapas relacionados, es posible que no haya marcos de muestreo.
La buena noticia (desde el punto de vista del muestreo) es que estas condiciones generalmente se aplican en países muy pobres y subdesarrollados con grandes poblaciones rurales. En mi experiencia, no hay una amplia gama de variaciones en estas poblaciones. Cuanto más desarrollado es un país, al parecer, más diferencias hay entre sus ciudadanos. Por lo tanto, cuando el muestreo aleatorio no es posible, tal vez no sea tan necesario. Pero en los países pobres donde los marcos de muestra no existen, el muestreo de máxima variación puede ser muy efectivo, utilizando el método de varias etapas que se explica a continuación.
¿Cuál es el mejor tamaño de muestra para la máxima variación de muestra?
Para una muestra de una sola etapa, o en el nivel básico de muestreo,es mejor limitar una muestra de variación máxima a no más de 50 unidades. Por encima de ese número, los entrevistadores se confunden, y otros métodos, como el muestreo de cuotas y el muestreo radial, son más simples y, a menudo, más completos. Al combinar esas submuestras de 50 o menos en una muestra de varias etapas, la muestra total puede ser de miles de personas, pero debido al esfuerzo adicional involucrado, no lo haría a menos que no hubiera otra alternativa. La muestra más grande que he probado fue de 200, en grupos de 12, pero una muestra de cuota (por ejemplo, grupo de edad por sexo y tipo de ocupación) podría haber sido representativa y habría necesitado mucha menos supervisión de los entrevistadores.
Cómo seleccionar una muestra de variación máxima
Con el muestreo de variación máxima, intenta incluir todos los extremos de la población. Por ejemplo, en un pueblo pequeño, para una encuesta de audiencia de radio, puedes pedir una entrevista…
- la persona mayor del pueblo que escucha la radio
- la mayor que no escucha la radio
- la más joven que escucha la radio
- una persona que escucha la radio todo el día
- una persona que a menudo habla de programas de radio que ha escuchado
- una persona que escucha la radio en medio de la noche
- una persona que nunca ha escuchado la radio en su vida
- la persona con la mayor cantidad de radios (un reparador, tal vez)
- la persona con la antena más grande
- una persona que se cree que es completamente promedio en todos los sentidos
- una persona que pasa mucho tiempo en la calle y en lugares públicos
- una persona que trabaja casi todo el tiempo
…y así sucesivamente, cambiando de» persona «a» hombre «o» mujer » alternativamente, para garantizar la representación equitativa de ambos sexos. Por supuesto, esto solo funciona cuando dicha información sobre otras personas es ampliamente conocida. La lista anterior de personas se podría producir en un pueblo, donde mucha gente conoce a muchos otros, pero sería mucho más difícil en una gran ciudad.
A menudo es útil tener una sesión preliminar de lluvia de ideas con un grupo inicial de informantes locales (que no deberían ser encuestados eventuales). Presénteles una lista inicial de tipos personales, similar a la anterior, pero adecuadamente modificada para el propósito de su estudio. Pídeles que inventen más tipos de personas y que te digan si algunos de los tipos que inventaste no tienen sentido en esa área. Pero a menos que empieces con un ejemplo, he descubierto que a la gente le resulta difícil entender lo que estás pidiendo.
Un problema al dibujar una muestra como el anterior es el de los informantes que se usan para identificar a las personas con esas características. Es tentador, porque es fácil, ir a la oficina del gobierno local y pedirle a los funcionarios que nombren a personas de ese tipo. Puede obtener una lista de ellos rápidamente, pero de una manera importante no habrá una variación máxima: los encuestados sugeridos serán conocidos por los funcionarios del gobierno local.
Su red se puede lanzar más ampliamente mediante muestreo secuencial (muestreo de bola de nieve), obteniendo solo unos pocos encuestados sugeridos de cada fuente. En otras palabras, el informante A sugiere a los encuestados B y C de su lista de características, B sugiere D y E, C sugiere F y G, y así sucesivamente. Dado el principio de «seis grados de separación» y el hecho de que a los encuestados no se les pide que sugieran a sus amigos, sino a personas con características específicas, el método de variación máxima debería dar a la mayoría de las personas en el área de la encuesta la oportunidad de ser incluidas en la muestra.
¿Notaste la falla en ese argumento? El problema es que cuantas más personas conozca un encuestado potencial, más probabilidades habrá de que esa persona sea seleccionada para la encuesta. Por lo tanto, la lista de tipos personales debe incluir explícitamente a personas socialmente aisladas, agregando criterios como…
- un hombre mayor que tiene muy pocas visitas
- un hombre más joven que no habla mucho
- una mujer mayor que vive sola y no tiene familiares que vivan cerca
- una mujer joven que está soltera y casi nunca sale de casa
…y así sucesivamente, variando las descripciones anteriores para adaptarse a la cultura. (En algunas partes del mundo nunca encontrarás a una mujer viviendo sola.) Donde hay segregación a lo largo de líneas religiosas, lingüísticas o tribales, tendrá que iniciar hilos de investigación separados en cada uno de esos grupos culturales.
Si preguntas por un tipo de persona en particular, y el informante no puede nombrar a alguien exactamente así, está bien aceptar una aproximación, basada en algún otro criterio que parezca relevante. Esto puede introducir otras dimensiones de la diversidad en las que no pensaste inicialmente.
Seleccionando las dimensiones de variación
En el ejemplo anterior, los 12 tipos diferentes de radioescuchadores (más otros 4 tipos de aislamientos sociales) se encontraron imaginando las circunstancias sociales que podrían afectar la escucha de radio. La lista no era exhaustiva ni sistemática, pero si desea asegurarse de que no se ha omitido ningún grupo de personas, puede usar el análisis dimensional para crear una lista más completa. Se hace así…
El paso 1 es decidir qué tamaño de muestra desea. Por ejemplo, digamos que son 20. Esto determina el número de dimensiones: ¿20 es 2 al poder de qué? La respuesta más cercana es 4, porque 2 x 2 x 2 x 2 = 16. Así que puedes usar 4 dimensiones para obtener 16 casos, luego agregar algunos factores más, como personas socialmente aisladas. (Para una muestra de 32, use 5 dimensiones, y para 64, use 6. Por encima de 100 o más, el muestreo de cuotas suele funcionar mejor.)
El paso 2 es decidir sobre esas dimensiones. Piense en algunas características de las personas que (a) difieren ampliamente entre las personas en relación con el tema que está investigando, y (b) son conocidas por una amplia gama de otras personas. Por ejemplo, si el tema es cuánto tiempo pasan las personas escuchando la radio, puede que no sea útil elegir el género como dimensión, porque en la mayoría de los países los hombres y las mujeres pasan aproximadamente el mismo tiempo escuchando la radio. Sin embargo, el hecho de que las personas tengan o no una radio en casa hace una gran diferencia en su tiempo de escucha. Otros factores visibles que afectan la escucha de la radio son si las personas tienen televisión en casa y cuánto tiempo pasan fuera de casa, en lugares sin radio. Otro factor es cuánto les gusta escuchar los programas locales, pero eso no es fácil de observar, por lo que es posible que deba usar una variable proxy, como la frecuencia con la que dicen que hablan de programas de radio. Ahora tenemos las 4 variables, cada una con dos respuestas extremas. Dale a cada posible respuesta un código de letra, empezando por A, como este…
- Tener radio en casa: sí (A) o no (B)
- Tener televisión en casa: sí (C) o no (D)
- Quedarse en casa la mayor parte del tiempo (E) o fuera de casa la mayor parte del tiempo (F)
- Con qué frecuencia hablan con otros sobre programas de radio: «la mayoría de los días «(G) o» casi nunca » (H)
Tomando cada una de las 4 variables por turno, hay 16 categorías posibles (2 x 2 x 2 x 2). Estos son ACEG, ACEH, ACFG, ACFH
BCEG, BCEH, BCFG, BCFH
ADEG, ADEH, ADFG, ADFH
BDEG, BDEH, BDFG, BDFH
Por ejemplo, BDGH = alguien que no tiene radio en casa, no tiene televisión en casa, está lejos de casa la mayor parte del tiempo y casi nunca habla de radio.
Paso 3. Todo lo que tienes que hacer ahora es encontrar a alguien que coincida con esa descripción y repetir esa tarea para los otros 15 tipos de personas. ¿Y si no puedes encontrar personas que cumplan con algunas de esas descripciones? Esto puede suceder , por ejemplo, puede ser difícil encontrar a alguien que se quede en casa la mayor parte del tiempo y no tenga radio en casa, pero hable mucho de ello. En este caso, terminarás con más de una persona en algunas de las 16 categorías. No hay gran problema: solo asegúrate de que las personas de la misma categoría sean muy diferentes de alguna otra manera que parezca relevante para tu estudio.
Paso 4. Por último, no se olvide de agregar las 4 personas que rara vez se comunican con los demás. Eso eleva la muestra a 20. Quieres más de 20? Simplemente agregue algunas personas más, siempre y cuando sean lo más diferentes posible entre sí de alguna manera relevante.
Aunque este método sistemático de selección de los encuestados es más fácil al incluir a los entrevistadores, no he encontrado que produzca una muestra más diversa que el método más aleatorio descrito en la sección 4 anterior.
Muestreo de variación máxima de varias etapas
Cuando seleccione una muestra de varias etapas, la primera etapa podría ser dibujar una muestra de distritos en todo el país. Si este número es inferior a aproximadamente 30, es probable que la muestra no sea muy representativa en algunos aspectos. Dos soluciones a esto son la estratificación y el muestreo de variación máxima. Para ambos, se necesita algo de conocimiento local.
Cuando se está topografiando un área geográfica grande, se puede dibujar una muestra de máxima variación en varias etapas. La primera etapa consiste en decidir qué partes de la zona de población se encuestarán. Por ejemplo, si una encuesta va a representar a toda una provincia, y no es factible encuestar a todas las partes de la provincia, debe decidir qué partes de la provincia (llamémoslas condados) se incluirán. Seleccionarlos se hace así…
6.1. Etapa 1
1. Piense en todas las formas en que los condados pueden diferir de la provincia en su conjunto, especialmente las formas relacionadas con el tema de la encuesta. Si una encuesta es sobre radio FM, y algunas áreas son montañosas, la recepción puede ser más pobre allí. Si la encuesta es sobre malaria, y algunos condados tienen grandes pantanos con muchos mosquitos, incluya uno de esos condados y uno que sea lo contrario. Si el tema está relacionado con la riqueza o los niveles de educación (como muchos temas de investigación), averigüe qué condados tienen las personas más ricas y mejor educadas, y cuáles tienen las más pobres y menos educadas. Trate de pensar de 5 a 10 factores que sean relevantes para el estudio.
2. Luego trate de reunir datos objetivos sobre estos factores. En su defecto, trate de encontrar expertos en los temas, o personas que hayan viajado por toda la provincia. Usando esta información, para cada factor haga una lista de los condados que tienen un alto nivel del factor (por ejemplo, muchas montañas, muchos pantanos o ricos) y los condados que tienen un bajo nivel del factor (por ejemplo, todos planos, sin pantanos o pobres).
3. Los condados mencionados con más frecuencia en estas listas de extremos deben incluirse en la encuesta. Marque estos condados en un mapa de la provincia. ¿Se ha omitido alguna zona grande y bien poblada? Si es así, agregue otro condado, que esté lo más lejos posible de todos los demás mencionados.
6.2. Etapa 2
Cuando se han elegido los condados (o como se llamen las áreas), la siguiente etapa es determinar en qué lugar de cada condado se debe elegir el grupo. Continúe con el principio de variación máxima utilizando el mismo principio dentro de cada condado seleccionado. Si un condado fue elegido por su pantanosidad y planitud, elija la zona más plana y pantanosa del país. Si fue elegido por sus montañas y riqueza, elija una zona montañosa rica. Para averiguar dónde se encuentran estas áreas, es posible que deba viajar a cada condado y hablar con expertos locales.
6.3. Etapa 3
Cuando haya elegido los pueblos y localidades rurales, puede continuar utilizando el muestreo de máxima variación o puede elegir otro método, como el muestreo de cuotas, el listado de bloques de fotografías aéreas o el muestreo radial. Si usas muestreo de variación máxima para la etapa final, normalmente elegirás varios grupos (calles o barrios) y, a continuación, elegirás encuestados en cada grupo utilizando los principios explicados en la sección 4 o 5 anterior.
¿ Le gustaría leer más sobre el muestreo de máxima variación? ¡Lo siento, pero no puedes! Esta página no es muy detallada, pero aun así, parece ser la explicación más detallada de muestreo de máxima variación jamás escrita. El siguiente más detallado (y más citado) parece estar en el libro de Michael Quinn Patton Qualitative Research and Evaluation Methods, en las páginas 234-235 de la edición de 2001 (menos de una página en total). Además, esta página se centra en el muestreo de variación máxima para encuestas. Su uso para investigaciones cualitativas, como entrevistas en profundidad y estudios de casos, requeriría ligeras variaciones. Escribiré una página separada sobre eso, cuando surja la necesidad.Cita sugerida para esta página: Lista, Dennis (2004). Muestreo de variación máxima para encuestas y grupos de consenso. Adelaide: Diálogo del Público. Disponible en www.audiencedialogue.org/maxvar.html, 12 de septiembre de 2004.
Otros principios de muestreo mencionados anteriormente (muestreo aleatorio, muestreo de cuotas, muestreo estratificado y muestreo de bolas de nieve) se describen en el Capítulo 2 de Conozca a su público.