Échantillonnage à variation maximale pour les enquêtes et les groupes de consensus

Qu’est-ce que l’échantillonnage à variation maximale?

Au lieu de rechercher la représentativité par des probabilités égales, l’échantillonnage à variation maximale la recherche en incluant une large gamme d’extrêmes. Le principe est que si vous essayez délibérément d’interviewer une sélection très différente de personnes, leurs réponses agrégées peuvent être proches de celles de l’ensemble de la population.La méthode semble étrange, mais fonctionne bien dans des endroits où un échantillon aléatoire ne peut pas être prélevé. C’est une extension du principe statistique de régression vers la moyenne – en d’autres termes, si un groupe de personnes est extrême de plusieurs manières différentes, il contiendra des personnes qui sont moyennes d’autres manières. Donc, si vous cherchiez un échantillon de « variation minimale » en essayant uniquement de couvrir les types de personnes que vous pensiez être moyennes, vous risqueriez de manquer un certain nombre de groupes différents qui constituent une proportion assez élevée de la population. Mais en recherchant une variation maximale, les personnes moyennes sont automatiquement incluses.

Un échantillon à variation maximale (parfois appelé échantillon à diversité maximale ou échantillon à hétérogénéité maximale) est un type particulier d’échantillon à finalité. Normalement, un échantillon ciblé n’est pas représentatif et ne prétend pas l’être. Cependant, un échantillon de variation maximale, s’il est soigneusement tiré, peut être aussi représentatif qu’un échantillon aléatoire. Malgré ce que beaucoup de gens (avec un peu de connaissance des statistiques) croient, un échantillon aléatoire n’est pas nécessairement le plus représentatif, surtout lorsque la taille de l’échantillon est petite.

Quand utiliser l’échantillonnage à variation maximale

Il y a deux occasions principales d’utiliser l’échantillonnage à variation maximale :

  • Lorsque la taille de l’échantillon est très petite, ou
  • Lorsqu’aucune information sur la population n’est disponible (et qu’il n’est pas difficile de trouver des membres de la population présentant les caractéristiques sélectionnées)

2.1. Échantillonnage de variation maximale pour une petite taille d’échantillon

Par « petit » ici, je veux dire moins de 30 environ. (« Environ 30 » signifie quelque chose d’environ 20 à environ 50 – il n’y a pas de changement soudain à mesure que la taille de l’échantillon augmente.) Quel que soit le nombre réel, l’échantillonnage aléatoire ne fonctionne pas bien pour ces petits échantillons: il y a de fortes chances d’obtenir un échantillon qui n’est pas représentatif, même s’il a été choisi au hasard. Lorsque l’échantillon est aussi petit que 3 (pour un ensemble de groupes de consensus), l’échantillonnage aléatoire est beaucoup trop dangereux. Au lieu de cela, vous pouvez utiliser l’échantillonnage par quota ou l’échantillonnage par variation maximale. Si vous avez suffisamment de données sur la population, l’échantillonnage par quota est correct. Par exemple, si vous échantillonnez 20 personnes parmi la population d’une ville, une forme simple d’échantillonnage par quota consiste à choisir 10 hommes et 10 femmes. Mais l’échantillonnage par quota – à partir de données de population publiées ou devinées – n’est pas toujours pertinent. C’est à ce moment que l’échantillonnage à variation maximale est le plus utile. Par exemple, lorsque vous choisissez un échantillon pour un ensemble de groupes de consensus, vous prenez normalement trois types de personnes qui seront aussi différentes que possible sur la question à l’étude.

2.2. Échantillonnage à variation maximale en l’absence de données sur la population

Bien que l’échantillonnage aléatoire soit considéré comme la méthode d’échantillonnage idéale, il n’est parfois pas possible de prélever un échantillon aléatoire. Dans certains pays, les informations du recensement ne sont pas disponibles ou sont tellement dépassées qu’elles sont inutiles. Même lorsqu’il existe des données de recensement récentes et détaillées, il peut ne pas y avoir de cartes indiquant les limites des zones auxquelles les données s’appliquent. Et même lorsqu’il existe à la fois de bonnes données de recensement et des cartes connexes, il peut ne pas y avoir de cadres d’échantillonnage.

La bonne nouvelle (du point de vue de l’échantillonnage) est que ces conditions s’appliquent généralement dans les pays très pauvres et peu développés à forte population rurale. D’après mon expérience, il n’y a pas un large éventail de variations dans ces populations. Plus un pays est développé, semble-t-il, plus il y a de différences entre ses citoyens. Par conséquent, lorsque l’échantillonnage aléatoire n’est pas possible, ce n’est peut-être pas si nécessaire. Mais dans les pays pauvres où les cadres d’échantillonnage sont inexistants, l’échantillonnage à variation maximale peut être très efficace, en utilisant la méthode à plusieurs étapes expliquée ci-dessous.

Quelle est la meilleure taille d’échantillon pour un échantillon à variation maximale?

Pour un échantillon en une seule étape, ou au niveau de base de l’échantillonnage, il est préférable de limiter un échantillon de variation maximale à 50 unités au maximum. Au-delà de ce nombre, les intervieweurs sont confus et d’autres méthodes, telles que l’échantillonnage par quota et l’échantillonnage radial, sont plus simples et souvent plus complètes. En combinant ces sous-échantillons de 50 ou moins dans un échantillon à plusieurs étapes, l’échantillon total peut représenter des milliers de personnes – mais en raison de l’effort supplémentaire requis, vous ne le feriez pas à moins qu’il n’y ait pas d’alternative. Le plus grand que j’ai essayé était d’environ 200, en grappes de 12 – mais un échantillon de quotas (par exemple, groupe d’âge par sexe par type de profession) aurait pu être aussi représentatif et aurait nécessité beaucoup moins de supervision des intervieweurs.

Comment sélectionner un échantillon de variation maximale

Avec l’échantillonnage de variation maximale, vous essayez d’inclure tous les extrêmes de la population. Par exemple, dans un petit village, pour une enquête d’audience à la radio, vous pouvez demander une interview…

  • la personne la plus âgée du village qui écoute la radio
  • la personne la plus âgée qui n’écoute pas la radio
  • la plus jeune qui écoute la radio
  • une personne qui écoute la radio toute la journée
  • une personne qui parle souvent des émissions de radio qu’elle a entendues
  • une personne qui écoute la radio au milieu de la nuit
  • une personne qui n’a jamais écouté la radio de sa vie
  • la personne avec le plus de radios (un réparateur, peut-être)
  • la personne avec la plus grande antenne
  • une personne que l’on pense être complètement moyenne à tous égards
  • une personne qui passe beaucoup de temps dans la rue et dans les lieux publics
  • une personne qui travaille presque tout le temps

…et ainsi de suite – changer « personne » en « homme » ou « femme » alternativement, pour assurer une représentation égale des deux sexes. Bien sûr, cela ne fonctionne que lorsque de telles informations sur d’autres personnes sont largement connues. La liste de personnes ci-dessus pourrait être produite dans un village, où beaucoup de gens en connaissent beaucoup d’autres, mais serait beaucoup plus difficile dans une grande ville.

Il est souvent utile d’avoir une séance de remue-méninges préliminaire avec un groupe initial d’informateurs locaux (qui ne devraient pas être des répondants éventuels). Présentez-leur une première liste de types personnels, similaire à ce qui précède, mais modifiée de manière appropriée aux fins de votre étude. Demandez-leur de trouver d’autres types de personnes et de vous dire si certains des types que vous avez inventés n’ont aucun sens dans ce domaine. Mais à moins que vous ne commenciez par un exemple, j’ai constaté que les gens ont du mal à comprendre ce que vous demandez.

Un problème avec le dessin d’un échantillon comme ci-dessus est les informateurs que vous utilisez pour identifier les personnes présentant ces caractéristiques. Il est tentant – parce que c’est facile – d’aller au bureau du gouvernement local et de demander aux fonctionnaires de nommer des personnes de ce type. Vous pouvez obtenir une liste d’entre eux rapidement, mais d’une manière importante, il n’y aura pas de variation maximale: les répondants suggérés seront tous connus des responsables du gouvernement local.

Votre filet peut être lancé plus largement par échantillonnage séquentiel (échantillonnage en boule de neige), en obtenant seulement quelques répondants suggérés de chaque source. En d’autres termes, l’informateur A suggère les répondants B et C de votre liste de caractéristiques, B suggère D et E, C suggère F et G – et ainsi de suite. Étant donné le principe des « six degrés de séparation » et le fait qu’on ne demande pas aux répondants de suggérer leurs amis, mais des personnes ayant des caractéristiques spécifiées, la méthode de variation maximale devrait donner à la plupart des personnes de la zone d’enquête une chance d’être incluses dans l’échantillon.

Avez-vous remarqué la faille dans cet argument? Le problème est que plus un répondant potentiel est connu de personnes, plus il est probable que cette personne soit sélectionnée pour le sondage. Par conséquent, la liste des types personnels doit inclure explicitement les personnes socialement isolées, en ajoutant des critères tels que…

  • un homme plus âgé qui a très peu de visiteurs
  • un homme plus jeune qui ne parle pas beaucoup
  • une femme plus âgée qui vit seule et n’a pas de membres de sa famille vivant à proximité
  • une jeune femme qui n’est pas mariée et ne quitte presque jamais la maison

…et ainsi de suite – en variant les descriptions ci-dessus en fonction de la culture. (Dans certaines parties du monde, vous ne trouverez jamais une femme vivant seule.) Lorsqu’il y a ségrégation selon des lignes religieuses, linguistiques ou tribales, vous devrez commencer des fils d’enquête distincts dans chacun de ces groupes culturels.

Si vous demandez un type particulier de personne, et que l’informateur ne peut pas nommer quelqu’un exactement comme ça, il est bon d’accepter une approximation, basée sur un autre critère qui semble pertinent. Cela peut introduire d’autres dimensions de la diversité auxquelles vous ne pensiez pas au départ.

Sélection des dimensions de variation

Dans l’exemple ci-dessus, les 12 différents types d’auditeurs de radio (plus 4 autres types d’isolats sociaux) ont été trouvés en imaginant les circonstances sociales qui pourraient affecter l’écoute de la radio. La liste n’était ni exhaustive ni systématique, mais si vous voulez être sûr qu’aucun groupe de personnes n’a été omis, vous pouvez utiliser l’analyse dimensionnelle pour créer une liste plus complète. C’est fait comme ça…

L’étape 1 consiste à décider de la taille de l’échantillon que vous souhaitez. Par exemple, disons que c’est 20. Cela détermine le nombre de dimensions: 20 est 2 au pouvoir de quoi? La réponse la plus proche est 4, car 2 x 2 x 2 x 2 = 16. Vous pouvez donc utiliser 4 dimensions pour obtenir 16 cas, puis ajouter quelques facteurs supplémentaires, tels que des personnes socialement isolées. (Pour un échantillon de 32, utilisez 5 dimensions et pour 64, utilisez 6. Au-dessus de 100 ou plus, l’échantillonnage par quota fonctionne généralement mieux.)

L’étape 2 consiste à décider de ces dimensions. Pensez à certaines caractéristiques des personnes qui (a) diffèrent largement entre les personnes par rapport au sujet que vous recherchez, et (b) sont connues d’un large éventail d’autres personnes. Par exemple, si le sujet est le temps que les gens passent à écouter la radio, il peut ne pas être utile de choisir le genre comme dimension, car dans la plupart des pays, les hommes et les femmes passent à peu près autant de temps à écouter la radio. Cependant, que les gens aient ou non une radio à la maison fait une grande différence sur leur temps d’écoute. D’autres facteurs visibles qui affectent l’écoute de la radio sont le fait que les gens aient la télévision à la maison et le temps que les gens passent loin de chez eux, dans des endroits sans radio. Un autre facteur est à quel point ils aiment écouter les programmes locaux, mais ce n’est pas facilement observable, vous devrez peut-être utiliser une variable proxy, comme la fréquence à laquelle ils disent parler d’émissions de radio. Nous avons maintenant les 4 variables, chacune avec deux réponses extrêmes. Donnez à chaque réponse possible un code lettre, à partir de A, comme ceci…

  • Avoir une radio à la maison: oui (A) ou non (B)
  • Avoir la télévision à la maison: oui (C) ou non (D)
  • Rester à la maison la plupart du temps (E) ou loin de la maison la plupart du temps (F)
  • À quelle fréquence ils parlent aux autres des programmes de radio: « la plupart des jours » (G) ou « presque jamais » (H)

En prenant chacune des 4 variables à tour de rôle, il y a 16 catégories possibles (2 x 2 x 2 x 2). Ce sont
ACEG, ACEH, ACFG, ACFH
BCEG, BCEH, BCFG, BCFH
ADEG, ADEH, ADFG, ADFH
BDEG, BDEH, BDFG, BDFH

Par exemple, BDGH = quelqu’un qui n’a pas de radio à la maison, pas de télévision à la maison, est loin de chez lui la plupart du temps, et ne parle presque jamais de radio.

Étape 3. Tout ce que vous avez à faire maintenant est de trouver quelqu’un correspondant à cette description – et de répéter cette tâche pour les 15 autres types de personnes. Et si vous ne trouvez pas de personnes qui répondent à certaines de ces descriptions? Cela peut arriver – par exemple, il peut être difficile de trouver quelqu’un qui reste à la maison la plupart du temps, et qui n’a pas de radio à la maison, mais en parle beaucoup. Dans ce cas, vous vous retrouverez avec plus d’une personne dans certaines des 16 catégories. Pas de gros problème: assurez-vous simplement que les personnes de la même catégorie sont très différentes d’une autre manière qui semble pertinente pour votre étude.

Étape 4. Enfin, n’oubliez pas d’ajouter les 4 personnes qui communiquent rarement avec les autres. Cela porte votre échantillon à 20. Vous en voulez plus de 20 ? Ajoutez simplement quelques personnes supplémentaires, tant qu’elles sont aussi différentes que possible les unes des autres d’une manière pertinente.

Bien que cette méthode systématique de sélection des répondants soit plus facile lors de la sélection des intervieweurs, je n’ai pas constaté qu’elle produisait un échantillon plus diversifié que la méthode plus aléatoire décrite à la section 4 ci-dessus.

Échantillonnage à variation maximale en plusieurs étapes

Lorsque vous sélectionnez un échantillon à plusieurs étapes, la première étape peut consister à prélever un échantillon de districts dans l’ensemble du pays. Si ce nombre est inférieur à environ 30, il est probable que l’échantillon sera sérieusement non représentatif à certains égards. Deux solutions à cela sont la stratification et l’échantillonnage à variation maximale. Pour les deux, des connaissances locales sont nécessaires.

Lorsque vous arpentez une grande zone géographique, un échantillon à variation maximale peut être tiré en plusieurs étapes. La première étape consiste à décider quelles parties de la zone de population seront étudiées. Par exemple, si un sondage doit représenter l’ensemble d’une province et qu’il n’est pas possible de sonder chaque partie de la province, vous devez décider quelles parties de la province (appelons-les comtés) seront incluses. Les sélectionner se fait comme ceci…

6.1. Étape 1

1. Pensez à toutes les façons dont les comtés peuvent différer de la province dans son ensemble – en particulier les façons qui sont liées au sujet de l’enquête. Si une enquête porte sur la radio FM et que certaines zones sont vallonnées, la réception peut y être moins bonne. Si l’enquête porte sur le paludisme et que certains comtés ont de grands marécages avec beaucoup de moustiques, incluez un de ces comtés et un autre qui est le contraire. Si le sujet est lié à la richesse ou au niveau d’éducation (comme le sont de nombreux sujets de recherche), découvrez quels comtés ont les personnes les plus riches et les mieux éduquées, et lesquels ont les plus pauvres et les moins éduqués. Essayez de penser à 5 à 10 facteurs pertinents pour l’étude.

2. Ensuite, essayez de recueillir des données objectives sur ces facteurs. À défaut, essayez de trouver des experts sur les sujets, ou des personnes qui ont voyagé dans toute la province. En utilisant ces informations, pour chaque facteur, dressez une liste des comtés qui ont un niveau élevé du facteur (par exemple, beaucoup de montagnes, beaucoup de marécages ou riches) et des comtés qui ont un niveau faible du facteur (par exemple, tous plats, pas de marécages ou pauvres).

3. Les comtés mentionnés le plus souvent dans ces listes d’extrêmes devraient être inclus dans l’enquête. Marquez ces comtés sur une carte de la province. Une zone vaste et bien peuplée a-t-elle été omise? Si c’est le cas, ajoutez un autre comté, qui est aussi loin que possible de tous les autres mentionnés.

6.2. Étape 2

Lorsque les comtés (ou quelque soit le nom des zones) ont été choisis, l’étape suivante consiste à déterminer où, dans chaque comté, le groupe doit être choisi. Continuez le principe de variation maximale en utilisant le même principe à l’intérieur de chaque comté sélectionné. Si un comté a été choisi pour son marécage et sa planéité, choisissez la zone la plus plate et la plus marécageuse du pays. Si elle a été choisie pour ses montagnes et sa richesse, choisissez une région montagneuse riche. Pour savoir où se trouvent ces zones, vous devrez peut-être vous rendre dans chaque comté et parler à des experts locaux.

6.3. Étape 3

Lorsque vous avez choisi les villes et les localités rurales, vous pouvez soit continuer à utiliser l’échantillonnage à variation maximale, soit choisir une autre méthode, telle que l’échantillonnage par quota, la liste des blocs à partir de photographies aériennes ou l’échantillonnage radial. Si vous utilisez l’échantillonnage à variation maximale pour l’étape finale, vous choisirez normalement un certain nombre de groupes (rues ou quartiers), puis choisirez les répondants dans chaque groupe en utilisant les principes expliqués dans la section 4 ou 5 ci-dessus.

Souhaitez-vous en savoir plus sur l’échantillonnage à variation maximale ? Désolé, mais tu ne peux pas! Cette page n’est pas très détaillée, mais malgré tout, elle semble être l’explication la plus détaillée de l’échantillonnage à variation maximale jamais écrite. Le prochain ouvrage le plus détaillé (et le plus largement cité) semble se trouver dans le livre de Michael Quinn Patton, Qualitative Research and Evaluation Methods, aux pages 234-235 de l’édition de 2001 (moins d’une page au total). De plus, cette page se concentre sur l’échantillonnage à variation maximale pour les enquêtes. Son utilisation pour des recherches qualitatives, telles que des entretiens approfondis et des études de cas, nécessiterait de légères variations. J’écrirai une page séparée à ce sujet, lorsque le besoin s’en fera sentir.

Citation suggérée pour cette page :
List, Dennis (2004). Échantillonnage à variation maximale pour les enquêtes et les groupes de consensus. Adélaïde : Dialogue avec le public. Disponible à www.audiencedialogue.org/maxvar.html, 12 septembre 2004.

D’autres principes d’échantillonnage mentionnés ci-dessus (échantillonnage aléatoire, échantillonnage contingenté, échantillonnage stratifié et échantillonnage en boule de neige) sont décrits au chapitre 2 de Connaissez votre public.



Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.