Nous avons mené une enquête SMART et j'aimerais demander l'avis d'un expert sur une question technique concernant l'analyse des données de notre enquête SMART.
SMART utilise PPS pour affecter des grappes de ménages à différents emplacements. Par exemple, vous avez les numéros de grappes 8, 9, 10… représentant chacun 10 ménages provenant de différents emplacements. Plusieurs numéros de grappes peuvent être attribués à un site particulièrement étendu, et donc avec plus de ménages (par exemple, Village de Shawar obtient les grappes 19, 20 et 21 ensemble, et donc compte 30 ménages au total).
La question est la suivante: cela affectera-t-il l'analyse (principalement les intervalles de confiance) si nous attribuons différents identifiants de grappes aux ménages, même s'ils se trouvent techniquement dans la même zone géographique / grand village? Comme dans l'exemple du Village de Shawar, tous les ménages de Village de Shawar devraient-ils se voir attribuer l'identifiant de grappe 19… ou conserver les numéros d'origine de l'échantillon (19, 20, 21).
Dans l’attente de vos commentaires et de vos éclaircissements à ce sujet.
Merci,
Edwin:
Comme vous le savez, l’effet de conception est une mesure de l’effet de l’échantillonnage en grappes sur la précision finale de toute estimation faite à partir d’un échantillon sélectionné au moyen d’un échantillonnage en grappes. L'effet de design est affecté par 2 facteurs:
1) La taille moyenne des grappes de l’échantillon d’enquête (M) et
2) L'hétérogénéité inhérente de la distribution du résultat d'intérêt, mesurée par le coefficient de corrélation intracluster (ICC, parfois appelé rho).
La formule montrant cette relation est la suivante:
Effet de conception = 1 + [(M - 1) x ICC]
Vous pouvez donc voir que si M ou ICC augmente, l'effet de conception augmente, indiquant que la précision diminue et que les intervalles de confiance s'élargissent. Ce n'est pas bon. Nous voulons donc que la plus petite taille moyenne de cluster optimise la précision. C'est pourquoi nous disons, compte tenu de la taille totale de l'échantillon, par exemple 500 ménages, que nous voulons un plus grand nombre de petites grappes. 50 grappes de 10 ménages chacune sont bien meilleures que 10 grappes de 50 ménages chacune.
Vous êtes intéressé par le cas où plus d'une grappe est sélectionnée dans la même unité d'échantillonnage principale (dans votre exemple, le village de Shawar). Et vous voulez savoir si l'utilisation d'un seul numéro d'identification de grappe pour toutes les unités sélectionnées dans la même unité d'échantillonnage principale (c'est-à-dire tous les ménages sélectionnés dans Shawar) est mieux ou pire que de garder ces grappes séparées en utilisant des numéros d'identification différents.
L’effet de la combinaison de toutes les grappes en une seule est clair: cela augmente la taille moyenne des grappes, augmentant ainsi l’effet de conception et diminuant la précision. Mais il peut y avoir d'autres considérations à cette question. Quoi qu'il en soit, dans les grandes unités d'échantillonnage primaires, je divise généralement la zone en segments, puis sélectionne aléatoirement le nombre de segments dont j'ai besoin en fonction du nombre de grappes dans cette unité d'échantillonnage primaire, puis sélectionne le nombre requis de ménages de chaque segment sélectionné. De cette façon, les groupes sont au moins géographiquement distinctes des différentes zones du village de Shawar. Cela peut modéliser plus précisément ce que l'ordinateur suppose être des grappes séparées et distinctes.
Bien sûr, le meilleur moyen est de s’assurer que les unités d’échantillonnage primaire sont suffisamment petites pour qu’aucune grappe ne reçoive plus d’une grappe au premier stade de l’échantillonnage.
Répondu:
5 années il y aJe pense que la question est de savoir s'il existe un grappe importante de n = 30 ou trois grappes distinctes de n = 10 chacune. Les grappes séparées sont généralement prises en segmentant la communauté et en prenant chaque groupe de segments séparés (cela fonctionne car PPS sélectionnera plusieurs grappes pour les communautés plus grandes qui auront probablement plusieurs segments / zones).
En règle générale, l'analyse d'un échantillon doit être informée de la manière dont l'échantillon a été prélevé. Si vous avez une grappe importante en nombre, vous devez la traiter comme une même (c'est-à-dire une grande) grappe (c'est-à-dire lui donner le même ID de grappe). Si vous avez des grappes échantillonnées séparément dans la même communauté, vous devez leur donner des identifiants distincts.
Les estimations ponctuelles ne changeront pas car la pondération de la population est déterminée au préalable par la procédure d'échantillonnage PPS. Les intervalles de confiance peuvent changer. En règle générale, nous souhaitons généralement un grand nombre de petites grappes pour une meilleure précision, mais l’effet sera compliqué par la variabilité au sein et entre les grappes. L'effet sur la précision ne sera probablement pas important si vous n'avez pas trop de grandes grappes (combinés).
Vous pouvez essayer de faire cela dans les deux sens et voir ce qui se passe? Il ne s'agit que de changer les identifiants de grappe. Assurez-vous de sauvegarder vos données en premier.
Vous devriez vérifier ma réponse dans les forums SMART:
https://smartmethodology.org/forum/forum/survey-design-sampling.
Celles-ci semblent moribondes, sans nouveaux postes depuis quelques années ou plus. Je pense que les adeptes SMART surveillent ce forum.
Vous voudrez peut-être contacter CDC qui a joué un rôle dans le développement de la méthode SMART. Je leur ai transmis votre message.
Répondu:
5 années il y aMerci pour toutes les réponses!
@ Bradley:
"Effet de conception = 1 + [(M - 1) x ICC]
Vous pouvez donc voir que si M ou ICC augmente, l'effet de conception augmente, indiquant que la précision diminue et que les intervalles de confiance s'élargissent. Pas très bon. Nous voulons donc que la plus petite taille moyenne de cluster optimise la précision. "
Etes-vous sûr que nous pouvons simplement choisir l'option qui donnerait la meilleure précision mathématique? Cela nous donnerait-il la précision réelle que nous verrions si nous répétions l'expérience 10000 fois?
@Mark:
"En règle générale, l'analyse d'un échantillon doit être informée par la façon dont l'échantillon a été prélevé. Si vous avez un grand cluster, vous devez le traiter de la même façon (c'est-à-dire un grand) cluster (c'est-à-dire, leur donner le même nom de cluster). Si vous avez des clusters (ou grappes) échantillonnées séparément dans la même communauté, vous devez leur donner des identifiants distincts . "
Cela aurait été également mon point de vue. Autant que je sache, le problème provient de l'échantillonnage de clusters avec remplacement, de sorte que certains clusters reviennent plusieurs fois. Dans quelle catégorie diriez-vous que cela entre?
Sur une note différente - Jusqu'où pouvez-vous aller en séparant "arbitrairement" des clusters pour augmenter la précision calculée?
Merci encore, tout autre conseil serait sincèrement apprécié!
m
Répondu:
5 années il y aDésolé j'ai raté cette question.
Nous n'avons jamais vraiment fait d'échantillonnage non exhaustif. Je ne l'ai fait qu'avec des estimateurs intensifs en informatique (par exemple, le bootstrap bloqué et pondéré dans les enquêtes RAM et S3M), mais jamais en tant que procédures d'échantillonnage d'enquêtes réelles.
Méthode WRT séparant les grappes - j’ai utilisé cela avec des enquêtes sur un petit échantillonnage (RAM) dans lesquelles nous sélectionnons 16 communautés, puis prenons une partie de l’échantillon à partir d’un certain nombre de grappes secondaires décidées par la disposition de la communauté. Je pense à cela comme à un échantillon stratifié spatialement au sein d’une grappe et je garde 16 grappes en analyse. Cela fonctionne assez bien et augmente la précision en utilisant une stratification implicite. L'échantillon RAM est également stratifié spatialement, ce qui nous aide. Nous avons constaté que ce type d'échantillon avec m = 16 et n = 12 (n = 192 au total) renvoie des estimations avec une précision similaire à celle d'une enquête SMART avec une taille globale de l'échantillon environ trois fois supérieure à celle-ci.
Répondu:
5 années il y a