Salutations,
Comment traiteriez-vous efficacement la question des facteurs confondants (créant de l'interférence) dans une enquête pour vous assurer qu'à la fin de l'étude, nous pouvons clairement relier les variables dépendantes et variables indépendantes uniquement ?
Par exemple, une étude sur "l'effet des facteurs socio-économiques et des pratiques de soins aux enfants sur l'état nutritionnel des enfants âgés de 0 à 23 mois dans la population X".
Pour les facteurs socio-économiques, je regarde les caractéristiques démographiques, la profession, etc. Pour les pratiques de soins aux enfants, je regarde les indicateurs d'allaitement et de complémentarité, les pratiques WASH.
Ainsi, l'un de mes facteurs confondants possibles pourrait être l'état de santé des enfants au moins deux semaines avant l'enquête, qui pourrait également avoir un impact sur l'état nutritionnel.
Comment puis-je adresser cette question ?
Une approche pour traiter ce problème réside dans le plan d'échantillonnage. L'appariement est une technique clé. Le problème est que l'appariement (matching) peut compliquer l'échantillonnage et être difficile à bien faire. Les enquêtes n'impliquent généralement pas la prise d'échantillons appariés, nous avons donc tendance à utiliser une technique analytique pour répondre à ces questions. L'analyse stratifiée (par exemple l'analyse de Mantel-Haenszel) était très couramment utilisée. Ce n'est pas une analyse difficile et elle fonctionne bien mais elle a quelques limites ... (1) La méthode devient laborieuse lorsqu'il y a plus d'un facteur confondant et nécessite une grande taille d'échantillon pour éviter des tailles d'échantillons extrêmement petites dans certaines combinaisons de strates, et (2) les confondeurs continus doivent être convertis en un nombre limité de catégories, ce qui peut être problématique lorsque trop peu de catégories sont utilisées et que l'obtention d'un grand nombre de catégories nécessite généralement une grande taille d'échantillon. La disponibilité d'ordinateurs rapides et puissants nous permet d'utiliser des méthodes de régression multivariées pour répondre à ces questions. J'utilise le plus souvent la régression logistique multiple dans ces cas. Je commence généralement par examiner les associations par paires entre les facteurs de risque / facteurs confondants potentiels et le résultat d'intérêt et je sélectionne uniquement les associations statistiquement significatives (souvent avec un critère assoupli tel que ap < 0,10). J'utilise ensuite une méthode par étapes pour construire le modèle de régression ... J'ajuste généralement un modèle comprenant toutes les associations significatives et supprime l'association la moins significative du modèle et réajuste le modèle. Ce processus d'élimination progressive se poursuit jusqu'à ce qu'il n'y ait plus de variables non significatives à retirer du modèle. Ce modèle final peut être considéré comme ne contenant que des associations indépendantes ... c'est ce que nous voulons car les associations supprimées étaient dues aux interférences. À chaque étape, nous cherchons à simplifier le modèle. C'est une technique puissante mais il y a quelques "pièges" à éviter en gardant les modèles simples. Les valeurs manquantes peuvent rendre les grands modèles peu fiables. Des variables continues et catégorielles peuvent être utilisées. Les variables Oui/Non doivent être codées 1/0. Un résultat naturel de l'analyse est le rapport de cotes et est interprété comme le changement de cote associé à un changement unitaire d'une variable (pour les variables binaires (1/0), il s'agit de l'effet de l'exposition, pour les variables continues, il s'agit de l'effet d'un changement d'unité).
J'espère que cela vous sera utile. J'ai du matériel de formation montrant l'analyse stratifiée et la régression logistique avec R. Faites-moi savoir (ici ou par e-mail) si vous souhaitez obtenir le manuel et les ensembles de données.
Répondu:
2 années il y a@ Mark Myatt, Merci pour la réponse très instructive. Je vous ai envoyé un e-mail, je vous serais très reconnaissant de me faire parvenir les manuels et les ensembles de données. Salutations.
Répondu:
2 années il y aD'ACCORD. J'ai mis le manuel (prfe.pdf) et les fichiers de données su[pprtig dans cette archive ZIP .
Les exercices 2, 3 et 4 couvrent l'analyse stratifiée et la régression logistique. Si vous voulez éviter d'avoir à écrire des fonctions, vous pouvez source() le fichier prfe.r pour charger les fonctions développées pour les premiers exercices du manuel. Cela pourrait vous faire gagner du temps de travail.
J'espère que ceci est utile. Faites-moi savoir si vous avez des problèmes avec cela.
Répondu:
2 années il y a@ Mark Myatt Reçu, Merci
Répondu:
2 années il y a