Conseils

Nettoyage des données pour l'analyse des données en sociologie

Nettoyage des données pour l'analyse des données en sociologie

Le nettoyage des données est un élément crucial de l'analyse des données, en particulier lorsque vous collectez vos propres données quantitatives. Une fois les données collectées, vous devez les saisir dans un programme informatique tel que SAS, SPSS ou Excel. Pendant ce processus, que ce soit à la main ou à l'aide d'un scanner, des erreurs se produiront. Peu importe la précision avec laquelle les données ont été entrées, les erreurs sont inévitables. Cela pourrait signifier un codage incorrect, une lecture incorrecte des codes écrits, une détection incorrecte des marques en noir, des données manquantes, etc. Le nettoyage des données est le processus de détection et de correction de ces erreurs de codage.

Il existe deux types de nettoyage de données à effectuer sur des ensembles de données. Ce sont des possibilités de nettoyage de code et de nettoyage d'urgence. Les deux sont essentiels au processus d'analyse des données car, s'ils sont ignorés, vous produirez presque toujours des résultats de recherche trompeurs.

Nettoyage possible par code

Toute variable donnée aura un ensemble spécifié de choix de réponse et de codes pour correspondre à chaque choix de réponse. Par exemple, la variable le genre Vous aurez trois choix de réponse et des codes pour chaque réponse: 1 pour les hommes, 2 pour les femmes et 0 pour les non-réponses. Si vous avez un répondant codé 6 pour cette variable, il est clair qu'une erreur a été commise puisqu'il ne s'agit pas d'un code de réponse possible. Le nettoyage de code possible consiste à vérifier que seuls les codes attribués aux choix de réponse pour chaque question (codes possibles) apparaissent dans le fichier de données.

Certains programmes informatiques et progiciels statistiques disponibles pour la saisie de données vérifient ces types d’erreurs lors de la saisie des données. Ici, l'utilisateur définit les codes possibles pour chaque question avant la saisie des données. Ensuite, si un nombre en dehors des possibilités prédéfinies est entré, un message d'erreur apparaît. Par exemple, si l'utilisateur essaie de saisir un 6 pour le sexe, l'ordinateur peut émettre un bip et refuser le code. D'autres programmes informatiques sont conçus pour rechercher des codes illégitimes dans les fichiers de données complets. Autrement dit, s'ils n'ont pas été vérifiés pendant le processus de saisie de données décrit précédemment, il existe des moyens de vérifier que les fichiers ne contiennent pas d'erreurs de codage une fois la saisie terminée.

Si vous n'utilisez pas de programme informatique qui vérifie les erreurs de codage pendant le processus de saisie des données, vous pouvez localiser certaines erreurs simplement en examinant la distribution des réponses à chaque élément de l'ensemble de données. Par exemple, vous pouvez générer une table de fréquences pour la variable le genre et vous voyez ici le numéro 6 entré de manière erronée. Vous pouvez alors rechercher cette entrée dans le fichier de données et la corriger.

Nettoyage d'urgence

Le deuxième type de nettoyage des données est appelé nettoyage d'urgence et est un peu plus compliqué que le nettoyage possible par code. La structure logique des données peut imposer certaines limites aux réponses de certains répondants ou à certaines variables. Le nettoyage des éventualités est le processus consistant à vérifier que seuls les cas qui devraient contenir des données sur une variable particulière possèdent effectivement de telles données. Par exemple, disons que vous avez un questionnaire dans lequel vous demandez aux personnes interrogées combien de fois elles ont été enceintes. Toutes les femmes interrogées devraient avoir une réponse codée dans les données. Les hommes, cependant, devraient soit rester vides, soit avoir un code spécial pour ne pas répondre. Si un homme dans les données est codé comme ayant 3 grossesses, par exemple, vous savez qu'il y a une erreur et que celle-ci doit être corrigée.

Les références

Babbie, E. (2001). La pratique de la recherche sociale: 9e édition. Belmont, Californie: Thomson Wadsworth.