Intéressant

Analyse par grappes et son utilisation dans la recherche

Analyse par grappes et son utilisation dans la recherche

L'analyse en grappes est une technique statistique utilisée pour identifier comment regrouper diverses unités, telles que des personnes, des groupes ou des sociétés, en raison de leurs caractéristiques communes. Également appelé clustering, il s’agit d’un outil exploratoire d’analyse de données qui a pour objectif de trier différents objets en groupes de manière à ce que, lorsqu’ils appartiennent au même groupe, ils aient un degré maximal d’association et qu’ils n’appartiennent pas au même groupe. le degré d'association est minime. Contrairement à d'autres techniques statistiques, les structures découvertes par l'analyse par grappes ne nécessitent aucune explication ou interprétation. Elles découvrent la structure dans les données sans expliquer pourquoi elles existent.

Qu'est-ce que le clustering?

Le regroupement existe dans presque tous les aspects de notre vie quotidienne. Prenons, par exemple, des articles dans une épicerie. Différents types d'éléments sont toujours affichés au même endroit ou à proximité - viande, légumes, soda, céréales, produits de papier, etc. Les chercheurs souhaitent souvent faire la même chose avec des données et regrouper des objets ou des sujets dans des groupes qui ont du sens.

Pour prendre un exemple tiré des sciences sociales, supposons que nous examinions les pays et souhaitions les regrouper en groupes basés sur des caractéristiques telles que la division du travail, les forces armées, la technologie ou la population instruite. Nous constaterions que la Grande-Bretagne, le Japon, la France, l'Allemagne et les États-Unis présentent des caractéristiques similaires et seraient regroupés. L’Ouganda, le Nicaragua et le Pakistan seraient également regroupés dans un groupe différent parce qu’ils partageaient un ensemble de caractéristiques différentes, notamment un faible niveau de richesse, une division du travail plus simple, des institutions politiques relativement instables et non démocratiques et un faible développement technologique.

L'analyse par grappes est généralement utilisée dans la phase exploratoire de la recherche lorsque le chercheur n'a pas d'hypothèses préconçues. Ce n'est généralement pas la seule méthode statistique utilisée, mais plutôt utilisée dès les premières étapes d'un projet pour aider à orienter le reste de l'analyse. Pour cette raison, le test de signification n'est généralement ni pertinent ni approprié.

Il existe plusieurs types d'analyse de cluster. Les deux méthodes les plus utilisées sont la classification K-means et la classification hiérarchique.

K-signifie le clustering

Le clustering K-means traite les observations dans les données comme des objets ayant des emplacements et des distances les uns par rapport aux autres (notez que les distances utilisées pour le clustering ne représentent souvent pas des distances spatiales). Il partitionne les objets en K grappes mutuellement exclusives, de sorte que les objets de chaque grappe soient aussi proches que possible des deux côtés et aussi éloignés que possible des objets des autres grappes. Chaque groupe est ensuite caractérisé par sa moyenne ou son centre.

Classification hiérarchique

La classification hiérarchique est un moyen d’étudier les regroupements dans les données simultanément sur diverses échelles et distances. Pour ce faire, il crée un arbre de cluster avec différents niveaux. Contrairement à la classification K-means, l’arborescence n’est pas un ensemble unique de grappes. L'arborescence est plutôt une hiérarchie à plusieurs niveaux dans laquelle des grappes d'un niveau sont jointes en tant que grappes d'un niveau supérieur. L'algorithme utilisé commence par chaque observation ou variable dans un cluster séparé, puis combine les clusters jusqu'à ce qu'il n'en reste plus qu'un. Cela permet au chercheur de décider quel niveau de classification est le plus approprié pour sa recherche.

Effectuer une analyse de cluster

La plupart des logiciels de statistiques peuvent effectuer une analyse de cluster. Dans SPSS, sélectionnez analyser à partir du menu, puis classer et l'analyse par grappes. En SAS, le cluster de proc fonction peut être utilisé.

Mis à jour par Nicki Lisa Cole, Ph.D.


Voir la vidéo: Essais contrôlés randomisés ECR (Décembre 2021).