Analyse exploratoire

Les méthodes d’analyse exploratoire prennent une extension nouvelle dans la recherche et la statistique avec l’émergence des données massives (big data). Ces outils d’analyse et de visualisation des données ou dataviz sont des fondements essentiels pour y repérer des structures et développer des modélisations statistiques solides.

Principe

Quel que soit le type de données (quantitative, qualitative, textuelle, relationnelle, localisée) l’étape d’exploration est une étape préliminaire dans la démarche d’une analyse statistique pour répondre à une problématique posée. John Wilder Tukey articula la distinction entre l’analyse de données exploratoires (Exploratory data analysis) et l’analyse liée aux tests d’hypothèses (confirmatory data analysis)

 

L’analyse des données (ou analyse exploratoire des données) est une famille de méthodes statistiques dont les principales caractéristiques sont d’être multidimensionnelles, descriptives et de fournir des représentations graphiques (plans factoriels, dendrogrammes, …) qui mettent en évidence des relations entre les données sans « a priori » contrairement aux méthodes de la statistique classique.  Les techniques d’analyse exploratoire multivariée permettent de synthétiser l’information provenant de tableaux de données de grande dimension, à l’aide de l’estimation des corrélations entre les variables étudiées. L’objet utilisé est la matrice des corrélations ou la matrice de variance-covariance.  D’autres techniques (classifications) permettent de regrouper les données de façon à faire apparaître ce qui les rend homogènes.

Ces méthodes de fouille permettent de s’approprier les données et d’en évaluer le potentiel, de juger de leur qualité/fiabilité et d’en déceler des structures mais aussi de faire « naître » des idées et emprunter de nouvelles pistes de questionnements.

Les méthodes sous-jacentes utilisent la géométrie pour réduire le nuage de points (tableau de données) dans un sous espace (de facteurs) avec un système de projection qui respecte au mieux les distances entre les points avec une perte minimum d’information.

Selon le type des données on utilise des méthodes différentes :

• variables quantitatives (continues) : Analyse en Composantes Principales (ACP)

• Croisement de 2 variables qualitatives (nominales) ou tableau lexical : Analyse Factorielle des Correspondances (AFC)

• ensemble de variables qualitatives : Analyse des Correspondances Multiples (ACM)

En pratique, les Analyses Factorielles sont souvent couplées à des Classification Hiérarchiques sur Composantes principales qui combinent les facteurs principaux. Le partitionnement issu de ces classifications permet de mieux visualiser les similarités entre individus.

Quand des individus sont décrits par plusieurs groupes de variables, d’autres méthodes sont possibles :

• les variables d’un même groupe sont quantitatives ou qualitatives : Analyse factorielle des tableaux multiples (AFM) et Analyse Factorielle Multiple Hiérarchique (AFMH) si les variables sont structurées selon une hiérarchie.

• les variables sont quantitatives : Analyse Procustéenne Généralisée (GPA)

En savoir plus sur

·       http://factominer.free.fr/factomethods/index_fr.html

·       http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/

On parle d’Analyse Des Données à la française quand on utilise des éléments supplémentaires (variables, modalités rares …) et qu’on s’intéresse aux individus et pas seulement aux variables (démarche anglo-saxonne).  Les éléments actifs interviennent dans la détermination des axes (notion de variables ou facteurs structurants) alors que les éléments supplémentaires (passifs /Illustratifs) n’interviennent mais sont représentés sur les plans factoriels.

Applications logicielles

De nombreux logiciels permettant d’utiliser les méthodes d’analyse des données. Spad, SPSS, Stata et SAS fournissent des modules complets d’analyse des données ; le logiciel R aussi avec des packages comme FactoMineR, Ade4 ou MASS 

Exemples de graphique

In Renaud Laporte, « Pratiques Sportives et Sociabilité », Mathematics and Social Sciences, vol. 43, no 170,‎ 2005, p. 79-94 (lire en ligne [archive] [PDF], consulté le 7 janvier 2012)

En savoir plus