Analyse en composantes principales (ACP)

L'objet de cette partie est de réaliser une étude statistique sur les données que nous avons obtenues sur l'année 2009.

Une première étape de l'analyse des données a été la description unidimensionnelle, étape primordiale mais insuffisante pour toute étude approfondie. Nous avons étudié les corrélations entre tous les couples de variables recensées. Cependant, l'étude séparée de chaque variable ou couple de variables ne permet pas d'appréhender les relations existantes entre elles, ce qui est l'aspect le plus important. Il est donc nécessaire d'analyser les données en tenant compte de leur caractère pluridimensionnel. La méthode de l'Analyse en Composantes Principales (ACP) est une méthode particulièrement adaptée à ce type de résolution.

 

  • L'analyse en composantes principales

L'ACP est une méthode de base d'analyse de tableau de données comportant des individus et des variables quantitatives associées. Un individu est une unité expérimentale, il s'agit de l'objet sur lequel des observations ou des mesures sont effectuées. Dans notre étude, les individus correspondent aux jours de l'année et les variables sont les mesures concernant les polluants, la météorologie et le trafic.

Le tableau de données est alors sous la forme suivante :

Où p variables quantitatives sont observées sur n individus. Rn est l'espace des variables et Rp est l'espace des individus.

L' objectif de l' ACP est de condenser l'information contenu dans le tableau par une analyse des corrélations linéaires entre les variables et une visualisation graphique des distances entre les individus. Elle nous permettra de dégager les liaisons entre variables et les ressemblances entre individus.

Les n individus décrits par p variables peuvent être représentés comme un nuage de n points dans un espace à p dimensions appelé espace des individus. Des groupes d'individus peuvent être identifiés au sein de ce nuage. Ce regroupement suggère des caractéristiques similaires par rapport aux variables considérées entre les individus. Pour un nombre de variables supérieures à 3 (espace de dimension supérieur à 3), le nuage de point ne peut être visualisé.  

Dans ce cas, il faut rechercher une représentation des n individus e1, e2, ... , en dans un sous-espace de Rp de dimension k petit. Ainsi, k nouvelles variables qui sont combinaisons linéaires des p variables initiales sont obtenues. Elles sont recherchées pour perdre le moins d'information possible. Pour cela le sous-espace Fk de dimension k est choisi afin que la somme des carrées des distance des individus ei à Fk soit minimale. Fest le sous-espace tel que le nuage projeté ait une inertie maximale.

Les nouvelles variables obtenues sont appelées composantes principales et les axes qu'elles déterminent sont les axes principaux. Dans ce nouveau système de représentation, le premier axe apporte le plus possible de l’inertie totale du nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le premier axe, et ainsi de suite.

Cette réorganisation s’appuie sur la diagonalisation d'une matrice de variance-covariance obtenue en utilisant les nouvelles variables. Le calcul des valeurs propres et de leur inertie permet d'obtenir l'éboulis des valeurs propres : 

 

Éboulis de valeurs propres

 

Cette représentation permet de déterminer la proportion d'information contenue dans un plan. Il suffit d'additionner le pourcentage d'inertie des deux axes considérés. Ce pourcentage représente la part de l'information initiale conservée après projection dans le plan défini par les deux axes. On peut ainsi sélectionner les axes principaux nécessaires pour obtenir le meilleur système de représentation.

Dans cet exemple hypothétique, les 6 axes représentent les 6 valeurs propres obtenues à partir de la matrice de variance-covariance et la hauteur de chaque axe représente le pourcentage d'inertie de la valeur propre correspondante. Par exemple, si les deux premiers axes représentent 85% d'inertie alors en effectuant la projection des valeurs sur ces deux axes, seulement 15% des informations initiales seront perdues. 

 

  • Résultats de l'ACP

Une fois la meilleure projection déterminée, les résultats sont généralement représentés par deux types de graphiques : Le cercle des corrélations des variables et la carte factorielle des individus. L'information intéressante pour les individus est principalement la distance entre les points. 

Le cercle des corrélations des variables

Le cercle des corrélations est la projection du nuage des variables sur le plan des composantes principales. Plus les variables sont proches du cercle, plus elles sont bien représentées et plus l'angle entre deux variables est faible, plus elles sont corrélées. La mesure du cosinus de l'angle formé entre deux variables est égal au coefficient de corrélation linéaire entre les 2 variables.

Ainsi:

  • Plus les points sont rapprochés, plus le cosinus de l'angle tend vers 1 et donc plus les deux variables sont corrélés positivement
  • Plus les points sont opposés, plus le cosinus de l'angle tend vers -1 et donc plus les deux variables sont corrélés négativement
  • Quand le cosinus de l'angle est proche de 0, il n'y a pas de corrélation linéaire entre les deux variables

 

 La carte factorielle des individus

Cette carte permet de représenter les individus dans le plan factoriel. Plus une coordonnée est proche de 0, moins l'axe correspondant est significatif c'est à dire que l'individu participe de moins en moins à la structure mise en évidence par l'axe. 

Il est possible de réaliser une étude en trois dimensions par le choix de trois composantes principales. Toutefois, les résultats en sont d'autant plus délicats à interpréter. 

Powered by Drupal - Modified by Danger4k Webmaster :