|
Méthodes multivariées
STATGRAPHICS Centurion contient un ensemble de procédures pour les analyses multivariées des données, dont :
Analyse des corrélations - estimation des coefficients de corrélation entre paires de variables.
Composantes principales - identification de combinaisons linéaires des variables ayant une large variance.
Analyse factorielle - identification de facteurs uniques d'un ensemble de variables quantitatives.
Corrélations canoniques - construction de combinaisons linéaires de deux ensembles de variables fortement corrélés.
Classification - séparation d'observations ou de variables en groupes ayant les mêmes caractéristiques.
Analyse discriminante - construction de fonctions linéaires discriminantes permettant le classement d'observations.
Réseau de neurones bayésien - classement d'observations à partir de probabilités a priori d'appartenance à des groupes.
La procédure d'analyse des corrélations calcule les corrélations entre des paires de variables quantitatives. Les corrélations de Pearson, des rangs de Kendall et de Spearman ainsi que les corrélations partielles peuvent être estimées. Le StatAdvisor indique en rouge les corrélations statistiquement significatives.
|
|
MPG City |
MPG Highway |
Horsepower |
Length |
RPM |
Width |
Weight |
|
MPG City |
|
0.9439 |
-0.6726 |
-0.6662 |
0.3630 |
-0.7205 |
-0.8431 |
|
|
|
(93) |
(93) |
(93) |
(93) |
(93) |
(93) |
|
|
|
0.0000 |
0.0000 |
0.0000 |
0.0003 |
0.0000 |
0.0000 |
|
MPG Highway |
0.9439 |
|
-0.6190 |
-0.5429 |
0.3135 |
-0.6404 |
-0.8107 |
|
|
(93) |
|
(93) |
(93) |
(93) |
(93) |
(93) |
|
|
0.0000 |
|
0.0000 |
0.0000 |
0.0022 |
0.0000 |
0.0000 |
|
Horsepower |
-0.6726 |
-0.6190 |
|
0.5509 |
0.0367 |
0.6444 |
0.7388 |
|
|
(93) |
(93) |
|
(93) |
(93) |
(93) |
(93) |
|
|
0.0000 |
0.0000 |
|
0.0000 |
0.7270 |
0.0000 |
0.0000 |
|
Length |
-0.6662 |
-0.5429 |
0.5509 |
|
-0.4412 |
0.8221 |
0.8063 |
|
|
(93) |
(93) |
(93) |
|
(93) |
(93) |
(93) |
|
|
0.0000 |
0.0000 |
0.0000 |
|
0.0000 |
0.0000 |
0.0000 |
|
RPM |
0.3630 |
0.3135 |
0.0367 |
-0.4412 |
|
-0.5397 |
-0.4279 |
|
|
(93) |
(93) |
(93) |
(93) |
|
(93) |
(93) |
|
|
0.0003 |
0.0022 |
0.7270 |
0.0000 |
|
0.0000 |
0.0000 |
|
Width |
-0.7205 |
-0.6404 |
0.6444 |
0.8221 |
-0.5397 |
|
0.8750 |
|
|
(93) |
(93) |
(93) |
(93) |
(93) |
|
(93) |
|
|
0.0000 |
0.0000 |
0.0000 |
0.0000 |
0.0000 |
|
0.0000 |
|
Weight |
-0.8431 |
-0.8107 |
0.7388 |
0.8063 |
-0.4279 |
0.8750 |
|
|
|
(93) |
(93) |
(93) |
(93) |
(93) |
(93) |
|
|
|
0.0000 |
0.0000 |
0.0000 |
0.0000 |
0.0000 |
0.0000 |
|
Corrélation
(Taille de l'échantillon)
Probabilité
Lorsque de nombreuses caractéristiques sont mesurées, il n'est pas rare d'avoir des informations redondantes. Dans le but de réduire la dimensionnalité, l'analyse en composantes principales trouve les combinaisons linéaires des variables qui ont la plus forte variabilité. Fréquemment, un petit nombre de telles composantes est suffisant pour expliquer la plus grande partie de la variabilité des données. Elaborer des modèles à partir des composantes principales est alors plus aisé et plus informatif que d'essayer de le faire à partir des données d'origine.

Lorsque peu de composantes expliquent la plus grande partie de la variabilité observée dans un jeu de données, il peut être possible de donner une interprétation à ces facteurs. STATGRAPHICS permet d'effectuer des rotations dans l'espace des facteurs dans le but de simplifier les équations de ceux ci.
Factor Loading Matrix After Varimax Rotation|
|
Factor |
Factor |
|
|
1 |
2 |
|
Engine Size |
0.8598 |
0.4022 |
|
Horsepower |
0.9106 |
0.006172 |
|
Fueltank |
0.8594 |
0.2957 |
|
Passengers |
0.2096 |
0.883 |
|
Length |
0.7651 |
0.5536 |
|
Wheelbase |
0.7392 |
0.5914 |
|
Width |
0.8418 |
0.3894 |
|
U Turn Space |
0.7489 |
0.3971 |
|
Rear seat |
0.1902 |
0.8742 |
|
Luggage |
0.4323 |
0.7462 |
|
Weight |
0.917 |
0.34 |
|
|
Estimated |
Specific |
|
Variable |
Communality |
Variance |
|
Engine Size |
0.901 |
0.09904 |
|
Horsepower |
0.8292 |
0.1708 |
|
Fueltank |
0.8261 |
0.1739 |
|
Passengers |
0.8236 |
0.1764 |
|
Length |
0.8919 |
0.1081 |
|
Wheelbase |
0.8962 |
0.1038 |
|
Width |
0.8603 |
0.1397 |
|
U Turn Space |
0.7186 |
0.2814 |
|
Rear seat |
0.8005 |
0.1995 |
|
Luggage |
0.7437 |
0.2563 |
|
Weight |
0.9565 |
0.0435 |
Lorsque les variables sont divisées en deux groupes, il peut être utile d'obtenir des combinaisons linéaires entre les variables de chacun des groupes qui sont fortement corrélées entre elles. Les corrélations canoniques fournissent ces combinaisons permettant de comprendre les relations entre les groupes de variables.
|
|
|
Canonical |
Wilks |
|
|
|
|
Number |
Eigenvalue |
Correlation |
Lambda |
Chi-Squared |
D.F. |
P-Value |
|
1 |
0.8953 |
0.9462 |
0.02753 |
301.8 |
28 |
0.0000 |
|
2 |
0.4958 |
0.7041 |
0.2629 |
112.2 |
18 |
0.0000 |
|
3 |
0.4629 |
0.6804 |
0.5215 |
54.7 |
10 |
0.0000 |
|
4 |
0.02916 |
0.1708 |
0.9708 |
2.486 |
4 |
0.6472 |
Coefficients for Canonical Variables of the First Set
|
Engine Size |
0.2617 |
0.6984 |
-0.07371 |
2.05 |
|
Horsepower |
0.1275 |
0.4043 |
1.239 |
-0.7845 |
|
Length |
0.02418 |
1.063 |
0.2796 |
-0.05425 |
|
Wheelbase |
0.04117 |
0.3449 |
0.7107 |
-1.45 |
|
Width |
-0.0677 |
0.2929 |
-1.512 |
-1.089 |
|
Rear seat |
0.004258 |
-0.09294 |
-0.07899 |
-0.2616 |
|
Weight |
0.6578 |
-2.425 |
-0.4708 |
1.191 |
Coefficients for Canonical Variables of the Second Set
|
Mid Price |
0.2566 |
0.1546 |
1.211 |
-0.4017 |
|
1/MPG Highway |
-0.09713 |
-2.205 |
0.1757 |
-1.515 |
|
1/MPG City |
0.6521 |
1.425 |
-0.7964 |
2.809 |
|
U Turn Space |
0.3222 |
0.455 |
-0.3407 |
-1.337 |
Les méthodes de classification agrègent les données en groupes ayant des caractéristique similaires. La classification peut être réalisée sur des observations ou sur des variables. Les techniques proposées incluent : voisin le plus proche, voisin le plus éloigné, médiane, moyennes des groupes, méthode de Ward et des centre mobiles (k-means).

La procédure d'analyse discriminante génère des combinaisons linéaires des variables quantitatives qui permettent de classer au mieux des données dans des groupes. Ces fonctions discriminantes peuvent être utilisées pour classer de nouvelles observations.

Le réseau de neurones bayésien permet de classer des observations dans des groupes en combinant les informations obtenues à partir du fichier d'apprentissage à des probabilités a priori. Il peut être utilisé pour prévoir l'appartenance d'une observation aux divers groupes.

|
Copyright © 2012 - Christian R. CHARLES - Tous droits réservés |