Méthodes multivariées

STATGRAPHICS Centurion contient un ensemble de procédures pour les analyses multivariées des données, dont :

  1. Analyse des corrélations - estimation des coefficients de corrélation entre paires de variables.

  2. Composantes principales - identification de combinaisons linéaires des variables ayant une large variance.

  3. Analyse factorielle - identification de facteurs uniques d'un ensemble de variables quantitatives.

  4. Corrélations canoniques - construction de combinaisons linéaires de deux ensembles de variables fortement corrélés.

  5. Classification - séparation d'observations ou de variables en groupes ayant les mêmes caractéristiques.

  6. Analyse discriminante - construction de fonctions linéaires discriminantes permettant le classement d'observations.

  7. Réseau de neurones bayésien - classement d'observations à partir de probabilités a priori d'appartenance à des groupes.

Analyse des corrélations

La procédure d'analyse des corrélations calcule les corrélations entre des paires de variables quantitatives. Les corrélations de Pearson, des rangs de Kendall et de Spearman ainsi que les corrélations partielles peuvent être estimées. Le StatAdvisor indique en rouge les corrélations statistiquement significatives.

 

MPG City

MPG Highway

Horsepower

Length

RPM

Width

Weight

MPG City

 

0.9439

-0.6726

-0.6662

0.3630

-0.7205

-0.8431

 

 

(93)

(93)

(93)

(93)

(93)

(93)

 

 

0.0000

0.0000

0.0000

0.0003

0.0000

0.0000

MPG Highway

0.9439

 

-0.6190

-0.5429

0.3135

-0.6404

-0.8107

 

(93)

 

(93)

(93)

(93)

(93)

(93)

 

0.0000

 

0.0000

0.0000

0.0022

0.0000

0.0000

Horsepower

-0.6726

-0.6190

 

0.5509

0.0367

0.6444

0.7388

 

(93)

(93)

 

(93)

(93)

(93)

(93)

 

0.0000

0.0000

 

0.0000

0.7270

0.0000

0.0000

Length

-0.6662

-0.5429

0.5509

 

-0.4412

0.8221

0.8063

 

(93)

(93)

(93)

 

(93)

(93)

(93)

 

0.0000

0.0000

0.0000

 

0.0000

0.0000

0.0000

RPM

0.3630

0.3135

0.0367

-0.4412

 

-0.5397

-0.4279

 

(93)

(93)

(93)

(93)

 

(93)

(93)

 

0.0003

0.0022

0.7270

0.0000

 

0.0000

0.0000

Width

-0.7205

-0.6404

0.6444

0.8221

-0.5397

 

0.8750

 

(93)

(93)

(93)

(93)

(93)

 

(93)

 

0.0000

0.0000

0.0000

0.0000

0.0000

 

0.0000

Weight

-0.8431

-0.8107

0.7388

0.8063

-0.4279

0.8750

 

 

(93)

(93)

(93)

(93)

(93)

(93)

 

 

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

 

Corrélation
(Taille de l'échantillon)
Probabilité

Composantes principales

Lorsque de nombreuses caractéristiques sont mesurées, il n'est pas rare d'avoir des informations redondantes. Dans le but de réduire la dimensionnalité, l'analyse en composantes principales trouve les combinaisons linéaires des variables qui ont la plus forte variabilité. Fréquemment, un petit nombre de telles composantes est  suffisant pour expliquer la plus grande partie de la variabilité des données. Elaborer des modèles à partir des composantes principales est alors plus aisé et plus informatif que d'essayer de le faire à partir des données d'origine.

Analyse factorielle

Lorsque peu de composantes expliquent la plus grande partie de la variabilité observée dans un jeu de données, il peut être possible de donner une interprétation à ces facteurs. STATGRAPHICS permet d'effectuer des rotations dans l'espace des facteurs dans le but de simplifier les équations de ceux ci.

Factor Loading Matrix After Varimax Rotation
 

 

Factor

Factor

 

1

2

Engine Size

0.8598

0.4022

Horsepower

0.9106

0.006172

Fueltank

0.8594

0.2957

Passengers

0.2096

0.883

Length

0.7651

0.5536

Wheelbase

0.7392

0.5914

Width

0.8418

0.3894

U Turn Space

0.7489

0.3971

Rear seat

0.1902

0.8742

Luggage

0.4323

0.7462

Weight

0.917

0.34

     

 

Estimated

Specific

Variable

Communality

Variance

Engine Size

0.901

0.09904

Horsepower

0.8292

0.1708

Fueltank

0.8261

0.1739

Passengers

0.8236

0.1764

Length

0.8919

0.1081

Wheelbase

0.8962

0.1038

Width

0.8603

0.1397

U Turn Space

0.7186

0.2814

Rear seat

0.8005

0.1995

Luggage

0.7437

0.2563

Weight

0.9565

0.0435

Corrélations canoniques

Lorsque les variables sont divisées en deux groupes, il peut être utile d'obtenir des combinaisons linéaires entre les variables de chacun des groupes qui sont fortement corrélées entre elles. Les corrélations canoniques fournissent ces combinaisons permettant de comprendre les relations entre les groupes de variables.

 

 

Canonical

Wilks

 

 

 

Number

Eigenvalue

Correlation

Lambda

Chi-Squared

D.F.

P-Value

1

0.8953

0.9462

0.02753

301.8

28

0.0000

2

0.4958

0.7041

0.2629

112.2

18

0.0000

3

0.4629

0.6804

0.5215

54.7

10

0.0000

4

0.02916

0.1708

0.9708

2.486

4

0.6472

 Coefficients for Canonical Variables of the First Set

Engine Size

0.2617

0.6984

-0.07371

2.05

Horsepower

0.1275

0.4043

1.239

-0.7845

Length

0.02418

1.063

0.2796

-0.05425

Wheelbase

0.04117

0.3449

0.7107

-1.45

Width

-0.0677

0.2929

-1.512

-1.089

Rear seat

0.004258

-0.09294

-0.07899

-0.2616

Weight

0.6578

-2.425

-0.4708

1.191

 Coefficients for Canonical Variables of the Second Set

Mid Price

0.2566

0.1546

1.211

-0.4017

1/MPG Highway

-0.09713

-2.205

0.1757

-1.515

1/MPG City

0.6521

1.425

-0.7964

2.809

U Turn Space

0.3222

0.455

-0.3407

-1.337

Classification

Les méthodes de classification agrègent les données en groupes ayant des caractéristique similaires. La classification peut être réalisée sur des observations ou sur des variables. Les techniques proposées incluent : voisin le plus proche, voisin le plus éloigné, médiane, moyennes des groupes, méthode de  Ward et des centre mobiles (k-means).

Analyse discriminante

La procédure d'analyse discriminante génère des combinaisons linéaires des variables quantitatives qui permettent de classer au mieux des données dans des groupes. Ces fonctions discriminantes peuvent être utilisées pour classer de nouvelles observations.

Réseau de neurones bayésien

Le réseau de neurones bayésien permet de classer des observations dans des groupes en combinant les informations obtenues à partir du fichier d'apprentissage à des probabilités a priori. Il peut être utilisé pour prévoir l'appartenance d'une observation aux divers groupes.

Copyright © 2012 - Christian R. CHARLES - Tous droits réservés