Statistiques exploratoires

Le Professeur John Tukey a eu un impact majeur sur l'analyse statistique exploratoire des données. Dans son livre "Exploratory Data Analysis", il a introduit beaucoup de techniques permettant de découvrir les caractéristiques contenues dans des jeux de données. STATGRAPHICS Centurion contient plusieurs de ces techniques plus d'autres méthodes aidant à extraire des informations d'un jeu de données :

  1. Boîtes à moustaches - visualisation de cinq caractéristiques résumant des échantillons de données, plus en option des indicateurs des éventuels points extrêmes.

  2. Diagramme tiges et feuilles - tabulation de données via un graphique des valeurs numériques des données.

  3. Lissage par la médiane d'un tableau à deux entrées - une technique pour découvrir des tendances communes dans un tableau à deux entrées.

  4. Méthodes robustes d'ajustement d'une droite - méthode alternative d'ajustement d'une droite lorsqu'il y a d'éventuels points extrêmes.

  5. Lisseurs robustes pour séries temporelles - lisseurs robustes basés sur la médiane.

  6. Rootogrammes - similaires aux histogrammes mais basés sur les racines carrées des effectifs des classes.

  7. Diagrammes en bulles - nuages de points X-Y dans lesquels chaque symbole d'un point a une taille représentant la valeur d'une variable quantitative additionnelle.

  8. Graphiques radar - technique de comparaison de plusieurs échantillons de données multivariées.

  9. Matrice de nuages de points - tableau organisé de nuages de points à deux variables.

  10. Cartes thématiques - cartes dans lesquelles chaque zone géographique est colorée en fonction de la valeur d'une variable sélectionnée.

Boîtes à moustaches

Une boîte à moustaches est un diagramme qui affiche cinq caractéristiques d'un ensemble de données : minimum, 1er quartile, médiane, 3ème quartile et maximum. Elle est tracée sous la forme d'une boîte centrale regroupant la moitié des données, d'une ligne représentant la médiane et de moustaches reliant les points les plus extrêmes (sauf s'ils sont trop éloignés, cas dans lequel ils sont alors affichés comme des points séparés). Si désiré, des encoches peuvent être ajoutées pour indiquer les incertitudes sur les positions des vraies médianes de la population.

Diagramme tiges et feuilles

Le diagramme en tiges et feuilles de Tukey permet d'illustrer la distribution des données d'un échantillon en utilisant le premier chiffre de chacune des valeurs des données pour créer les tiges et les autres chiffres pour créer les feuilles. Les chiffres à droites de la ligne verticale représente une observation. Tout point extrême est affiché dans des tiges nommées HI ou LO.

Stem-and-Leaf Display for Temperature: unit = 0.1   1|2 represents 1.2

           LO|96.3 96.4

      2    96|
      6    96|7789
     19    97|0111222344444
     40    97|556666777888888899999
    (38)   98|00000000000111222222222233333444444444
     52    98|555666666666677777777888888888899
     19    99|000001112223344
      4    99|59
      2   100|0

            HI|100.8

Lissage par la médiane d'un tableau à deux entrées

La procédure de lissage par la médiane construit un modèle pour les données d'un tableau à deux entrées en retirant de façon itérative les médianes des colonnes et des lignes. Le modèle résultant pour les données consiste en une valeur commune à toutes les cellules du tableau et en des effets spécifiques aux colonnes et en des effets spécifiques aux lignes.

Polished Table
Sweeping 3 times.

Cause

None

Grams 1_14

Grams 15_24

Grams 25

Row effect

Lung cancer

-0.5

-0.2025

0.2

0.86

0.1175

Upper resp. cancer

0.0

0.0275

0.0

-0.02

-0.4525

Stomach cancer

0.24

0.0875

-0.16

-0.09

-0.2825

Colon cancer

0.0025

0.0

-0.1575

0.0725

-0.015

Prostrate caner

0.405

0.0125

-0.015

-0.035

-0.3075

Other cancer

-0.015

-0.0375

0.015

0.135

0.2025

TB

-0.06

-0.0025

0.03

0.0

-0.3925

Bronchitis

-0.125

-0.0575

0.055

0.245

-0.2075

Other respitory

0.24

-0.0025

0.0

-0.28

-0.0025

Thrombosis

-0.305

0.0125

-0.015

1.235

4.073

Cardiovascular

0.0925

-0.09

0.2425

-0.1175

1.685

Hemorrhage

0.0875

-0.085

-0.1525

0.1775

1.47

Ulcer

-0.0175

0.02

0.0525

-0.0275

-0.435

Violence

-0.125

0.1725

-0.185

0.125

0.0925

Other

0.035

0.2925

-0.035

-0.075

0.9625

Column effect

-0.09375

0.00875

-0.00375

0.1362

0.5462

Méthodes robustes d'ajustement d'une droite

Lorsque vous ajustez une droite à des données, d'éventuels points extrêmes peuvent avoir un fort impact sur l'ajustement. Tukey a mis au point une méthode spéciale robuste par rapport à la présence de ces points extrêmes. Dans sa méthode, les données sont divisées en trois groupes et la droite d'ajustement est déterminée à partir des médianes des groupes.

Lisseurs robustes pour séries temporelles

Les lisseurs robustes de Tukey sont très utiles pour afficher la tendance d'une série temporelle bruitée. Lors de l'analyse d'une série temporelle, les lisseurs sont fréquemment utilisés en prétraitement des données avant l'application d'une moyenne mobile pondérée.

Rootogrammes

Lorsque vous évaluez la qualité d'ajustement d'une loi de probabilités à des données, les histogrammes usuels ont le désavantage que les barres, qui représentent les effectifs, les plus grandes sont sujettes à une plus forte variabilité d'échantillonnage que les barres les plus petites. En affichant les racines carrées des effectifs plutôt que les effectifs eux-mêmes, il est plus facile de voir où sont les problèmes significatifs. La comparaison visuelle peut encore être rendue plus facile en suspendant les barres à la courbe d'ajustement si bien que les écarts entre les effectifs observés et ajustés peuvent être analysés en comparant les barres à un ligne horizontale plutôt qu'à une courbe.

Diagrammes en bulles

Un diagramme en bulles peut être utilisé pour afficher quatre variables simultanément : une pour l'axe X, une pour l'axe Y, une pour la taille des bulles et une pour définir les couleurs des bulles.

Graphiques radar

Lorsque peu d'échantillons doivent être comparés entre eux et que le nombre de variables est important, un graphique en radar (ou araignée) devient très efficace. La grandeur de chaque variable est affichée le long d'un des rayons.

Matrice de nuages de points

Une technique puissante de représentation de plusieurs variables quantitatives est la matrice de nuages de points. Chaque cellule de la matrice contient le graphique d'une paire de variables. Tous les graphiques d'une ligne donnée ont la même variable en Y et tous les graphiques d'une colonne donnée ont la même variable en X. En mettant en oeuvre une technique de lissage pour chaque cellule,  il est encore possible de mieux illustrer les relations entre les variables.

Cartes thématiques

Des graphiques spéciaux peuvent être également utiles pour afficher des données géographiques. La carte ci-dessous illustre les résultats d'un sondage effectué plusieurs mois avant l'élection du président américain.

Copyright © 2012 - Christian R. CHARLES - Tous droits réservés