|
Statistiques exploratoires
Le Professeur John Tukey a eu un impact majeur sur l'analyse statistique exploratoire des données. Dans son livre "Exploratory Data Analysis", il a introduit beaucoup de techniques permettant de découvrir les caractéristiques contenues dans des jeux de données. STATGRAPHICS Centurion contient plusieurs de ces techniques plus d'autres méthodes aidant à extraire des informations d'un jeu de données :
Boîtes à moustaches - visualisation de cinq caractéristiques résumant des échantillons de données, plus en option des indicateurs des éventuels points extrêmes.
Diagramme tiges et feuilles - tabulation de données via un graphique des valeurs numériques des données.
Lissage par la médiane d'un tableau à deux entrées - une technique pour découvrir des tendances communes dans un tableau à deux entrées.
Méthodes robustes d'ajustement d'une droite - méthode alternative d'ajustement d'une droite lorsqu'il y a d'éventuels points extrêmes.
Lisseurs robustes pour séries temporelles - lisseurs robustes basés sur la médiane.
Rootogrammes - similaires aux histogrammes mais basés sur les racines carrées des effectifs des classes.
Diagrammes en bulles - nuages de points X-Y dans lesquels chaque symbole d'un point a une taille représentant la valeur d'une variable quantitative additionnelle.
Graphiques radar - technique de comparaison de plusieurs échantillons de données multivariées.
Matrice de nuages de points - tableau organisé de nuages de points à deux variables.
Cartes thématiques - cartes dans lesquelles chaque zone géographique est colorée en fonction de la valeur d'une variable sélectionnée.
Une boîte à moustaches est un diagramme qui affiche cinq caractéristiques d'un ensemble de données : minimum, 1er quartile, médiane, 3ème quartile et maximum. Elle est tracée sous la forme d'une boîte centrale regroupant la moitié des données, d'une ligne représentant la médiane et de moustaches reliant les points les plus extrêmes (sauf s'ils sont trop éloignés, cas dans lequel ils sont alors affichés comme des points séparés). Si désiré, des encoches peuvent être ajoutées pour indiquer les incertitudes sur les positions des vraies médianes de la population.

Le diagramme en tiges et feuilles de Tukey permet d'illustrer la distribution des données d'un échantillon en utilisant le premier chiffre de chacune des valeurs des données pour créer les tiges et les autres chiffres pour créer les feuilles. Les chiffres à droites de la ligne verticale représente une observation. Tout point extrême est affiché dans des tiges nommées HI ou LO.
|
Stem-and-Leaf Display for Temperature: unit = 0.1 1|2 represents 1.2 LO|96.3 96.4
2 96| HI|100.8 |
Lissage par la médiane d'un tableau à deux entrées
La procédure de lissage par la médiane construit un modèle pour les données d'un tableau à deux entrées en retirant de façon itérative les médianes des colonnes et des lignes. Le modèle résultant pour les données consiste en une valeur commune à toutes les cellules du tableau et en des effets spécifiques aux colonnes et en des effets spécifiques aux lignes.
Polished Table
Sweeping 3 times.
|
Cause |
None |
Grams 1_14 |
Grams 15_24 |
Grams 25 |
Row effect |
|
Lung cancer |
-0.5 |
-0.2025 |
0.2 |
0.86 |
0.1175 |
|
Upper resp. cancer |
0.0 |
0.0275 |
0.0 |
-0.02 |
-0.4525 |
|
Stomach cancer |
0.24 |
0.0875 |
-0.16 |
-0.09 |
-0.2825 |
|
Colon cancer |
0.0025 |
0.0 |
-0.1575 |
0.0725 |
-0.015 |
|
Prostrate caner |
0.405 |
0.0125 |
-0.015 |
-0.035 |
-0.3075 |
|
Other cancer |
-0.015 |
-0.0375 |
0.015 |
0.135 |
0.2025 |
|
TB |
-0.06 |
-0.0025 |
0.03 |
0.0 |
-0.3925 |
|
Bronchitis |
-0.125 |
-0.0575 |
0.055 |
0.245 |
-0.2075 |
|
Other respitory |
0.24 |
-0.0025 |
0.0 |
-0.28 |
-0.0025 |
|
Thrombosis |
-0.305 |
0.0125 |
-0.015 |
1.235 |
4.073 |
|
Cardiovascular |
0.0925 |
-0.09 |
0.2425 |
-0.1175 |
1.685 |
|
Hemorrhage |
0.0875 |
-0.085 |
-0.1525 |
0.1775 |
1.47 |
|
Ulcer |
-0.0175 |
0.02 |
0.0525 |
-0.0275 |
-0.435 |
|
Violence |
-0.125 |
0.1725 |
-0.185 |
0.125 |
0.0925 |
|
Other |
0.035 |
0.2925 |
-0.035 |
-0.075 |
0.9625 |
|
Column effect |
-0.09375 |
0.00875 |
-0.00375 |
0.1362 |
0.5462 |
Méthodes robustes d'ajustement d'une droite
Lorsque vous ajustez une droite à des données, d'éventuels points extrêmes peuvent avoir un fort impact sur l'ajustement. Tukey a mis au point une méthode spéciale robuste par rapport à la présence de ces points extrêmes. Dans sa méthode, les données sont divisées en trois groupes et la droite d'ajustement est déterminée à partir des médianes des groupes.

Lisseurs robustes pour séries temporelles
Les lisseurs robustes de Tukey sont très utiles pour afficher la tendance d'une série temporelle bruitée. Lors de l'analyse d'une série temporelle, les lisseurs sont fréquemment utilisés en prétraitement des données avant l'application d'une moyenne mobile pondérée.

Lorsque vous évaluez la qualité d'ajustement d'une loi de probabilités à des données, les histogrammes usuels ont le désavantage que les barres, qui représentent les effectifs, les plus grandes sont sujettes à une plus forte variabilité d'échantillonnage que les barres les plus petites. En affichant les racines carrées des effectifs plutôt que les effectifs eux-mêmes, il est plus facile de voir où sont les problèmes significatifs. La comparaison visuelle peut encore être rendue plus facile en suspendant les barres à la courbe d'ajustement si bien que les écarts entre les effectifs observés et ajustés peuvent être analysés en comparant les barres à un ligne horizontale plutôt qu'à une courbe.

Un diagramme en bulles peut être utilisé pour afficher quatre variables simultanément : une pour l'axe X, une pour l'axe Y, une pour la taille des bulles et une pour définir les couleurs des bulles.

Lorsque peu d'échantillons doivent être comparés entre eux et que le nombre de variables est important, un graphique en radar (ou araignée) devient très efficace. La grandeur de chaque variable est affichée le long d'un des rayons.

Une technique puissante de représentation de plusieurs variables quantitatives est la matrice de nuages de points. Chaque cellule de la matrice contient le graphique d'une paire de variables. Tous les graphiques d'une ligne donnée ont la même variable en Y et tous les graphiques d'une colonne donnée ont la même variable en X. En mettant en oeuvre une technique de lissage pour chaque cellule, il est encore possible de mieux illustrer les relations entre les variables.

Des graphiques spéciaux peuvent être également utiles pour afficher des données géographiques. La carte ci-dessous illustre les résultats d'un sondage effectué plusieurs mois avant l'élection du président américain.

|
Copyright © 2012 - Christian R. CHARLES - Tous droits réservés |