Régression

Les méthodes de régression sont utilisées pour modéliser la relation entre une variable de réponse et une ou plusieurs variables prédictrices. STATGRAPHICS Centurion met à disposition un grand nombre de procédures pour ajuster différents types de modèles de régression :

  1. Régression simple - ajuste des modèles linéaires et non linéaires pour une variable prédictrice. Utilise soit la méthode des moindres carrés soit une méthode robuste..

  2. Transformations Box-Cox - ajustent un modèle linéaire pour une variable prédictrice dans lequel la variable Y est transformée de façon à suivre au mieux une loi normale.

  3. Régression polynomiale - ajuste une modèle polynomial pour une variable prédictrice.

  4. Modèles d'étalonnage - ajustent un modèle linéaire pour une variable prédictrice et calculent les valeurs de X pour des valeurs données de Y.

  5. Régression multiple - ajuste des modèles linéaires pour deux variables prédictrices ou plus. Permet la régression pas à pas ascendante et descendante et les transformations de Box-Cox et de Cochrane-Orcutt.

  6. Comparaison de droites de régression - ajuste des droites de régression pour une variable prédictrice pour chaque niveau d'un second prédicteur. Des tests de significativité des différences entre les pentes et les valeurs à l'origine sont proposés.

  7. Choix du meilleur modèle - ajuste tous les modèles de régression pour plusieurs variables prédictrices et les classe en fonction du R2 ajusté ou du Cp de Mallow.

  8. Régression Ridge - ajuste un ensemble de modèles de régression en utilisant une technique conçue pour gérer les corrélations entre les variables prédictrices.

  9. Régression non linéaire - ajuste un modèle défini par l'utilisateur comportant une ou plusieurs variables prédictrices.

  10. Méthode des moindres carrés partiels - ajuste un modèle de régression multiple en utilisant une technique permettant d'avoir plus de variables prédictrices que d'observations.

  11. Modèle linéaire général - ajuste des modèles linéaires incluant des variables prédictrices quantitatives et qualitatives.

  12. Régression sur données de survie - ajuste des modèles de régression pour des variables de réponse qui représentent des temps de défaillances. Permet l'utilisation de données censurées et les lois non-normales pour les erreurs.

  13. Régression pour des proportions - ajuste des modèles logistique et probit pour une variable de réponse binaire ou contenant des proportions.

  14. Régression pour des comptages - ajuste le modèle de Poisson et le modèle binomial négatif.

Régression simple

Les modèles de régression les plus simples mettent en oeuvre une unique variable de réponse et une unique variable prédictrice. STATGRAPHICS ajuste un grand nombre de modèles et les liste par valeurs décroissantes du R2. Si des points extrêmes sont suspectés, des méthodes robustes peuvent être utilisées pour ajuster les modèles plutôt que la méthode habituelle des moindres carrés.

Comparaison des modèles alternatifs

Model

R-Squared

Squared-Y reciprocal-X

87.75%

Reciprocal-X

87.11%

Square root-Y reciprocal-X

86.71%

S-curve model

86.27%

Double reciprocal

85.25%

Reciprocal-Y logarithmic-X

84.99%

Multiplicative

84.98%

Logarithmic-X

84.77%

Squared-Y logarithmic-X

84.36%

Reciprocal-Y square root-X

81.69%

Logarithmic-Y square root-X

81.21%

Square root-X

80.54%

Squared-Y square root-X

79.68%

Reciprocal-Y

76.73%

Exponential

75.87%

Square root-Y

75.37%

Logistic

75.08%

Log probit

75.03%

Linear

74.83%

Squared-Y

73.63%

Reciprocal-Y squared-X

64.37%

Logarithmic-Y squared-X

63.05%

Square root-Y squared-X

62.34%

Squared-X

61.60%

Double squared

60.04%

Transformations Box-Cox

Lorsque la variable de réponse ne suit pas une loi normale, il est parfois possible d'utiliser les méthode de Box et Cox pour trouver une transformation qui améliore le modèle. Ces transformations sont basées sur des puissances de Y. STATGRAPHICS détermine automatiquement la puissance optimale et ajuste le modèle approprié.

Régression polynomiale

Une autre approche pour ajuster une équation non linéaire consiste à utiliser des fonctions polynomiales de X. Pour des besoins d'interpolations, les polynômes ont la propriété intéressante de permettre d'approximer une grande variété de fonctions.

Modèles d'étalonnage

Dans un cas typique d'étalonnage, un nombre connu d'échantillons sont mesurés et une équation est ajustée reliant les mesures à des valeurs de référence. L'équation ajustée est alors utilisée pour prévoir la valeur d'un échantillon non connu en générant une prévision inverse (prévoir X à partir de Y) après avoir mesuré l'échantillon.

Régression multiple

La procédure de régression multiple ajuste un modèle reliant une variable de réponse Y à de multiples variables prédictrices X1, X2, ....  L'utilisateur peut inclure toutes ces variables prédictrices dans l'ajustement ou demander au logiciel d'utiliser une technique de régression pas à pas pour sélectionner uniquement le sous-ensemble des variables prédictrices significatives. En même temps, la méthode de Box-Cox peut être utilisée dans le cas de non normalité et la procédure de Cochrane-Orcutt dans le cas où les résidus sont autocorrélés.

Comparaison de droites de régression

Dans certains cas, il est nécessaire de comparer plusieurs droites de régression. STATGRAPHICS permet d'ajuster des droites de régression linéaire parallèle ou non parallèles pour chaque niveau d'une variable 'PAR' et effectue des tests statistiques pour déterminer si les valeurs à l'origine ou les pentes des droites diffèrent de façon significative.

Choix du meilleur modèle

Si le nombre de variables prédictrices n'est pas trop important, il est possible d'ajuster  les modèles de régression utilisant toutes les combinaisons de 1, 2, 3, ... variables prédictrices et de trier les modèles obtenus en fonction d'un test statistique de qualité d'ajustement. Dans STATGRAPHICS la procédure de choix du meilleur modèle implémente un tel schéma et sélectionne les modèles en fonction des meilleures valeurs du R2 ou de Cp de Mallow.

Régression Ridge

Lorsque les variables prédictrices sont fortement corrélées entre elles, les coefficients obtenus par la méthode des moindres carrés sont très imprécis. En permettant un léger biais dans les estimations, des valeurs plus raisonnables de ces coefficients peuvent fréquemment être obtenues. La régression Ridge est une des méthodes permettant de répondre à ce problème. Souvent de faibles biais conduisent à des diminutions très importantes de la variance des coefficients estimés du modèle.

Régression non linéaire

La plupart des algorithmes de régression par la méthode des moindres carrés sont élaborés pour ajuster des modèles linéaires par rapport aux coefficients. Lorsque l'analyste souhaite ajuster un modèle qui est intrinsèquement non linéaire, une méthode numérique est utilisée. La procédure de régression non  linéaire de STATGRAPHICS utilise l'algorithme de Marquardt pour ajuster la fonction définie par l'analyste.

Méthode des moindres carrés partiels

La méthode des moindres carrés partiels (PLS) est conçue pour ajuster un modèle statistique reliant des variables explicatives X à des variables à expliquer Y. Cette procédure est principalement utile lorsqu'il y a de nombreuses variables prédictives et que le but premier est  de prévoir les variables de réponse. A la différence des autres procédures de régression, des estimations peuvent être calculées même si le nombre de prédicteurs est plus grand que le nombre d'observations. La régression PLS est largement utilisé par les ingénieurs en chimie et les chimiométriciens en étalonnage spectrométrique.

Modèle linéaire général

La procédure GLM est utile lorsque les variables prédictrices sont à la fois quantitatives et qualitatives. Lors de l'ajustement du modèle, cette procédure affiche des graphiques de surfaces et d'iso-contours.

Régression sur données de survie

Pour décrire l'impact de variables externes sur des temps de défaillances, des modèles de régression peuvent être ajustés. Malheureusement la méthode habituelle des moindres carrés ne fonctionne pas bien dans ce cas pour deux raisons : les données sont fréquemment censurées et la distribution des temps de défaillances est rarement gaussienne. Pour ces raisons, STATGRAPHICS fournit des procédures spéciales qui ajustent des modèles de régression sur données de survie avec censures et des lois exponentielle, à valeurs extrêmes, logistique, log-logistique, log-normale, normale et de Weibull.

Régression pour des proportions

Lorsque la variable de réponse est constituée de proportions ou est binaire (0 ou 1), les méthodes classiques de régression doivent être modifiées. STATGRAPHICS met à disposition deux importantes procédures pour ces cas: la régression logistique et l'analyse Probit. Ces deux méthodes élaborent une équation de prévision dont les valeurs appartiennent à [0;1]. 

Régression pour des comptages

Lorsque la variable de réponse est constituée de comptages, STATGRAPHICS fournit deux procédures: la régression de Poisson et la régression binomiale négative. Chacune ajuste un modèle log-linéaire pouvant utiliser des variables prédictrices quantitatives et qualitatives.

Copyright © 2012 - Christian R. CHARLES - Tous droits réservés