Régression linéaire — Définition, moindres carrés et applications
Régression linéaire : définition claire, méthode des moindres carrés et applications pratiques pour prédiction, sélection de variables et interprétation statistique.
La régression linéaire est une méthode statistique qui permet de décrire et d'expliquer la relation entre une variable dépendante y et une ou plusieurs variables explicatives X en utilisant une fonction affine (une droite dans le cas une variable explicative) ou, plus généralement, une combinaison linéaire des paramètres. C'est un cas particulier et l'un des plus étudiés de l'analyse de régression.
Principes et formulation
Dans sa forme la plus simple (régression linéaire simple), le modèle s'écrit :
y = β0 + β1·x + ε,
où β0 est l'ordonnée à l'origine, β1 la pente, et ε le terme d'erreur aléatoire. En régression linéaire multiple, on généralise par :
y = β0 + β1·X1 + ... + βp·Xp + ε.
Le mot « linéaire » ici signifie que le modèle est linéaire par rapport aux paramètres β (les coefficients) ; il n'implique pas nécessairement que les relations entre les variables observées soient des droites (on peut inclure des transformations des variables, polynômes, interactions, etc.).
Moindres carrés ordinaires (OLS)
La méthode la plus courante pour estimer les coefficients β est celle des moindres carrés ordinaires (OLS). Elle choisit les paramètres qui minimisent la somme des carrés des résidus (les distances verticales entre les valeurs observées et les valeurs prédites) :
min Σ (y_i − ŷ_i)² = min Σ (y_i − β0 − Σ β_j X_{ij})².
En notation matricielle : β̂ = (X'X)^{-1} X' y, lorsque la matrice X'X est inversible.
Les moindres carrés sont simples à calculer et possèdent de bonnes propriétés statistiques sous des hypothèses raisonnables (voir ci‑dessous).
Hypothèses usuelles
- Linéarité : l'espérance conditionnelle de y est une combinaison linéaire des variables explicatives.
- Indépendance : les erreurs ε_i sont indépendantes (ou au moins non corrélées) pour des observations distinctes.
- Homoscedasticité : les erreurs ont une variance constante (Var(ε_i) = σ²).
- Absence de multicolinéarité parfaite : les colonnes de la matrice des variables explicatives ne sont pas linéairement dépendantes, afin que X'X soit inversible.
- Normalité des erreurs (hypothèse facultative mais utile pour les tests) : ε_i suivent une loi normale centrée, ce qui permet d'obtenir des intervalles de confiance et des tests exacts pour les coefficients.
Propriétés et tests
- Sous les hypothèses d'OLS, les estimateurs β̂ sont sans biais et, selon le théorème de Gauss‑Markov, ce sont les estimateurs linéaires non biaisés de variance minimale (BLUE).
- On utilise des tests statistiques (test t pour chaque coefficient, test F global) pour évaluer la significativité des coefficients et du modèle.
- Mesures d'ajustement : le coefficient de détermination R² mesure la fraction de la variance expliquée par le modèle. R² ajusté corrige R² pour le nombre de variables.
- On peut construire des intervalles de confiance pour les coefficients et des intervalles/predictions pour de nouvelles observations (intervalle de prédiction plus large que l'intervalle de confiance sur la moyenne prédite).
Diagnostic et validation du modèle
Après ajustement, il est essentiel d'examiner les résidus pour vérifier les hypothèses :
- Tracer les résidus versus les valeurs ajustées pour détecter non-linéarités ou heteroscedasticité.
- Histogramme ou QQ‑plot des résidus pour vérifier la normalité.
- Mesures d'influence (levier, distance de Cook) pour repérer les observations influentes ou atypiques.
- Vérifier la multicolinéarité (facteur d'inflation de la variance, VIF) qui rend l'estimation des coefficients instable.
Variantes et extensions
- Régression pondérée (WLS) : utile en présence d'hétéroscedasticité connue ou estimée.
- Régression pénalisée : ridge (crête) et lasso ajoutent une pénalité sur les coefficients pour réduire la variance et effectuer de la sélection de variables.
- Régression robuste : méthodes qui diminuent l'influence des outliers, par exemple les moindres absolus ou les M‑estimateurs.
- Modèles linéaires généralisés (GLM) : étendent la régression linéaire à des réponses non normales (logistique pour variable binaire, Poisson pour comptages, etc.).
- Régression non linéaire : on peut aussi appliquer une approche de moindres carrés à des modèles non linéaires en paramètres.
Applications pratiques
La régression linéaire est largement utilisée car elle est simple à interpréter et souvent performante en pratique. Exemples :
- Économie : estimer l'effet d'une variable (revenu, prix) sur la demande ou la consommation.
- Sciences sociales : mesurer l'impact de caractéristiques sociodémographiques sur un résultat (salaire, score éducatif).
- Sciences de la vie et médecine : associer des facteurs de risque à un résultat biomédical (pression artérielle, taux de cholestérol).
- Ingénierie et sciences physiques : calibrer des relations entre mesures et conditions d'expérimentation.
- Machine learning : régression linéaire comme modèle de base pour la prédiction, souvent enrichi par régularisation et sélection de variables.
Limites et précautions
- Un bon ajustement (R² élevé) n'implique pas causalité : corrélation ≠ causalité.
- Les hypothèses (linéarité, homoscedasticité, indépendance, absence d'outliers) doivent être vérifiées ; sinon, les résultats peuvent être trompeurs.
- La présence de variables pertinentes omises ou d'endogénéité (corrélation entre variables explicatives et ε) conduit à des estimateurs biaisés.
En résumé, la régression linéaire et la méthode des moindres carrés constituent un outil fondamental, facile à mettre en œuvre et à interpréter, mais dont l'utilisation correcte nécessite de vérifier les hypothèses, d'examiner les résidus et, si nécessaire, d'envisager des variantes (pondération, pénalisation, modèles robustes ou généralisés) pour répondre aux particularités des données.
Questions et réponses
Q : Qu'est-ce que la régression linéaire ?
R : La régression linéaire est une façon d'examiner comment quelque chose change lorsque d'autres choses changent en utilisant les mathématiques. Elle utilise une variable dépendante et une ou plusieurs variables explicatives pour créer une ligne droite, appelée "ligne de régression".
Q : Quels sont les avantages de la régression linéaire ?
R : Les modèles qui dépendent linéairement de leurs paramètres inconnus sont plus faciles à ajuster que les modèles qui ont une relation non linéaire avec leurs paramètres. En outre, les propriétés statistiques des estimateurs résultants sont plus faciles à déterminer.
Q : Quelles sont les utilisations pratiques de la régression linéaire ?
R : La régression linéaire peut être utilisée pour ajuster un modèle prédictif aux valeurs observées (données) afin de faire des prédictions, des prévisions ou des réductions. Elle peut également être utilisée pour quantifier la force des relations entre les variables et identifier les sous-ensembles de données qui contiennent des informations redondantes sur une autre variable.
Q : Comment les modèles de régression linéaire essaient-ils de minimiser les erreurs ?
R : Les modèles de régression linéaire essaient de rendre la distance verticale entre la ligne et les points de données (les résidus) aussi petite que possible. Pour ce faire, on minimise soit la somme des carrés des résidus (moindres carrés), soit le manque d'ajustement dans une autre norme (moindres écarts absolus), soit la minimisation d'une version pénalisée de la fonction de perte des moindres carrés (régression ridge).
Q : Est-il possible que les modèles de régression linéaire ne soient pas basés sur les moindres carrés ?
R : Oui, il est possible que les modèles de régression linéaire ne soient pas basés sur les moindres carrés mais qu'ils utilisent des méthodes telles que la minimisation du manque d'ajustement dans une autre norme (moindres écarts absolus) ou la minimisation d'une version pénalisée de la fonction de perte des moindres carrés (régression ridge).
Q : Les termes "modèle linéaire" et "moindres carrés" sont-ils synonymes ?
R : Non, ce ne sont pas des synonymes. Bien qu'ils soient étroitement liés, "modèle linéaire" fait spécifiquement référence à l'utilisation d'une ligne droite tandis que "moindres carrés" fait spécifiquement référence à la tentative de minimiser les erreurs en s'assurant qu'il y a une distance verticale minimale entre la ligne et les points de données.
Rechercher dans l'encyclopédie