Régression linéaire

La régression linéaire est un moyen d'expliquer la relation entre une variable dépendante et une ou plusieurs variables explicatives en utilisant une ligne droite. Il s'agit d'un cas particulier d'analyse de régression.

La régression linéaire a été le premier type d'analyse de régression à être étudié avec rigueur. En effet, les modèles qui dépendent linéairement de leurs paramètres inconnus sont plus faciles à ajuster que les modèles qui sont liés de manière non linéaire à leurs paramètres. De plus, les propriétés statistiques des estimateurs qui en résultent sont plus faciles à déterminer.

La régression linéaire a de nombreuses utilisations pratiques. La plupart des applications relèvent de l'une des deux grandes catégories suivantes :

La régression linéaire peut être utilisée pour ajuster un modèle prédictif à un ensemble de valeurs observées (données). C'est utile, si l'objectif est la prévision, ou la réduction. Après avoir développé un tel modèle, si une valeur supplémentaire de X est alors donnée sans la valeur de y qui l'accompagne, le modèle ajusté peut être utilisé pour faire une prédiction de la valeur de y.
Étant donné une variable y et un certain nombre de variables X1, ..., Xp qui peuvent être liées à y, l'analyse de régression linéaire peut être appliquée pour quantifier la force de la relation entre y et le Xj, pour évaluer quel Xj n'a aucune relation avec y et pour identifier quels sous-ensembles du Xj contiennent des informations redondantes sur y.

Les modèles de régression linéaire tentent de rendre la distance verticale entre la ligne et les points de données (par exemple les résidus) aussi petite que possible. C'est ce qu'on appelle "ajuster la ligne aux données". Souvent, les modèles de régression linéaire tentent de minimiser la somme des carrés des résidus (moindres carrés), mais d'autres moyens d'ajustement existent. Elles comprennent la minimisation du "manque d'ajustement" dans une autre norme (comme dans la régression des moindres écarts absolus), ou la minimisation d'une version pénalisée de la fonction de perte des moindres carrés comme dans la régression de crête. L'approche des moindres carrés peut également être utilisée pour ajuster des modèles qui ne sont pas linéaires. Comme indiqué ci-dessus, les termes "moindres carrés" et "modèle linéaire" sont étroitement liés, mais ils ne sont pas synonymes.

Questions et réponses

Q : Qu'est-ce que la régression linéaire ?

R : La régression linéaire est une façon d'examiner comment quelque chose change lorsque d'autres choses changent en utilisant les mathématiques. Elle utilise une variable dépendante et une ou plusieurs variables explicatives pour créer une ligne droite, appelée "ligne de régression".

Q : Quels sont les avantages de la régression linéaire ?

R : Les modèles qui dépendent linéairement de leurs paramètres inconnus sont plus faciles à ajuster que les modèles qui ont une relation non linéaire avec leurs paramètres. En outre, les propriétés statistiques des estimateurs résultants sont plus faciles à déterminer.

Q : Quelles sont les utilisations pratiques de la régression linéaire ?

R : La régression linéaire peut être utilisée pour ajuster un modèle prédictif aux valeurs observées (données) afin de faire des prédictions, des prévisions ou des réductions. Elle peut également être utilisée pour quantifier la force des relations entre les variables et identifier les sous-ensembles de données qui contiennent des informations redondantes sur une autre variable.

Q : Comment les modèles de régression linéaire essaient-ils de minimiser les erreurs ?

R : Les modèles de régression linéaire essaient de rendre la distance verticale entre la ligne et les points de données (les résidus) aussi petite que possible. Pour ce faire, on minimise soit la somme des carrés des résidus (moindres carrés), soit le manque d'ajustement dans une autre norme (moindres écarts absolus), soit la minimisation d'une version pénalisée de la fonction de perte des moindres carrés (régression ridge).

Q : Est-il possible que les modèles de régression linéaire ne soient pas basés sur les moindres carrés ?

R : Oui, il est possible que les modèles de régression linéaire ne soient pas basés sur les moindres carrés mais qu'ils utilisent des méthodes telles que la minimisation du manque d'ajustement dans une autre norme (moindres écarts absolus) ou la minimisation d'une version pénalisée de la fonction de perte des moindres carrés (régression ridge).

Q : Les termes "modèle linéaire" et "moindres carrés" sont-ils synonymes ?

R : Non, ce ne sont pas des synonymes. Bien qu'ils soient étroitement liés, "modèle linéaire" fait spécifiquement référence à l'utilisation d'une ligne droite tandis que "moindres carrés" fait spécifiquement référence à la tentative de minimiser les erreurs en s'assurant qu'il y a une distance verticale minimale entre la ligne et les points de données.