En mathématiques et en statistiques, le coefficient de corrélation de Spearman est une mesure de corrélation, du nom de son créateur, Charles Spearman. Il s'écrit en abrégé comme la lettre grecque rho ( ρ {\displaystyle \rho } ) ou parfois comme r s {\displaystyle r_{s}}
. C'est un chiffre qui montre à quel point deux ensembles de données sont étroitement liés. Il ne peut être utilisé que pour les données qui peuvent être mises en ordre, par exemple du plus haut au plus bas.
La formule générale de r s {\displaystyle r_{s}} est ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}
.
Par exemple, si vous disposez de données sur le coût des différents ordinateurs et sur leur vitesse, vous pouvez voir s'ils sont liés et dans quelle mesure ils le sont, en utilisant r s {\displaystyle r_{s}}. .
Interprétation et propriétés principales
- Intervalle : ρ (ou rs) varie entre -1 et +1.
- Signification :
- ρ = +1 : relation monotone parfaitement croissante (les rangs correspondent exactement).
- ρ = -1 : relation monotone parfaitement décroissante (les rangs sont inversés exactement).
- ρ ≈ 0 : pas de relation monotone apparente entre les deux variables.
- Type de relation détectée : Spearman mesure une relation monotone (pas nécessairement linéaire). Il est donc utile quand la relation est monotone mais non linéaire.
- Robustesse : moins sensible aux valeurs extrêmes et aux distributions non normales que la corrélation de Pearson, car on travaille sur les rangs.
Calcul pas à pas
Étapes pour calculer rs à partir de deux séries X et Y (même taille n) :
- Trier chaque série et attribuer un rang à chaque valeur (par exemple 1 pour la plus élevée si vous classez du plus haut au plus bas, ou l'inverse). En cas d'égalités (ties), on attribue le rang moyen des positions occupées.
- Pour chaque paire i, calculer la différence des rangs : di = rang(Xi) - rang(Yi).
- Élever au carré chaque différence et sommer : ∑di2.
- Remplacer dans la formule ρ = 1 - 6∑d^{2} / (n(n^{2}-1))
pour obtenir le coefficient.
Exemple numérique
On a 6 ordinateurs avec leur coût et leur vitesse (plus élevé = meilleur). On classe du plus haut au plus bas :
- Coûts (du plus élevé au plus bas) : D(900), F(800), B(700), E(600), A(500), C(400) → rangs coûts : D=1, F=2, B=3, E=4, A=5, C=6.
- Vitesse (du plus élevé au plus bas) : C(3.5), A(3.1), E(3.0), F(2.9), B(2.8), D(2.6) → rangs vitesses : C=1, A=2, E=3, F=4, B=5, D=6.
Calcul des différences et des carrés :
- A : d = 5 - 2 = 3 → d² = 9
- B : d = 3 - 5 = -2 → d² = 4
- C : d = 6 - 1 = 5 → d² = 25
- D : d = 1 - 6 = -5 → d² = 25
- E : d = 4 - 3 = 1 → d² = 1
- F : d = 2 - 4 = -2 → d² = 4
Somme : ∑d² = 9 + 4 + 25 + 25 + 1 + 4 = 68. Avec n = 6 :
ρ = 1 - (6 × 68) / [6 (6² - 1)] = 1 - 408 / 210 ≈ -0,9429.
Interprétation : il existe une forte corrélation monotone négative entre le coût et la vitesse dans cet exemple (les ordinateurs les plus chers ont tendance ici à être les plus lents).
Cas des égalités (ties)
Quand il y a des égalités dans les données, on attribue aux valeurs ex aequo le rang moyen ; la formule précédente donne alors une approximation. Pour un calcul exact en présence de nombreux ties, on peut :
- utiliser la corrélation de Pearson appliquée aux rangs (méthode générale, équivalente à Spearman même en présence de ties),
- ou appliquer une correction de la formule en tenant compte des multiplicités des ties (formules plus techniques rarement faites à la main).
Test d'hypothèse
Pour tester H0 : "pas de corrélation (ρ = 0)" on peut :
- pour des échantillons petits, utiliser la table des valeurs exactes de Spearman ou des tests de permutation;
- pour des échantillons plus grands, utiliser l'approximation : t ≈ ρ √((n-2)/(1-ρ²)) qui suit approximativement une loi t de Student à n-2 degrés de liberté.
Comparaison avec la corrélation de Pearson
- Pearson mesure l'association linéaire entre deux variables quantitatives et suppose souvent une relation linéaire et des distributions proches de la normalité.
- Spearman mesure l'association monotone entre les rangs ; il détecte des relations monotones non linéaires et est plus robuste aux valeurs aberrantes et aux distributions non normales.
Remarques pratiques
- Logiciels : en R on utilise cor(x, y, method = "spearman") ou cor.test(..., method = "spearman"), en Python scipy.stats.spearmanr.
- Interpréter toujours le signe et la magnitude de ρ dans le contexte des données. Une valeur élevée en valeur absolue indique une forte relation monotone mais ne renseigne pas sur la pente exacte d'une relation linéaire.
En résumé, le coefficient de corrélation de Spearman est un outil simple et robuste pour mesurer l'association monotone entre deux séries ordonnées ; il se calcule à partir des rangs et donne une mesure comprise entre -1 et +1.