Corrélation de Spearman
En mathématiques et en statistiques, le coefficient de corrélation de Spearman est une mesure de corrélation, du nom de son créateur, Charles Spearman. Il s'écrit en abrégé comme la lettre grecque rho ( ρ {\displaystyle \rho } ) ou parfois comme r s {\displaystyle r_{s}} . C'est un chiffre qui montre à quel point deux ensembles de données sont étroitement liés. Il ne peut être utilisé que pour les données qui peuvent être mises en ordre, par exemple du plus haut au plus bas.
La formule générale de r s {\displaystyle r_{s}} est ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
Par exemple, si vous disposez de données sur le coût des différents ordinateurs et sur leur vitesse, vous pouvez voir s'ils sont liés et dans quelle mesure ils le sont, en utilisant r s {\displaystyle r_{s}}. .
La mise au point
Première étape
Pour calculer r s {\displaystyle r_{s}}, vous devez d'abord classer chaque donnée. Nous allons utiliser l'exemple de l'introduction des ordinateurs et de leur vitesse.
Ainsi, l'ordinateur ayant le prix le plus bas serait classé 1. Celui qui est supérieur à ce rang aurait le rang 2. Ensuite, il monte jusqu'à ce qu'il soit tout classé. Vous devez faire cela pour les deux ensembles de données.
PC | Prix ($) | R a n k 1 {\displaystyle Rank_{1}} | Vitesse (GHz) | R a n k 2 {\displaystyle Rank_{2}} |
A | 200 | 1 | 1.80 | 2 |
B | 275 | 2 | 1.60 | 1 |
C | 300 | 3 | 2.20 | 4 |
D | 350 | 4 | 2.10 | 3 |
E | 600 | 5 | 4.00 | 5 |
Deuxième étape
Ensuite, nous devons trouver la différence entre les deux grades. Ensuite, il faut multiplier la différence par elle-même, ce qu'on appelle le quadrillage. La différence s'appelle d, et le nombre que vous obtenez lorsque vous mettez d au carré s'appelle d 2. .
R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
1 | 2 | -1 | 1 |
2 | 1 | 1 | 1 |
3 | 4 | -1 | 1 |
4 | 3 | 1 | 1 |
5 | 5 | 0 | 0 |
Troisième étape
Comptez la quantité de données dont nous disposons. Ces données sont classées de 1 à 5, donc nous avons 5 données. Ce nombre s'appelle n {\displaystyle n} .
Quatrième étape
Enfin, utilisez tout ce que nous avons élaboré jusqu'à présent dans cette formule : r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
∑ d 2 {\displaystyle \sum d^{2}} signifie que nous prenons le total de tous les nombres qui étaient dans la colonne d 2 {\displaystyle d^{2}} . C'est parce que ∑ {\displaystyle \sum } signifie total.
Donc, ∑ d 2 {\displaystyle \sum d^{2}} est 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1+1} ce qui fait 4. La formule dit de le multiplier par 6, ce qui fait 24.
n ( n 2 - 1 )/style d'affichage n(n^{2}-1)} est 5 × ( 25 - 1 )/style d'affichage 5\fois (25-1)} ce qui est 120.
Donc, pour trouver r s {\displaystyle r_{s}} Si l'on veut que les données soient complètes, il suffit de faire 1 - 24 120 = 0,8 .
Par conséquent, le coefficient de corrélation de Spearman est de 0,8 pour cet ensemble de données.
Ce que signifient les chiffres
r s {\displaystyle r_{s}} donne toujours une réponse entre -1 et 1. Les nombres entre sont comme une échelle, où -1 est un lien très fort, 0 n'est pas un lien, et 1 est aussi un lien très fort. La différence entre 1 et -1 est que 1 est une corrélation positive, et -1 une corrélation négative. Un graphique de données avec une valeur r s {\displaystyle r_{s}} de -1 ressemblerait au graphique présenté, sauf que la ligne et les points iraient du haut à gauche au bas à droite.
Par exemple, pour les données que nous avons faites ci-dessus, r s {\displaystyle r_{s}} était de 0,8. Cela signifie donc qu'il y a une corrélation positive. Comme elle est proche de 1, cela signifie que le lien est fort entre les deux ensembles de données. On peut donc dire que ces deux ensembles de données sont liés et qu'ils montent ensemble. Si elle était de -0,8, nous pourrions dire qu'elle est liée et que lorsque l'une monte, l'autre descend.
Si deux numéros sont identiques
Parfois, lors du classement des données, il y a deux ou plusieurs chiffres qui sont identiques. Lorsque cela se produit dans r s {\displaystyle r_{s}} Dans le cas d'un classement, on prend la moyenne des classements qui sont identiques. On parle alors de rangs égaux. Pour ce faire, nous classons les numéros ex aequo comme s'ils n'étaient pas ex aequo. Ensuite, nous additionnons tous les rangs qu'ils auraient et divisons le résultat par le nombre de rangs. Par exemple, disons que nous classons des personnes différentes en fonction de leurs résultats à un test d'orthographe.
Score du test | Rang | Rang (avec égalité) |
4 | 1 | 1 |
6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
8 | 5 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5} |
8 | 6 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5} |
Ces numéros sont utilisés exactement de la même manière que les grades normaux.
Pages connexes
- Corrélation
Questions et réponses
Q : Qu'est-ce que le coefficient de corrélation de rang de Spearman ?
R : Le coefficient de corrélation de rang de Spearman est une mesure de corrélation qui montre à quel point deux ensembles de données sont liés. Il ne peut être utilisé que pour des données qui peuvent être classées par ordre, par exemple du plus élevé au plus bas.
Q : Qui a créé le coefficient de corrélation de rang de Spearman ?
R : Charles Spearman a créé le coefficient de corrélation de rang de Spearman.
Q : Comment s'écrit la formule générale du coefficient de corrélation de rang de Spearman ?
R : La formule générale du coefficient de corrélation de rang de Spearman s'écrit ρ = 1 - 6∑d2/n(n2-1).
Q : Quand devez-vous utiliser le coefficient de corrélation de rang de Spearman ?
R : Vous devez utiliser le coefficient de corrélation de rang de Spearman lorsque vous voulez voir à quel point deux ensembles de données sont liés et s'ils sont liés du tout.
Q : Avec quel type de données fonctionne-t-il ?
R : Il fonctionne avec tout type de données pouvant être classées par ordre, par exemple du plus élevé au plus bas.
Q : Pouvez-vous donner un exemple d'utilisation de cette mesure ?
R : Par exemple, si vous disposez de données sur le coût de différents ordinateurs et sur leur rapidité, vous pouvez voir s'ils sont liés et à quel point ils le sont à l'aide de r_s.