Paradoxe de Simpson

Le paradoxe de Simpson est un paradoxe issu des statistiques. Il porte le nom d'Edward H. Simpson, un statisticien britannique qui l'a décrit pour la première fois en 1951. Le statisticien Karl Pearson a décrit un effet très similaire en 1899 - la description de Udny Yule date de 1903. On l'appelle parfois l'effet Yule-Simpson. Lorsque l'on examine les scores statistiques des groupes, ces scores peuvent changer, selon que les groupes sont examinés un par un ou qu'ils sont combinés en un groupe plus large. Ce cas se produit souvent dans les sciences sociales et les statistiques médicales. Il peut être source de confusion, si les données de fréquence sont utilisées pour expliquer une relation de cause à effet. Le paradoxe d'inversion et le paradoxe d'amalgamation sont également connus sous d'autres noms.

Exemple : Traitement des calculs rénaux

Voici un exemple concret tiré d'une étude médicale comparant les taux de réussite de deux traitements contre les calculs rénaux.

Le tableau montre les taux de réussite et le nombre de traitements pour les traitements impliquant des calculs rénaux de petite et de grande taille, où le traitement A comprend toutes les procédures ouvertes et le traitement B est la néphrolithotomie percutanée :

	Traitement A		Traitement B
	succès	échec	succès	échec
Petites pierres	Groupe 1		Groupe 2
nombre de patients	81	6	234	36
	93%	7%	87%	13%
Grandes pierres	Groupe 3		Groupe 4
nombre de patients	192	71	55	25
	73%	27%	69%	31%
Les deux	Groupe 1+3		Groupe 2+4
nombre de patients	273	77	289	61
	78%	22%	83%	17%

La conclusion paradoxale est que le traitement A est plus efficace lorsqu'il est utilisé sur de petites pierres, et aussi lorsqu'il est utilisé sur de grosses pierres, alors que le traitement B est plus efficace lorsqu'il considère les deux tailles en même temps. Dans cet exemple, on ne savait pas que la taille du calcul rénal influençait le résultat. C'est ce qu'on appelle une variable cachée (ou "lurking variable") dans les statistiques.

Le choix du meilleur traitement est déterminé par une inégalité entre deux ratios (succès/total). L'inversion de l'inégalité entre les ratios, qui crée le paradoxe de Simpson, se produit parce que deux effets se produisent ensemble :

Les tailles des groupes, qui se combinent lorsque la variable cachée est ignorée, sont très différentes. Les médecins ont tendance à donner aux cas graves (gros cailloux) le meilleur traitement (A), et aux cas plus légers (petits cailloux) le traitement inférieur (B). Par conséquent, les totaux sont dominés par les groupes trois et deux, et non par les deux groupes beaucoup plus petits un et quatre.
La variable de la clandestinité a un effet important sur les ratios, c'est-à-dire que le taux de réussite est plus fortement influencé par la gravité du cas que par le choix du traitement. Par conséquent, le groupe de patients souffrant de gros calculs et utilisant le traitement A (groupe trois) obtient de moins bons résultats que le groupe souffrant de petits calculs, même si ce dernier a utilisé le traitement inférieur B (groupe deux).

Paradoxe de Simpson

Exemple : Traitement des calculs rénaux

Recherche par lettre