Intervalle de confiance

En statistique, un intervalle de confiance est une forme spéciale d'estimation d'un certain paramètre. Avec cette méthode, un intervalle entier de valeurs acceptables pour le paramètre est donné au lieu d'une valeur unique, ainsi qu'une probabilité que la valeur réelle (inconnue) du paramètre se trouve dans l'intervalle. L'intervalle de confiance est basé sur les observations d'un échantillon, et diffère donc d'un échantillon à l'autre. La probabilité que le paramètre se trouve dans l'intervalle est appelée niveau de confiance. Très souvent, il est donné en pourcentage. L'intervalle de confiance est toujours donné avec le niveau de confiance. On peut parler d'un "intervalle de confiance à 95%". Les points finaux de l'intervalle de confiance sont appelés limites de confiance. Pour une procédure d'estimation donnée dans une situation donnée, plus le niveau de confiance est élevé, plus l'intervalle de confiance sera large.

Le calcul d'un intervalle de confiance nécessite généralement des hypothèses sur la nature du processus d'estimation - il s'agit essentiellement d'une méthode paramétrique. Une hypothèse courante est que la distribution de la population d'où provient l'échantillon est normale. En tant que tels, les intervalles de confiance tels que décrits ci-dessous ne sont pas des statistiques robustes, bien que des modifications puissent être apportées pour les rendre plus robustes.

Signification du terme "confiance

Le terme "confiance" a une signification similaire dans les statistiques, comme dans l'usage courant. Dans l'usage courant, une affirmation de confiance à 95 % dans quelque chose est normalement considérée comme indiquant une quasi-certitude. En statistique, une affirmation de confiance à 95 % signifie simplement que le chercheur a vu un intervalle possible parmi un grand nombre d'intervalles possibles, dont dix-neuf sur vingt contiennent la valeur réelle du paramètre.

Exemple pratique

A factory assembly line fills margarine cups to a desired 250g +/- 5g

Une machine remplit des tasses de margarine. Par exemple, la machine est réglée pour que le contenu des tasses soit de 250 g de margarine. Comme la machine ne peut pas remplir chaque gobelet avec exactement 250 g, le contenu ajouté aux différents gobelets présente une certaine variation, et est considéré comme une variable aléatoire X. Cette variation est supposée être normalement distribuée autour de la moyenne souhaitée de 250 g, avec un écart type de 2,5 g. Pour déterminer si la machine est correctement calibrée, un échantillon de n = 25 tasses de margarine est choisi au hasard et les tasses sont pesées. Les poids de la margarine sont X1, ..., X25, un échantillon aléatoire de X.

Pour avoir une idée de l'attente μ, il suffit de donner une estimation. L'estimateur approprié est la moyenne de l'échantillon :

μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\disdisplaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. }{\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.}

L'échantillon montre les poids réels x1, ...,x25, avec la moyenne :

x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 grammes . {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}. }{\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}.}

Si nous prenons un autre échantillon de 25 tasses, nous pourrions facilement nous attendre à trouver des valeurs comme 250,4 ou 251,1 grammes. Une valeur moyenne de 280 grammes serait cependant extrêmement rare si le contenu moyen des tasses est en fait proche de 250g. Il existe un intervalle entier autour de la valeur observée de 250,2 de la moyenne de l'échantillon dans lequel, si la moyenne de l'ensemble de la population prend effectivement une valeur dans cet intervalle, les données observées ne seraient pas considérées comme particulièrement inhabituelles. Un tel intervalle est appelé intervalle de confiance pour le paramètre μ. Comment calculer un tel intervalle ? Les paramètres de l'intervalle doivent être calculés à partir de l'échantillon, il s'agit donc de statistiques, de fonctions de l'échantillon X1, ..., X25 et donc de variables aléatoires elles-mêmes.

Dans notre cas, nous pouvons déterminer les paramètres en considérant que la moyenne de l'échantillon X d'un échantillon normalement distribué est également normalement distribuée, avec la même attente μ, mais avec l'erreur standard σ = 0,5 (grammes). En normalisant, nous obtenons une variable aléatoire

Z = X ¯ - μ σ / n = X ¯ - μ 0.5 {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}{\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}

qui dépend du paramètre μ à estimer, mais avec une distribution normale standard indépendante du paramètre μ. Il est donc possible de trouver des nombres -z et z, indépendants de μ,Z se situe entre avec une probabilité de 1 - α, une mesure du degré de confiance que nous voulons avoir. Nous prenons 1 - α = 0,95. C'est donc ce que nous avons fait :

P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0,95.\,}{\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95.\,}

Le nombre z découle de la fonction de distribution cumulative :

Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0,975,\\\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0,975)=1,96,\end{aligned}}}}{\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}

et on obtient :

0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X ¯ - μ σ / n ≤ 1,96 ) = P ( X ¯ - 1,96 σ n ≤ μ ≤ X ¯ + 1,96 σ n ) = P ( X ¯ - 1,96 × 0,5 ≤ μ ≤ X ¯ + 1,96 × 0,5 ) = P ( X ¯ - 0,98 ≤ μ ≤ X ¯ + 0,98 ) . {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\\\[6pt]&=P\left({\bar {X}}-1.96{\frac {sigma }{\sqrt {n}}}\leq \mu \leq {bar {X}}+1.96{\frac {sigma }{\sqrt {n}}}\right)\\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\fois 0,5\droite)\\\[6pt]&=P\left({\bar {X}}-0,98\leq \mu \leq {\bar {X}}+0,98\droite).\end{aligné}}}{\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}

Cela pourrait être interprété comme suit : avec une probabilité de 0,95, nous trouverons un intervalle de confiance dans lequel nous rencontrerons le paramètre μ entre les paramètres stochastiques

X ¯ - 0 . 98 [style d'affichage] 0{.}98\,}{\displaystyle {\bar {X}}-0{.}98\,}

et

X ¯ + 0.98. 0,98.{\displaystyle {\bar {X}}+0.98.\,}

Cela ne signifie pas qu'il y a une probabilité de 0,95 de respecter le paramètre μ dans l'intervalle calculé. Chaque fois que les mesures sont répétées, il y aura une autre valeur pour la moyenne X de l'échantillon. Dans 95 % des cas, μ se situera entre les paramètres calculés à partir de cette moyenne, mais dans 5 % des cas, il ne le sera pas. L'intervalle de confiance réel est calculé en entrant les poids mesurés dans la formule. Notre intervalle de confiance de 0,95 devient :

( x ¯ - 0,98 ; x ¯ + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({bar {x}}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}{\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}

Comme la valeur souhaitée 250 de μ se situe dans l'intervalle de confiance résultant, il n'y a aucune raison de croire que la machine est mal calibrée.

L'intervalle calculé a des points finaux fixes, où μ peut se situer entre (ou non). Cet événement a donc une probabilité de 0 ou 1. On ne peut pas le dire : "avec la probabilité (1 - α), le paramètre μ se trouve dans l'intervalle de confiance". Nous savons seulement que par répétition dans 100(1 - α) % des cas μ sera dans l'intervalle calculé. Dans 100α % des cas, cependant, ce n'est pas le cas. Et malheureusement, nous ne savons pas dans quels cas cela se produit. C'est pourquoi nous disons : "avec un niveau de confiance de 100(1 - α) %, μ se trouve dans l'intervalle de confiance".

La figure de droite montre 50 réalisations d'un intervalle de confiance pour une moyenne de population donnée μ. Si nous choisissons au hasard une réalisation, la probabilité est de 95% que nous finissions par avoir choisi un intervalle contenant le paramètre ; cependant, nous pouvons être malchanceux et avoir choisi le mauvais. Nous ne le saurons jamais ; nous sommes coincés avec notre intervalle.

Les segments de lignes verticales représentent 50 réalisations d'un intervalle de confiance pour μ.Zoom
Les segments de lignes verticales représentent 50 réalisations d'un intervalle de confiance pour μ.

Questions et réponses

Q : Qu'est-ce qu'un intervalle de confiance en statistique ?


R : Un intervalle de confiance est un intervalle spécial utilisé pour estimer un paramètre, tel que la moyenne de la population, en donnant une fourchette de valeurs acceptables pour le paramètre au lieu d'une valeur unique.

Q : Pourquoi utilise-t-on un intervalle de confiance plutôt qu'une valeur unique ?


R : Un intervalle de confiance est utilisé au lieu d'une valeur unique pour tenir compte de l'incertitude liée à l'estimation d'un paramètre sur la base d'un échantillon et pour donner une probabilité que la valeur réelle du paramètre soit comprise dans l'intervalle.

Q : Qu'est-ce qu'un niveau de confiance ?


R : Le niveau de confiance est la probabilité que le paramètre estimé soit compris dans l'intervalle de confiance. Il est souvent exprimé en pourcentage (par exemple, intervalle de confiance à 95 %).

Q : Que sont les limites de confiance ?


R : Les limites de confiance sont les points extrêmes d'un intervalle de confiance, qui définissent la plage des valeurs acceptables pour le paramètre estimé.

Q : Comment le niveau de confiance affecte-t-il l'intervalle de confiance ?


R : Dans une procédure d'estimation donnée, plus le niveau de confiance est élevé, plus l'intervalle de confiance est large.

Q : Quelles sont les hypothèses nécessaires pour calculer un intervalle de confiance ?


R : Le calcul d'un intervalle de confiance nécessite généralement des hypothèses sur la nature du processus d'estimation, comme l'hypothèse que la distribution de la population dont provient l'échantillon est normale.

Q : Les intervalles de confiance sont-ils des statistiques robustes ?


R : Les intervalles de confiance, comme indiqué ci-dessous, ne sont pas des statistiques robustes, bien que des ajustements puissent être apportés pour les rendre plus robustes.

AlegsaOnline.com - 2020 / 2023 - License CC3