Une machine remplit des tasses de margarine. Par exemple, la machine est réglée pour que le contenu des tasses soit de 250 g de margarine. Comme la machine ne peut pas remplir chaque gobelet avec exactement 250 g, le contenu ajouté aux différents gobelets présente une certaine variation, et est considéré comme une variable aléatoire X. Cette variation est supposée être normalement distribuée autour de la moyenne souhaitée de 250 g, avec un écart type de 2,5 g. Pour déterminer si la machine est correctement calibrée, un échantillon de n = 25 tasses de margarine est choisi au hasard et les tasses sont pesées. Les poids de la margarine sont X1, ..., X25, un échantillon aléatoire de X.
Pour avoir une idée de l'attente μ, il suffit de donner une estimation. L'estimateur approprié est la moyenne de l'échantillon :
μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\disdisplaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. }
L'échantillon montre les poids réels x1, ...,x25, avec la moyenne :
x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 grammes . {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}. }
Si nous prenons un autre échantillon de 25 tasses, nous pourrions facilement nous attendre à trouver des valeurs comme 250,4 ou 251,1 grammes. Une valeur moyenne de 280 grammes serait cependant extrêmement rare si le contenu moyen des tasses est en fait proche de 250g. Il existe un intervalle entier autour de la valeur observée de 250,2 de la moyenne de l'échantillon dans lequel, si la moyenne de l'ensemble de la population prend effectivement une valeur dans cet intervalle, les données observées ne seraient pas considérées comme particulièrement inhabituelles. Un tel intervalle est appelé intervalle de confiance pour le paramètre μ. Comment calculer un tel intervalle ? Les paramètres de l'intervalle doivent être calculés à partir de l'échantillon, il s'agit donc de statistiques, de fonctions de l'échantillon X1, ..., X25 et donc de variables aléatoires elles-mêmes.
Dans notre cas, nous pouvons déterminer les paramètres en considérant que la moyenne de l'échantillon X d'un échantillon normalement distribué est également normalement distribuée, avec la même attente μ, mais avec l'erreur standard σ = 0,5 (grammes). En normalisant, nous obtenons une variable aléatoire
Z = X ¯ - μ σ / n = X ¯ - μ 0.5 {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}
qui dépend du paramètre μ à estimer, mais avec une distribution normale standard indépendante du paramètre μ. Il est donc possible de trouver des nombres -z et z, indépendants de μ, où Z se situe entre avec une probabilité de 1 - α, une mesure du degré de confiance que nous voulons avoir. Nous prenons 1 - α = 0,95. C'est donc ce que nous avons fait :
P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0,95.\,}
Le nombre z découle de la fonction de distribution cumulative :
Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0,975,\\\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0,975)=1,96,\end{aligned}}}}![{\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}](https://www.alegsaonline.com/image/0e80e68d525d87d1b722d1150abda18cecb8f684.svg)
et on obtient :
0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X ¯ - μ σ / n ≤ 1,96 ) = P ( X ¯ - 1,96 σ n ≤ μ ≤ X ¯ + 1,96 σ n ) = P ( X ¯ - 1,96 × 0,5 ≤ μ ≤ X ¯ + 1,96 × 0,5 ) = P ( X ¯ - 0,98 ≤ μ ≤ X ¯ + 0,98 ) . {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\\\[6pt]&=P\left({\bar {X}}-1.96{\frac {sigma }{\sqrt {n}}}\leq \mu \leq {bar {X}}+1.96{\frac {sigma }{\sqrt {n}}}\right)\\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\fois 0,5\droite)\\\[6pt]&=P\left({\bar {X}}-0,98\leq \mu \leq {\bar {X}}+0,98\droite).\end{aligné}}}![{\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}](https://www.alegsaonline.com/image/2437ee6c7c0320fa30cec1de64773a6e7cc3a095.svg)
Cela pourrait être interprété comme suit : avec une probabilité de 0,95, nous trouverons un intervalle de confiance dans lequel nous rencontrerons le paramètre μ entre les paramètres stochastiques
X ¯ - 0 . 98 [style d'affichage] 0{.}98\,}
et
X ¯ + 0.98. 0,98.
Cela ne signifie pas qu'il y a une probabilité de 0,95 de respecter le paramètre μ dans l'intervalle calculé. Chaque fois que les mesures sont répétées, il y aura une autre valeur pour la moyenne X de l'échantillon. Dans 95 % des cas, μ se situera entre les paramètres calculés à partir de cette moyenne, mais dans 5 % des cas, il ne le sera pas. L'intervalle de confiance réel est calculé en entrant les poids mesurés dans la formule. Notre intervalle de confiance de 0,95 devient :
( x ¯ - 0,98 ; x ¯ + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({bar {x}}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}
Comme la valeur souhaitée 250 de μ se situe dans l'intervalle de confiance résultant, il n'y a aucune raison de croire que la machine est mal calibrée.
L'intervalle calculé a des points finaux fixes, où μ peut se situer entre (ou non). Cet événement a donc une probabilité de 0 ou 1. On ne peut pas le dire : "avec la probabilité (1 - α), le paramètre μ se trouve dans l'intervalle de confiance". Nous savons seulement que par répétition dans 100(1 - α) % des cas μ sera dans l'intervalle calculé. Dans 100α % des cas, cependant, ce n'est pas le cas. Et malheureusement, nous ne savons pas dans quels cas cela se produit. C'est pourquoi nous disons : "avec un niveau de confiance de 100(1 - α) %, μ se trouve dans l'intervalle de confiance".
La figure de droite montre 50 réalisations d'un intervalle de confiance pour une moyenne de population donnée μ. Si nous choisissons au hasard une réalisation, la probabilité est de 95% que nous finissions par avoir choisi un intervalle contenant le paramètre ; cependant, nous pouvons être malchanceux et avoir choisi le mauvais. Nous ne le saurons jamais ; nous sommes coincés avec notre intervalle.