Statistique

La statistique est une branche des mathématiques appliquées qui s'occupe de la collecte, de l'organisation, de l'analyse, de l'interprétation et de la présentation des données. Les statistiques descriptives résument les données. Les statistiques inférentielles font des prédictions. Les statistiques aident à l'étude de nombreux autres domaines, tels que la science, la médecine, l'économie, la psychologie, la politique et le marketing. Une personne qui travaille dans le domaine des statistiques s'appelle un statisticien. En plus d'être le nom d'un domaine d'étude, le mot "statistiques" fait également référence aux chiffres qui sont utilisés pour décrire des données ou des relations.

Histoire

Les premières statistiques connues sont des données de recensement. Les Babyloniens ont fait un recensement vers 3500 avant J.-C., les Égyptiens vers 2500 avant J.-C. et les Chinois de l'Antiquité vers 1000 avant J.-C.

Dès le 16ème siècle, des mathématiciens comme Gerolamo Cardano ont développé la théorie des probabilités, qui a fait de la statistique une science. Depuis lors, les gens ont collecté et étudié des statistiques sur de nombreux sujets. Les arbres, les étoiles de mer, les étoiles, les rochers, les mots, presque tout ce qui peut être compté a fait l'objet de statistiques.

Collecte de données

Avant de pouvoir décrire le monde avec des statistiques, nous devons collecter des données. Les données que nous collectons en statistiques sont appelées des mesures. Après avoir collecté des données, nous utilisons un ou plusieurs chiffres pour décrire chaque observation ou mesure. Par exemple, supposons que nous voulions connaître le degré de popularité d'une certaine émission de télévision. Nous pouvons choisir un groupe de personnes (appelé échantillon) parmi la population totale des téléspectateurs. Ensuite, nous demandons à chaque téléspectateur de l'échantillon combien de fois il regarde l'émission. L'échantillon est constitué de données que vous pouvez voir, et la population est constituée de données que vous ne pouvez pas voir (puisque vous n'avez pas demandé à chaque téléspectateur de la population). Par ailleurs, si nous voulons savoir si un certain médicament peut aider à réduire la pression artérielle, nous pouvons le donner aux gens pendant un certain temps et mesurer leur pression artérielle avant et après.

Statistiques descriptives et inférentielles

Les chiffres qui décrivent les données que vous pouvez voir sont appelés statistiques descriptives. Les nombres qui font des prédictions sur des données que vous ne pouvez pas voir sont appelés statistiques inférentielles.

Les statistiques descriptives consistent à utiliser des chiffres pour décrire les caractéristiques des données. Par exemple, la taille moyenne des femmes aux États-Unis est une statistique descriptive qui décrit une caractéristique (taille moyenne) d'une population (les femmes aux États-Unis).

Une fois que les résultats ont été résumés et décrits, ils peuvent être utilisés à des fins de prédiction. C'est ce qu'on appelle les statistiques inférentielles. Par exemple, la taille d'un animal dépend de nombreux facteurs. Certains de ces facteurs sont contrôlés par l'environnement, mais d'autres sont liés à l'héritage. Un biologiste peut donc faire un modèle qui dit qu'il y a une forte probabilité que la progéniture soit de petite taille si les parents étaient de petite taille. Ce modèle permet probablement de mieux prédire la taille qu'en faisant des suppositions au hasard. Pour savoir si un certain médicament peut être utilisé pour guérir une maladie ou un état donné, on compare généralement les résultats des personnes à qui l'on a administré le médicament à ceux des personnes à qui l'on a administré un placebo.

Méthodes

Le plus souvent, nous collectons des données statistiques en faisant des enquêtes ou des expériences. Par exemple, un sondage d'opinion est un type d'enquête. Nous choisissons un petit nombre de personnes et leur posons des questions. Ensuite, nous utilisons leurs réponses comme données.

Le choix des personnes à interroger pour une enquête ou une collecte de données est important, car il influence directement les statistiques. Une fois les statistiques établies, il n'est plus possible de déterminer quels individus sont choisis. Supposons que nous voulions mesurer la qualité de l'eau d'un grand lac. Si nous prélevons des échantillons à proximité de la décharge, nous obtiendrons des résultats différents de ceux obtenus si les échantillons sont prélevés dans un endroit éloigné et difficile d'accès du lac.

Il existe deux types de problèmes que l'on rencontre couramment lors du prélèvement d'échantillons :

  1. Si les échantillons sont nombreux, ils seront probablement très proches de ce qu'ils sont dans la population réelle. En revanche, s'il y a très peu d'échantillons, ils peuvent être très différents de ce qu'ils sont dans la population réelle. Cette erreur est appelée erreur fortuite (voir Erreurs et résidus dans les statistiques).
  2. Les individus des échantillons doivent être choisis avec soin, généralement de manière aléatoire. Si ce n'est pas le cas, les échantillons peuvent être très différents de ce qu'ils sont réellement dans la population totale. Cela est vrai même si un grand nombre d'échantillons est prélevé. Ce type d'erreur est appelé biais.

Erreurs

Nous pouvons réduire les erreurs dues au hasard en prélevant un échantillon plus important, et nous pouvons éviter certains biais en choisissant au hasard. Cependant, il est parfois difficile de prélever de grands échantillons aléatoires. Et un biais peut se produire si l'on ne demande pas à différentes personnes, ou si elles refusent de répondre à nos questions, ou si elles savent qu'elles reçoivent un faux traitement. Ces problèmes peuvent être difficiles à résoudre. Voir aussi l'erreur type.

Statistiques descriptives

Trouver le milieu des données

Le milieu des données est appelé une moyenne. La moyenne nous renseigne sur un individu typique de la population. Il existe trois types de moyenne qui sont souvent utilisés : la moyenne, la médiane et le mode.

Les exemples ci-dessous utilisent ces données types :

 Nom | A    B C    D    E    F    G    H    I    J ---------------------------------------------   score| 23 26 49 49 57 64 66 78 82 92

Moyenne

La formule de la moyenne est la suivante

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}{\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} sont les données et N {\displaystyle N}{\displaystyle N} est la taille de la population. (voir la notation Sigma).

Cela signifie que vous additionnez toutes les valeurs, puis divisez par le nombre de valeurs.

Dans notre exemple x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}{\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Le problème de la moyenne est qu'elle ne dit rien sur la façon dont les valeurs sont distribuées. Les valeurs très grandes ou très petites changent beaucoup la moyenne. En statistique, ces valeurs extrêmes peuvent être des erreurs de mesure, mais parfois la population contient vraiment ces valeurs. Par exemple, si dans une pièce il y a 10 personnes qui gagnent 10 $/jour et 1 qui gagne 1 000 000 $/jour. La moyenne des données est de 90 918 $/jour. Même s'il s'agit du montant moyen, la moyenne dans ce cas n'est pas le montant qu'une seule personne gagne, ce qui est donc inutile à certaines fins.

C'est la "moyenne arithmétique". D'autres types sont utiles à certaines fins.

Médiane

La médiane est l'élément central des données. Pour trouver la médiane, nous trions les données du plus petit au plus grand nombre, puis nous choisissons le nombre du milieu. S'il y a un nombre pair de données, il n'y aura pas de nombre au milieu, donc nous choisissons les deux moyennes et calculons leur moyenne. Dans notre exemple, il y a 10 données, les deux du milieu sont "57" et "64", la médiane est donc (57+64)/2 = 60,5. Un autre exemple, comme l'exemple de revenu présenté pour la moyenne, considérons une chambre avec 10 personnes qui ont des revenus de 10, 20, 20, 40, 50, 60, 90, 90, 100 et 1 000 000 $, la médiane est de 55 $ car 55 $ est la moyenne des deux chiffres du milieu, 50 et 60 $. Si l'on ignore la valeur extrême de 1 000 000 $, la moyenne est de 53 $. Dans ce cas, la médiane est proche de la valeur obtenue lorsque la valeur extrême est rejetée. La médiane résout le problème des valeurs extrêmes comme décrit dans la définition de la moyenne ci-dessus.

Mode

Le mode est l'élément de données le plus fréquent. Par exemple, la lettre la plus courante en anglais est la lettre "e". Nous dirions que "e" est le mode de distribution des lettres.

Par exemple, si dans une pièce il y a 10 personnes avec des revenus de 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 et 1 000 000 $, le mode est 90 $ parce que 90 $ se produit trois fois et toutes les autres valeurs se produisent moins de trois fois.

Il peut y avoir plus d'un mode. Par exemple, si dans une pièce il y a 10 personnes avec des revenus de 10, 20, 20, 20, 50, 60, 90, 90, 90, 100, et 1 000 000 $, les modes sont 20 et 90 $. Il s'agit d'un système bi-modal, c'est-à-dire qu'il y a deux modes. La bi-modalité est très courante et indique souvent que les données sont la combinaison de deux groupes différents. Par exemple, la taille moyenne de tous les adultes aux États-Unis a une distribution bi-modale. En effet, les hommes et les femmes ont une taille moyenne distincte de 1,763 m (5 ft 9 + 1⁄2 in) pour les hommes et de 1,622 m (5 ft 4 in) pour les femmes. Ces sommets sont apparents lorsque les deux groupes sont combinés.

Le mode est la seule forme de moyenne qui peut être utilisée pour les données qui ne peuvent être mises en ordre.

Trouver la diffusion des données

Une autre chose que l'on peut dire d'un ensemble de données, c'est à quel point elles sont réparties. Une façon courante de décrire la dispersion d'un ensemble de données est l'écart-type. Si l'écart-type d'un ensemble de données est faible, la plupart des données sont très proches de la moyenne. Par contre, si l'écart type est important, alors une grande partie des données est très différente de la moyenne.

Si les données suivent le modèle commun appelé distribution normale, il est alors très utile de connaître l'écart type. Si les données suivent ce modèle (nous dirions que les données sont distribuées normalement), environ 68 données sur 100 s'écarteront de la moyenne de moins que l'écart-type. De plus, environ 95 mesures sur 100 s'écarteront de la moyenne de moins de deux fois l'écart type, et environ 997 sur 1000 seront plus proches de la moyenne que trois écarts types.

Autres statistiques descriptives

Nous pouvons également utiliser des statistiques pour découvrir qu'un certain pourcentage, percentile, nombre ou fraction de personnes ou de choses dans un groupe font quelque chose ou entrent dans une certaine catégorie.

Par exemple, les spécialistes des sciences sociales ont utilisé des statistiques pour découvrir que 49 % des personnes dans le monde sont des hommes.

Logiciels connexes

Afin de soutenir les statisticiens, de nombreux logiciels statistiques ont été développés :

  • Institut SAS
  • SPSS (fabriqué par IBM)

Questions et réponses

Q : Qu'est-ce que la statistique ?


R : La statistique est une branche des mathématiques appliquées qui traite de la collecte, de l'organisation, de l'analyse, de la lecture et de la présentation des données.

Q : Quels sont les deux types de statistiques ?


R : Les deux types de statistiques sont descriptifs et inférentiels. Les statistiques descriptives font des résumés de données tandis que les statistiques inférentielles font des prédictions.

Q : Comment les statistiques aident-elles dans d'autres domaines ?


R : Les statistiques aident à l'étude de nombreux autres domaines tels que la science, la médecine, l'économie, la psychologie, la politique et le marketing.

Q : Qui travaille dans le domaine des statistiques ?


R : Une personne qui travaille dans le domaine des statistiques est appelée un statisticien.

Q : Que signifie le mot "statistiques" ?


R : En plus d'être le nom d'un domaine d'étude, le mot "statistiques" peut également désigner des chiffres utilisés pour décrire des données ou des relations.

Q : Quelles sont les activités des statisticiens ?


R : Les statisticiens exercent des activités telles que la collecte, l'organisation, l'analyse, la lecture et la présentation de données.

AlegsaOnline.com - 2020 / 2023 - License CC3