La distribution t de Student est une distribution de probabilité qui a été développée par William Sealy Gosset en 1908. Student est le pseudonyme qu'il a utilisé lorsqu'il a publié l'article qui décrit la distribution. Gosset travaillait dans une brasserie et s'intéressait aux problèmes des petits échantillons, par exemple les propriétés chimiques de l'orge. Dans les problèmes qu'il a analysés, la taille de l'échantillon pouvait être aussi petite que trois. Une version de l'origine du pseudonyme est que l'employeur de Gosset préférait que le personnel utilise des noms de plume lors de la publication d'articles scientifiques au lieu de leur vrai nom, il a donc utilisé le nom "Student" pour cacher son identité. Une autre version est que la brasserie ne voulait pas que ses concurrents sachent qu'ils utilisaient le test T pour tester la qualité de la matière première.
En raison de la petite taille de l'échantillon, il n'est pas possible d'estimer l'écart type. De plus, dans de nombreux cas rencontrés par Gosset, la distribution de probabilité des échantillons n'était pas connue.
Une distribution normale décrit une population complète, les distributions t décrivent des échantillons tirés d'une population complète ; en conséquence, la distribution t pour chaque taille d'échantillon est différente, et plus l'échantillon est grand, plus la distribution ressemble à une distribution normale.
La distribution t joue un rôle dans de nombreuses analyses statistiques largement utilisées, notamment le test t de Student pour évaluer la signification statistique de la différence entre deux moyennes d'échantillon, la construction d'intervalles de confiance pour la différence entre deux moyennes de population et dans l'analyse de régression linéaire. La distribution t de Student est également utilisée dans l'analyse bayésienne des données d'une famille normale.
Si nous prenons un échantillon de n observations à partir d'une distribution normale, alors la distribution t avec ν = n-1 degrés de liberté peut être définie comme la distribution de l'emplacement de la vraie moyenne, par rapport à la moyenne de l'échantillon et divisée par l'écart-type de l'échantillon, après multiplication par le terme normalisant n {\displaystyle {\sqrt {n}}} . De cette façon, la distribution t peut être utilisée pour estimer la probabilité que la vraie moyenne se situe dans une fourchette donnée.
La distribution t est symétrique et en forme de cloche, comme la distribution normale, mais elle a des queues plus lourdes, ce qui signifie qu'elle est plus encline à produire des valeurs qui sont loin de sa moyenne. Cela la rend utile pour comprendre le comportement statistique de certains types de ratios de quantités aléatoires, dans lesquels la variation du dénominateur est amplifiée et peut produire des valeurs aberrantes lorsque le dénominateur du ratio tombe près de zéro. La distribution t de Student est un cas particulier de la distribution hyperbolique généralisée.