Loi de Zipf

La loi de Zipf est une loi empirique, formulée à l'aide de statistiques mathématiques, du nom du linguiste George Kingsley Zipf, qui l'a proposée le premier.

La loi Zipf stipule qu'étant donné un large échantillon de mots utilisés, la fréquence de tout mot est inversement proportionnelle à son rang dans le tableau des fréquences. Ainsi, le mot numéro n a une fréquence proportionnelle à 1/n.

Ainsi, le mot le plus fréquent se produira environ deux fois plus souvent que le deuxième mot le plus fréquent, trois fois plus souvent que le troisième mot le plus fréquent, etc. Par exemple, dans un échantillon de mots de la langue anglaise, le mot le plus fréquent, "the", représente près de 7 % de tous les mots (69 971 sur un peu plus d'un million). Fidèle à la loi Zipf, le mot "of", en deuxième position, représente un peu plus de 3,5 % des mots (36 411 occurrences), suivi de "and" (28 852). Il suffit de 135 mots environ pour représenter la moitié de l'échantillon de mots d'un grand échantillon.

La même relation se retrouve dans de nombreux autres classements, sans rapport avec la langue, comme le classement de la population des villes de divers pays, la taille des entreprises, le classement des revenus, etc. L'apparition de la distribution des classements des villes par population a été remarquée pour la première fois par Felix Auerbach en 1913.

On ne sait pas pourquoi la loi Zipf s'applique à la plupart des langues.

Questions et réponses

Q : Qu'est-ce que la loi de Zipf ?


R : La loi de Zipf est une loi empirique qui stipule que la fréquence d'un mot dans un large échantillon est inversement proportionnelle à son rang dans le tableau des fréquences.

Q : Qui a proposé la loi de Zipf ?


R : La loi de Zipf a été proposée pour la première fois par George Kingsley Zipf, un linguiste.

Q : Comment la loi de Zipf explique-t-elle la fréquence des mots dans un échantillon de mots anglais ?


R : Selon la loi de Zipf, le mot le plus fréquent dans un échantillon de mots anglais apparaît environ deux fois plus souvent que le deuxième mot le plus fréquent, trois fois plus souvent que le troisième mot le plus fréquent, etc. Cette tendance se poursuit à mesure que le rang du mot diminue.

Q : Quel pourcentage de tous les mots le mot le plus fréquent représente-t-il dans un échantillon de mots anglais ?


R : Dans un échantillon de mots anglais, le mot le plus fréquent ("the") représente près de 7 % de tous les mots.

Q : Quelle est la relation entre le nombre de mots nécessaires pour représenter la moitié de l'échantillon et la fréquence de ces mots ?


R : Selon la loi de Zipf, il suffit d'environ 135 mots pour représenter la moitié de l'échantillon de mots dans un grand échantillon.

Q : Quels autres classements illustrent la loi de Zipf ?


R : La même relation que la loi de Zipf décrit dans la fréquence des mots se retrouve dans d'autres classements sans rapport avec la langue, tels que le classement de la population des villes de différents pays, la taille des entreprises et le classement des revenus.

Q : Qui a remarqué l'apparition de la distribution dans les classements des villes en fonction de leur population ?


R : L'apparition de la distribution dans les classements des villes en fonction de la population a été remarquée pour la première fois par Felix Auerbach en 1913.

AlegsaOnline.com - 2020 / 2023 - License CC3