La loi de Zipf est une loi empirique, formulée à l'aide de statistiques mathématiques, du nom du linguiste George Kingsley Zipf, qui l'a proposée le premier.

La loi Zipf stipule qu'étant donné un large échantillon de mots utilisés, la fréquence de tout mot est inversement proportionnelle à son rang dans le tableau des fréquences. Ainsi, le mot numéro n a une fréquence proportionnelle à 1/n.

Ainsi, le mot le plus fréquent se produira environ deux fois plus souvent que le deuxième mot le plus fréquent, trois fois plus souvent que le troisième mot le plus fréquent, etc. Par exemple, dans un échantillon de mots de la langue anglaise, le mot le plus fréquent, "the", représente près de 7 % de tous les mots (69 971 sur un peu plus d'un million). Fidèle à la loi Zipf, le mot "of", en deuxième position, représente un peu plus de 3,5 % des mots (36 411 occurrences), suivi de "and" (28 852). Il suffit de 135 mots environ pour représenter la moitié de l'échantillon de mots d'un grand échantillon.

La même relation se retrouve dans de nombreux autres classements, sans rapport avec la langue, comme le classement de la population des villes de divers pays, la taille des entreprises, le classement des revenus, etc. L'apparition de la distribution des classements des villes par population a été remarquée pour la première fois par Felix Auerbach en 1913.

On ne sait pas pourquoi la loi Zipf s'applique à la plupart des langues.