Zipf-eloszlás
A Zipf-törvény egy matematikai statisztika segítségével megfogalmazott empirikus törvény, amelyet George Kingsley Zipf nyelvészről neveztek el, aki először javasolta.
Zipf törvénye kimondja, hogy a használt szavak nagy mintája esetén bármely szó gyakorisága fordítottan arányos a gyakorisági táblázatban elfoglalt helyével. Tehát az n számú szó gyakorisága 1/n arányos.
Így a leggyakoribb szó körülbelül kétszer olyan gyakran fordul elő, mint a második leggyakoribb szó, háromszor olyan gyakran, mint a harmadik leggyakoribb szó, stb. Például az angol nyelv szavainak egyik mintájában a leggyakrabban előforduló szó, a "the", az összes szó közel 7%-át teszi ki (69 971 szót az alig több mint 1 millióból). Zipf törvényéhez hűen a második helyen álló "of" szó a szavak valamivel több mint 3,5%-át teszi ki (36 411 előfordulás), amelyet az "and" (28 852) követ. Mindössze körülbelül 135 szóra van szükség ahhoz, hogy egy nagy mintában a szavak felét kitegyük.
Ugyanez az összefüggés számos más, a nyelvtől független rangsorban is előfordul, például a különböző országok városainak népességi rangsorában, a vállalatok méretében, a jövedelmi rangsorban stb. Az eloszlás megjelenését a városok népesség szerinti rangsoraiban először Felix Auerbach vette észre 1913-ban.
Nem tudni, hogy Zipf törvénye miért érvényes a legtöbb nyelvre.
Kérdések és válaszok
K: Mi az a Zipf-törvény?
V: A Zipf-törvény egy empirikus törvény, amely kimondja, hogy egy szó gyakorisága egy nagy mintában fordítottan arányos a gyakorisági táblázatban elfoglalt helyével.
K: Ki javasolta Zipf törvényét?
V: A Zipf-törvényt először George Kingsley Zipf nyelvész javasolta.
K: Hogyan magyarázza Zipf törvénye a szavak gyakoriságát egy angol szavakból álló mintában?
V: Zipf törvénye szerint az angol szavak mintájában a leggyakoribb szó körülbelül kétszer olyan gyakran fordul elő, mint a második leggyakoribb szó, háromszor olyan gyakran, mint a harmadik leggyakoribb szó stb. Ez a tendencia a szó rangjának csökkenésével folytatódik.
K: Az összes szó hány százalékát teszi ki a leggyakrabban előforduló szó az angol szavak egy mintájában?
V: Az angol szavak egyik mintájában a leggyakrabban előforduló szó ("the") az összes szó közel 7%-át teszi ki.
K: Milyen összefüggés van a minta felét kitevő szavak száma és e szavak gyakorisága között?
V: Zipf törvénye szerint egy nagy mintában a szavak felének számbavételéhez csak körülbelül 135 szóra van szükség.
K: Milyen más rangsorok mutatják Zipf törvényét?
V: Ugyanaz az összefüggés, amelyet a Zipf-törvény a szavak gyakoriságában leír, más, a nyelvtől független rangsorokban is előfordul, például a különböző országok városainak népességi rangsorában, a vállalatok méretében és a jövedelmi rangsorokban.
K: Ki vette észre az eloszlás megjelenését a városok népesség szerinti rangsoraiban?
V: Az eloszlás megjelenését a városok népesség szerinti rangsorában először Felix Auerbach vette észre 1913-ban.