Lei de Zipf

Fonte: testwiki
Revisão em 11h57min de 15 de maio de 2023 por imported>Lenildo7 (Link para artigo na Wikipedia.)
(dif) ← Revisão anterior | Revisão atual (dif) | Revisão seguinte → (dif)
Saltar para a navegação Saltar para a pesquisa

A Lei de Zipf é uma lei empírica formulada utilizando estatísticas matemáticas que se refere ao fato de que para muitos tipos de dados estudados nas ciências físicas e sociais, a distribuição de frequência de classificação é uma relação inversa[1]. A distribuição zipfiana esta inserida dentro da família de leis de distribuições de probabilidades poder discreta relacionadas. Está relacionado com a distribuição de zeta, mas não é idêntica.

A lei de Zipf foi originalmente formulada em termos de linguística quantitativa, afirmando que, dado algum corpus de expressões linguísticas naturais, a frequência de qualquer palavra é inversamente proporcional à sua classificação na tabela de frequências. Assim, a palavra mais frequente ocorrerá aproximadamente duas vezes mais frequentemente do que a segunda palavra mais frequente, três vezes mais vezes que a terceira palavra mais frequente, e assim sucessivamente. Não há consenso na literatura, porém, sobre o que causa o fenômeno[2].

A lei é nomeada em homenagem à George Kingsley Zipf, linguista da Universidade de Harvard, que a popularizou na década de 1940 por meio de sua obra Human Behaviour and the Principle of Least-Effort ("Comportamento Humano e o Principio do Menor Esforço").[3][1] Apesar disso, porém, alguns estudiosos já haviam notado essa regularidade antes de Zipf, como o estenógrafo francês Jean-Baptiste Estoup[4], e o físico alemão Felix Auerbach, em 1913[5].

A Lei de Zipf é semelhante em conceito, embora não idêntico na distribuição, à Lei de Benford.


Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Por exemplo, numa língua a frequência com que surgem as diversas palavras segue uma distribuição que se pode aproximar por:

Pn1/na

onde Pn representa a frequência de uma palavra ordenada na n-ésima posição e o expoente a é próximo da unidade. Isto significa que o segundo elemento se repetirá aproximadamente com uma frequência que é metade da do primeiro, e o terceiro elemento com uma frequência de 1/3 e assim sucessivamente. Uma lei não empírica, mas mais precisa, derivada dos trabalhos de Claude Shannon foi descoberta por Benoît Mandelbrot.

Os campos de aplicação da lei de Zipf são diversos, e são também várias as tendências de pensamento que a têm proposto como contrapartida à distribuição gaussiana no âmbito das ciências sociais. Na realidade, nas ciências sociais não se segue sempre uma distribuição gaussiana, mas também não se segue sempre a lei de Zipf.

Génese

Frequência das palavras em função da ordem na versão original de Ulisses de James Joyce.

Zipf analisou a obra monumental de James Joyce, Ulisses, e contou as palavras distintas, ordenando-as por frequência. Verificou-se que:

  • a palavra mais comum surgia 8000 vezes;
  • a décima, 800 vezes;
  • a centésima, 80 vezes;
  • a milésima, 8 vezes.

Os resultados fazem parecer, à luz de outros estudos que podem ser feitos rapidamente com qualquer computador, demasiado precisos para serem perfeitamente exatos, e em estudos similares a décima palavra mais comum surge cerca de 1000 vezes, por via de um efeito de cauda observado nesta distribuição. A lei de Zipf prevê que num dado texto, a frequência de ocorrência f(n) de uma palavra esteja ligada à sua ordem n na ordem das frequências por uma lei da forma: f(n)=Kn onde K é uma constante.

Aplicações

Durante algum tempo, acreditava-se que o livro medieval Código Voynich, indecifrado até hoje, pudesse ser um livro falso, uma fraude. Porém, como o texto do Código segue a Lei de Zipf, isso indica que o livro deve estar escrito em alguma linguagem desconhecida, ao invés de ser pura invenção. [6]

Ver também

Leituras complementares

Principais:

Secundárias:

Predefinição:Referências

Ligações externas

Predefinição:Portal3

  1. 1,0 1,1 Predefinição:Citar web
  2. poder360.com.br/ O guarda-chuva do presidente
  3. Predefinição:Citar web
  4. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), Predefinição:Isbn, p. 24
  5. Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  6. Predefinição:Citar web