Estimativa de frequência de Good-Turing

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Estimativa de frequência Good-Turing é uma técnica estatística para prever a probabilidade de ocorrência de objetos pertencentes a um número de espécies desconhecidos, dado observações passadas desses objetos e suas espécies. (Desenhando bolas de uma urna, os "objetos" seriam bolas e as "espécies" seriam as cores distintas das bolas (finitas mas desconhecidas em número). Depois de desenhar Rred bolas vermelhas, Rblack bolas pretas e Rgreen bolas verdes, nós perguntaríamos qual é a probabilidade de desenhar a bola vermelha, a bola preta, a bola verde ou uma de uma cor ainda nao vista.)

Acontecimentos históricos

A estimativa de frequência Good-Turgin foi desenvolvida por Alan Turing e seu assistente I. J. Good como parte de seus esforços na Bletchley Park para quebrar a cifra Alemanha para o Enigma (máquina) durante a Segunda Guerra Mundial. Turing primeiramente modelou as frequências como uma distribuição multinominal, mas a achou inexata. O algoritmo de suavização de Good desenvolvido para melhorar a precisão da estimativa.

A descoberta foi reconhecida como significante quando publicada por Good in 1953,[1] but the calculations were difficult so it was not used as widely as it might have been.[2] O método ganhou até alguma fama literária devido ao romance Enigma de Robert Harris.

Nos anos de 1990, Geoffrey Sampson trabalho com William A. Gale of AT&T, parar criar e implementar um variante simplificado e fácil de usar do método Good-Turing[3] descrito abaixo.

O método

A primeira notação e algumas estrutura de dados requeridas são definidas:

  • Assumindo que X espécies distintas tenham sido observadas, numeradas x = 1, ..., X.
  • Então o vetor frequência, R¯, tem elementos Rx que dão o número de indivíduos que foram observados para a espécie x.
  • A frequência do vetor frequência, (Nr)r=0,1,, mostra quantas vezes a frequência r ocorre em um vetor R, i.e. entre os elementos Rx.
Nr=|{x|Rx=r}|

Por exemplo N1 é o número de espécies para o qual apenas 1 indivíduo foi observado. Perceba que o número total de objetos observadosN, não pode ser encontrado a partir de

N=r=1rNr.

O primeiro passo no cálculo é achar uma estimativa para a probabilidade total de espécies não vistas. Essa estimativa é [4]

p0=N1N.

O próximo passo é achar uma estimativa de probabilidade para as espécies que foram vistas r vezes. Para uma 'única espécie esta estimativa é:

pr=(r+1)S(Nr+1)NS(Nr).

Para estimar a probabilidade de encontrar alguma espécie desse grupo (i.e., o grupo de espécies vistos r vezes) pode ser usada a seguinte fórmula:

(r+1)S(Nr+1)N.

Aqui, a notação S() significa o valor suavizado ou ajustado da frequência mostrada em parênteses.

Nós gostaríamos de fazer um gráfico de logNr versus logr mas isso é problemático porque para r grandes muitas Nr serão zero. Em vez disso, uma quantidade revisada, logZr, é colocada contra logr, onde Zr é definida como

Zr=Nr0.5(tq),

e onde q, r e t são subscripts consecutivos tendo Nq,Nr,Nt não zero. Quando r é 1, tome q sendo 0. Quando r é a última frequência não-zero, tome t como 2r − q.

A suposição da estimativa de Good-Turing é que o número de ocorrências para cada espécie segue uma distribuição binária.[5]

Uma regressão linear simples é então encaixada ao log-log do gráfico. Para pequenos valores de r é razoável para definir S(Nr)=Nr

(isto é, nenhuma suavização é realizada), enquanto para grandes valores de r, valores de S(Nr) são lidos da linha de regressão. Um procedimento automático (não descrito aqui) pode ser usado para especificar em que ponto a troca de não-suavização para a suavização linear deve acontecer.Predefinição:Carece de fontes

O código para o método é avaliado em domínio público.[6]Predefinição:Carece de fontes

Veja também

Referências

  1. Predefinição:Citar periódico
  2. Newsise: Scientists Explain and Improve Upon 'Enigmatic' Probability Formula, a popular review of Predefinição:Citar periódico
  3. Sampson, Geoffrey and Gale, William A. (1995) Good‐turing frequency estimation without tears
  4. Predefinição:Citar periódico
  5. Lecture 11: The Good-Turing Estimate. CS 6740, Cornell University, 2010 [1]
  6. Sampson, Geoffrey (2005) Simple Good–Turing Frequency Estimator (code in C)