Lei de Benford

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa
A distribuição dos primeiros dígitos (de 1 a 9)[1] de acordo com a lei de Benford.[2] Cada barra azul representa um dígito e sua altura, a porcentagem da probabilidade de ocorrê-la em algum caso real.[3]

A lei de Benford, também chamada de lei do primeiro dígito,[4][5] lei de Newcomb-Benford e lei números anômalos refere-se à distribuição de dígitos em várias fontes de casos reais.[6] Ao contrário da homogeneidade esperada, a lei afirma que em muitas coleções de números que ocorrem naturalmente, o primeiro dígito significativo provavelmente será pequeno. Sem homogeneidade, esta distribuição mostra que o dígito 1 tem 30% de chance de aparecer em um conjunto de dados estatísticos enquanto valores maiores tem menos possibilidade de aparecer.[7]

Frank Benford demonstrou que esse resultado se aplica a uma ampla variedade de conjuntos de dados, incluindo contas de eletricidade, endereços, preços de ações, preços de casas, números de população, taxas de mortalidade, comprimentos de rios, constantes físicas e matemáticas. pelas leis de potência (que são muito comuns na natureza). Todas essas afirmações são calculadas ou definidas junto a uma escala logarítmica.

Definição matemática

Um conjunto de números satisfaz a lei de Benford[8] se o primeiro dígito  d (d ∈ {1, ..., 9}) ocorre com a seguinte probabilidade:[9][10]

P(d)=log10(d+1)log10(d)=log10(d+1d)=log10(1+1d).
Predefinição:Nobold Predefinição:Tmath Probabilidade de ser o primeiro dígitoPredefinição:Tmath
1 Predefinição:Bartable
2 Predefinição:Bartable
3 Predefinição:Bartable
4 Predefinição:Bartable
5 Predefinição:Bartable
6 Predefinição:Bartable
7 Predefinição:Bartable
8 Predefinição:Bartable
9 Predefinição:Bartable

História

As primeiras observações a respeito deste fenômeno foram feitas pelo astrônomo Simon Newcomb, por volta de 1881, ao notar  que as primeiras páginas de livros de logaritmo, utilizados na época para realizar cálculos logarítmicos, eram muito mais utilizadas do que as últimas páginas[11]. Isso o levou a propor que, em qualquer lista de números tirados de um conjunto aleatório, o conjunto de números que começam com ‘1’ tende a ser maior. Em seus estudos, Newcomb sugere que a probabilidade de um único número N ser o primeiro dígito de um número era igual a log(N+1) - log(N).

O fenômeno foi esquecido por um tempo até ser redescoberto pelo físico Frank Benford, por volta de 1938[12]. Frank Benford coletou dezena de milhares de números de 20 domínios diferentes, dentre eles estavam áreas de superfície de 335 rios, tamanho de populações de 3259 locais dos EUA, 104 constantes físicas, 1800 pesos moleculares, 5000 entradas de um livro matemático, 308 números contidos em uma edição da Reader’s Digest, os 342 primeiros endereços listados na American Men of Science e 418 taxas de mortalidade. O total de números utilizados no paper chegou a 20.229   e todos seguiam a mesma distribuição. A descoberta deste padrão foi nomeada posteriormente de Benford.

Em 1995, o matemático Theodore P. Hill conseguiu provar o fenômeno por trás das distribuições.[13]

Generalização

A lei de Benford pode ser estendida para além do primeiro dígito[14]. Em particular, a probabilidade de encontrar um número começando com a cadeia de números n é dada pela função:

log10(n+1)log10(n)=log10(1+1n)

Dessa forma, probabilidade de um número começar com 1, 2, 3 é de Predefinição:Math.

O resultado acima permite encontrar a probabilidade de um número específico ser encontrado em uma determinada posição dentro de um número. Por exemplo, a probabilidade do número 2 ser encontrado como segundo digito de um número é de:[14]

log10(1+112)+log10(1+122)++log10(1+192)0.109

E a probabilidade de um número d,0 > d> 9, ser encontrado na n-ésima posição é de:

k=10n210n11log10(1+110k+d)

A distribuição probabilística do n-ésimo dígito, à medida que n aumenta, aproxima-se rapidamente de uma distribuição uniforme com 10% para cada um dos dez dígitos[14]. Geralmente, quatro dígitos são suficientes para assumir uma distribuição uniforme de 10%, já que 0 aparece 10,0176% do tempo no quarto dígito, enquanto 0 aparece 9,9824% do tempo.

Probabilidades 0 1 2 3 4 5 6 7 8 9
1º posição Predefinição:N/A 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%
2º posição 12% 11.4% 10.9% 10.4% 10% 9.7% 9.3% 9% 8.8% 8.5%
3º posição 10.2% 10.1% 10.1% 10.1% 10% 10% 9.9% 9.9% 9.9% 9.8%

Aplicações

Detecção de Fraude Contábil

Em 1972, Hal Varian sugeriu que a lei de Benford poderia ser utilizada para detectar possíveis fraudes em lista de dados socioeconômicos apresentados em apoio a decisões de planejamento público. Com base na suposição de que as pessoas que compõem os números tendem a distribuir seus dígitos razoavelmente uniformemente, uma comparação simples da distribuição de frequência de primeiro dígito dos dados com a distribuição esperada de acordo com a lei de Benford deve mostrar quaisquer resultados anômalos.

Seguindo isso, Mark Nigrini mostrou que a lei de Benford poderia ser usada em contabilidade e auditoria forense como um indicador de fraude. Na prática, as aplicações da lei de Benford para detecção de fraude usam mais do que o primeiro dígito.[15]

Prova Judicial

Nos EUA, evidências baseadas na Lei de Benford já foram admitidas em casos criminais nos níveis local, federal e estadual.[16]

Dados Eleitorais

Walter Mebane, um cientista político e estatístico da Universidade de Michigan, foi o primeiro a aplicar o teste da lei de Benford para o segundo dígito (2BL-test) em análise forense de dados eleitorais.[17] Tais análises não são consideradas provas, mas sim mero indício de possível fraude, visto que é um método de identificação de irregularidades em resultados de eleições simples, mas não à prova de erros. O método pode deixar de detectar discrepâncias em eleições fraudadas, assim como pode apontar fraudes em ocasiões onde não ocorreram.[18]

Um estudo de 2011 dos cientistas políticos Joseph Deckert, Mikhail Myagkov e Peter C. Ordeschook do California Institute of Technology concluiu que aplicar a lei de Benford como um indicador estatístico de fraude eleitoral é "problemática e enganadora".[19] Nesse artigo cientifico foram simulados eleições justas e fraudulentas, bem como utilizado bancos de dados, e não foi observada nenhuma correlação entre o desvio da lei de Benford e fraudes eleitorais. Nas palavras dos autores "Não é que simplesmente a lei [de Benford] ocasionalmente julga errado que uma eleição justa seja fraudulenta ou que uma eleição fraudulenta é justa. A 'taxa de acerto' da lei é essencialmente um lançar de moedas, acarretando no melhor dos casos uma ferramenta de análise problemática e no pior sendo totalmente enganadora."[19]

Em resposta a este trabalho, Mebane criticou o uso de simulações mas concordou que existem várias ressalvas em aplicar a lei de Benford a dados eleitorais.[20]

A lei de Benford foi invocada como indício de fraude nas eleições iranianas de 2009[21], e também usada para analisar outros resultados eleitorais. Entretanto, outros especialistas consideram que a lei de Benford não se aplica em alguns tipos de sistemas dinâmicos.[22][23]

A lei de Benford também já foi incorretamente aplicada para alegar fraude eleitoral. Após a eleição presidencial nos Estados Unidos em 2020, "especialistas" apontaram para o fato de que a distribuição dos primeiros dígitos dos números de votos do vencedor Joe Biden não seguia a lei de Benford. Esta análise incorre em erro ao aplicar a lei de Benford em dados com muito pouca variação em escala, violando a premissa inerente à lei de Benford de que os valores dos dados observados tenham grande variação de escala. De acordo com Mebane, "É amplamente conhecido que os primeiros dígitos das contagens de votos não são úteis para o diagnóstico de fraudes eleitorais."[24][25]

Dados Macroeconômicos

Os dados macroeconômicos relatados pelo governo grego à União Européia antes de entrar na zona do euro mostraram-se provavelmente fraudulentos usando a lei de Benford.[26]

Análise de dígitos de preços

A importância deste índice de referência para a detecção de irregularidades nos preços foi demonstrada pela primeira vez num estudo à escala europeia que investigou os preços praticados antes e depois da introdução do euro .  A introdução do euro em 2002, com suas diversas taxas de câmbio, distorceu os padrões de preços nominais existentes e, ao mesmo tempo, manteve os preços reais. Enquanto os primeiros dígitos dos preços nominais distribuídos de acordo com a lei de Benford, o estudo mostrou um claro desvio deste índice para o segundo e terceiro dígitos em preços nominais de mercado com uma clara tendência para preços psicológicos após o choque nominal da introdução do euro.[27]

Análise de dados do genoma

O número de quadros de leitura abertos e sua relação com o tamanho do genoma difere entre eucariontes e procariontes, sendo que o primeiro apresenta uma relação log-linear e o segundo, uma relação linear. A lei de Benford foi usada para testar essa observação com um excelente ajuste aos dados em ambos os casos.[28]

Detecção de fraude científica

Um teste de coeficientes de regressão em artigos publicados mostrou concordância com a lei de Benford. Um grupo de controle fabricou estimativas estatísticas e os resultados fabricados não obedeceram a lei de Benford.[29]

Predefinição:Referências

Predefinição:Portal3

  1. Predefinição:Citar periódico
  2. Arno Berger and Theodore P Hill, Benford's Law Strikes Back: No Simple Explanation in Sight for Mathematical Gem, 2011
  3. Élise Janvresse and Thierry de la Rue (2004), "From Uniform Distributions to Benford's Law", Journal of Applied Probability, 41 1203–1210 Predefinição:Doi Predefinição:MR preprint Predefinição:Wayback
  4. L. C. Washington, "Benford's Law for Fibonacci and Lucas Numbers", The Fibonacci Quarterly, 19.2, (1981), 175–177
  5. Predefinição:Citar periódico
  6. Theodore P. Hill, "The Significant-Digit Phenomenon", The American Mathematical Monthly, Vol. 102, No. 4, (Apr., 1995), pp. 322–327. Official web link (subscription required). Alternate, free web link Predefinição:Wayback.
  7. Formann AK (2010) The Newcomb-Benford Law in its relation to some common distributions. PLoS 5(5): e10541. Predefinição:Doi
  8. Predefinição:Citar periódico
  9. Predefinição:Citar periódico
  10. Predefinição:Citar periódico
  11. Predefinição:Citar periódico
  12. Predefinição:Citar periódico
  13. Predefinição:Citar periódico
  14. 14,0 14,1 14,2 Predefinição:Citar periódico
  15. Predefinição:Citar periódico
  16. Predefinição:Citar web
  17. Predefinição:Citar web
  18. Predefinição:Citar web
  19. 19,0 19,1 Predefinição:Citar periódico
  20. Predefinição:Citar periódico
  21. Predefinição:Citar periódico
  22. Predefinição:Citar web
  23. Predefinição:Citar web
  24. Predefinição:Citar revista
  25. Predefinição:Citar web
  26. Predefinição:Citar periódico
  27. Predefinição:Citar periódico
  28. Predefinição:Citar periódico
  29. Predefinição:Citar periódico