Máxima verossimilhança

Predefinição:Mais fontes Em estatística, a estimativa por máxima verossimilhança (maximum-likelihood estimation- MLE) é um método para estimar os parâmetros de um modelo estatístico. Assim, a partir de um conjunto de dados e dado um modelo estatístico, a estimativa por máxima verossimilhança estima valores para os diferentes parâmetros do modelo.

Por exemplo, alguém pode estar interessado na altura de girafas fêmeas adultas, mas devido à restrições de custo ou tempo, medir a altura de todas essas girafas de uma população pode ser impossível. Podemos assumir que as alturas são normalmente distribuídas (modelo estatístico), mas desconhecemos a média e variância (parâmetros do modelo) dessa distribuição. Esses parâmetros da distribuição podem então ser estimados por MLE a partir da medição de uma amostra da população. O método busca aqueles valores para os parâmetros de maneira a maximizar a probabilidade dos dados amostrados, dado o modelo assumido (no caso, distribuição normal).

De maneira geral, posto um conjunto de dados e um modelo estatístico, o método de máxima verossimilhança estima os valores dos diferentes parâmetros do modelo estatístico de maneira a maximizar a probabilidade dos dados observados (isto é, busca parâmetros que maximizem a função de verossimilhança). O método de máxima verossimilhança apresenta-se como um método geral para estimação de parâmetros, principalmente no caso de distribuições normais.

História

Foi recomendado, analisado e popularizado por R. A. Fisher entre 1912 e 1922, ainda que tenha sido utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele e Francis Edgeworth.^[1] A determinação de regiões de confiança em torno de estimativas dos parâmetros só foi possível a partir da publicação, em 1938, do Teorema de Wilk's.^[2]

Fundamentos

Suponha-se que se tenha uma amostra x₁, x₂, …, x_n de n observações independentes e identicamente distribuídas extraídas de uma função de distribuição desconhecida com função densidade (ou função probabilidade) f₀(·). Se sabe, porém, que f₀ pertence a uma família de distribuições Predefinição:Nowrap}, chamada modelo paramétrico, de maneira que f₀ corresponde a Predefinição:Nowrap, que é o verdadeiro valor do parâmetro. Se deseja encontrar o valor $\hat{θ}$ (ou estimador) que esteja o mais próximo possível ao verdadeiro valor θ₀.

Tanto x_i como θ podem ser vetores.

A ideia desse método é encontrar primeiro a função densidade de todas as observações, que sob condições de independência, é

f (x_{1}, x_{2}, \dots, x_{n} | θ) = f (x_{1} | θ) \cdot f (x_{2} | θ) \dots f (x_{n} | θ)

Observando esta função sob um ângulo ligeiramente distinto, pode-se supor que os valores observados x₁, x₂, …, x_n são fixos enquanto que θ pode variar livremente. Esta é a função de verossimilhança:

ℒ (θ | x_{1}, \dots, x_{n}) = \prod_{i = 1}^{n} f (x_{i} | θ) .

Na prática, é geralmente usado o logaritmo dessa função:

\hat{ℓ} (θ | x_{1}, \dots, x_{n}) = \ln ℒ = \sum_{i = 1}^{n} \ln f (x_{i} | θ) .

O método da máxima verossimilhança estima θ₀ buscando o valor de θ que maximiza $\hat{ℓ} (θ | x)$ . Este é o chamado estimador de máxima verossimilhança (MLE) de θ₀:

{\hat{θ}}_{m l e} = \underset{θ \in Θ}{a r g m a x} \hat{ℓ} (θ | x_{1}, \dots, x_{n}) .

Às vezes, esse estimador é uma função explícita dos dados observados x₁, …, x_n, mas muitas vezes se precisa recorrer à otimizações numéricas. Também pode acontecer que o máximo não seja único ou não exista.

Na exposição anterior, a independência das observações foi assumida, mas não é um requisito necessário: é suficiente para poder construir a função de probabilidade conjunta dos dados para poder aplicar o método. Um contexto em que isso é comum é a análise de séries temporais.

Propriedades do estimador de máxima verossimilhança

Em muitos casos, o estimador obtido por máxima verossimilhança possui um conjunto de propriedades assintóticas atrativas:

consistência,
normalidade assintótica,
eficiência,
e inclusive eficiência de segunda ordem depois de corrigir o viés.

Consistência

Sob certas condições bastante habituais,^[3] o estimador de máxima verossimilhança é consistente: se o número de observações n tende ao infinito, o estimador $\hat{θ}$ converge em probabilidade a seu valor verdadeiro:

{\hat{θ}}_{m l e} \overset{p}{\to} θ_{0} .

Sob condições um pouco mais fortes,^[3] a convergência é quase certa:

{\hat{θ}}_{m l e} \overset{a . s .}{\to} θ_{0} .

Normalidade assintótica 2

Se as condições de consistência forem atendidas e também,

$θ_{0} \in i n t e r i o r (θ)$ ;
$f (x | θ) > 0$ e é duas vezes continuamente diferenciável em relação a θ em algum entorno N de θ₀;
∫ sup_θ∈N||∇_θf(x|θ)||dx < ∞, y ∫ sup_θ∈N||∇_θθf(x|θ)||dx < ∞;
I = E[∇_θlnf(x|θ₀) ∇_θlnf(x|θ₀)′] existe e não é singular;
$E [s u p_{θ \in N} ∥ \underset{θ θ}{▽} \ln (f (x | θ)) ∥] < \infty$ ,

então o estimador de probabilidade máxima tem uma distribuição assintótica normal:^[4]

\sqrt{n} ({\hat{θ}}_{m l e} - θ_{0}) \overset{d}{\to} 𝒩 (0, I^{- 1}) .

Invariância funcional

Se $\hat{θ}$ é o EMV de θ e g(θ) é uma transformação de θ, então o EMV de α = g(θ) é

\hat{α} = g (\hat{θ}) .

Além disso, o EMV é invariável contra certas transformações de dados. De fato se $Y = g (X)$ e $g$ uma aplicação bijetiva que não depende dos parâmetros estimados, a função densidade de Y é

f_{Y} (y) = f_{X} (x) / | g^{'} (x) |

Ou seja, as funções de densidade de X e Y diferem apenas em um termo que não depende dos parâmetros. Então, por exemplo, o EMV para os parâmetros de uma distribuição log-normal são os mesmos que os de uma distribuição normal ajustada sobre o logaritmo dos dados de entrada.

Outras propriedades

O EMV é √n-consistente e assintoticamente eficiente. Em particular, isto significa que o viés é zero até a ordem n^−1/2. Entretanto, ao obter os termos de ordem mais alta da expansão de Edgeworth da distribuição do estimador, θ_emv tem um viés de ordem ⁻¹. Este viés é igual a^[5]

b_{s} \equiv E [({\hat{θ}}_{m l e} - θ_{0})_{s}] = \frac{1}{n} \cdot I^{s i} I^{j k} (\frac{1}{2} K_{i j k} + J_{j, i k}),

fórmula onde se tem adotado a convenção de Einstein para expressar somas; I^jk representa l j,k-ésima componente da inversa da matriz de informação de Fisher e

\frac{1}{2} K_{i j k} + J_{j, i k} = E [\frac{1}{2} \frac{\partial^{3} \ln f_{θ_{0}} (x_{t})}{\partial θ_{i} \partial θ_{j} \partial θ_{k}} + \frac{\partial \ln f_{θ_{0}} (x_{t})}{\partial θ_{j}} \frac{\partial^{2} \ln f_{θ_{0}} (x_{t})}{\partial θ_{i} \partial θ_{k}}] .

Graças a essas fórmulas, é possível estimar o viés de segunda ordem do estimador e corrigi-lo por subtração:

{\hat{θ}}_{m l e}^{*} = {\hat{θ}}_{m l e} - \hat{b} .

Este estimador, sem viés até a ordem n⁻¹, se chama estimador de máxima verossimilhança com correção do viés.

Exemplos

Distribuição uniforme discreta

Suponha que n bolas numeradas de 1 a n sejam colocadas em uma urna e que uma delas seja sorteada aleatoriamente. Se n for desconhecido, seu EMV é o número m que aparece na bola extraída: a função de verossimilhança é 0 para n < m e 1/n para n ≥ m; que alcança seu máximo quando n = m. O valor esperado de $\hat{n}$ , é (n + 1)/2. Como consequência, o EMV de n subestimará o verdadeiro valor de n por (n − 1)/2.

Distribuição discreta com parâmetros discretos

Suponha-se que uma moeda inclinada seja jogada no ar 80 vezes. A amostra resultante pode ser algo assim como x₁ = H, x₂ = T, ..., x₈₀ = T, e se conta o número de caras, "H". A probabilidade que se obtenha cara é p e a de que se obtenha coroa, 1 − p (de modo que p é o parâmetro θ). Suponha-se que se obtenha 49 caras e 31 coroas. Imagine-e que a moeda foi extraída de uma caixa contendo três delas e que estas tem probabilidades p iguais a 1/3, 1/2 e 2/3 ainda que não se saiba qual delas é qual.

A partir dos dados obtidos do experimento se pode saber qual é a moeda com a máxima verossimilhança. Usando a função de probabilidade da distribuição binomial com uma amostra de tamanho 80, número de êxitos igual a 49 e distintos valores de p, a função de verossimilhança toma os seguintes três valores:

\begin{matrix} \Pr (H = 49 ∣ p = 1 / 3) & = (\binom{80}{49}) (1 / 3)^{49} (1 - 1 / 3)^{31} \approx 0.000, \\ \Pr (H = 49 ∣ p = 1 / 2) & = (\binom{80}{49}) (1 / 2)^{49} (1 - 1 / 2)^{31} \approx 0.012, \\ \Pr (H = 49 ∣ p = 2 / 3) & = (\binom{80}{49}) (2 / 3)^{49} (1 - 2 / 3)^{31} \approx 0.054. \end{matrix}

A verossimilhança é máxima quando p = 2/3 e este é, portanto, o EMV de p.

Distribuição discreta com parâmetros contínuos

Agora, suponha que houvesse apenas uma moeda, mas sua p poderia ter sido qualquer valor 0 ≤ p ≤ 1. A função de probabilidade a ser maximizada é

L (p) = f_{D} (H = 49 ∣ p) = (\binom{80}{49}) p^{49} (1 - p)^{31},

e a maximização está acima de todos os valores possíveis 0 ≤ p ≤ 1.

Probabilidade de diferentes valores de parâmetros de proporção para um processo binomial com t = 3 e n = 10

Uma maneira de maximizar essa função é por diferenciação com relação a p e definindo para zero:

\begin{matrix} 0 & = \frac{\partial}{\partial p} ((\binom{80}{49}) p^{49} (1 - p)^{31}) \\ \propto 49 p^{48} (1 - p)^{31} - 31 p^{49} (1 - p)^{30} \\ = p^{48} (1 - p)^{30} [49 (1 - p) - 31 p] \\ = p^{48} (1 - p)^{30} [49 - 80 p] \end{matrix}

a qual tem soluções p = 0, p = 1, e p = 49/80. A solução que maximiza a probabilidade é claramente p = 49/80 (desde que p = 0 e p = 1 resulta em uma probabilidade zero). Então o estimador de probabilidade máxima para p é 49/80.

Esse resultado é facilmente generalizado substituindo uma letra como t no lugar de 49 para representar o número observado de 'sucessos' de nossos ensaios de Bernoulli, e uma letra tal como n no lugar de 80 para representar o número de ensaios de Bernoulli. Exatamente o mesmo cálculo produz o estimador de probabilidade máxima t / n para qualquer sequência de n ensaios de Bernoulli resultando em t 'sucessos'.

Distribuição contínua com parâmetros contínuos

Para a distribuição normal $𝒩 (μ, σ^{2})$ a qual tem função densidade de probabilidade

f (x ∣ μ, σ^{2}) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}}),

a função densidade de probabilidade correspondente para uma amostra de n variáveis aleatórias variáveis aleatórias independentes e identicamente distribuídas normais (a probabilidade) é

f (x_{1}, \dots, x_{n} ∣ μ, σ^{2}) = \prod_{i = 1}^{n} f (x_{i} ∣ μ, σ^{2}) = {(\frac{1}{2 π σ^{2}})}^{n / 2} \exp (- \frac{\sum_{i = 1}^{n} (x_{i} - μ)^{2}}{2 σ^{2}}),

ou mais convenientemente:

f (x_{1}, \dots, x_{n} ∣ μ, σ^{2}) = {(\frac{1}{2 π σ^{2}})}^{n / 2} \exp (- \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} + n (\bar{x} - μ)^{2}}{2 σ^{2}}),

onde $\bar{x}$ é a média amostral.

Esta família de distribuições possui dois parâmetros: θ = (μ, σ), então maximizamos a verossimilhança, $ℒ (μ, σ) = f (x_{1}, \dots, x_{n} ∣ μ, σ)$ , sobre os dois parâmetros simultaneamente ou, se possível, individualmente.

Dado que logaritmo é uma função contínua estritamente crescente sobre o contradomínio da verossimilhança, os valores que maximizam a verossimilhança também maximizarão seu logaritmo. Como maximizar o logaritmo geralmente requer álgebra mais simples, é o logaritmo que é maximizado abaixo. (Nota: a verossimilhança de log está intimamente relacionada a entropia da informação e informação de Fisher.)

\begin{matrix} 0 & = \frac{\partial}{\partial μ} \log ({(\frac{1}{2 π σ^{2}})}^{n / 2} \exp (- \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} + n (\bar{x} - μ)^{2}}{2 σ^{2}})) \\ = \frac{\partial}{\partial μ} (\log {(\frac{1}{2 π σ^{2}})}^{n / 2} - \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} + n (\bar{x} - μ)^{2}}{2 σ^{2}}) \\ = 0 - \frac{- 2 n (\bar{x} - μ)}{2 σ^{2}} \end{matrix}

que é resolvido por

\hat{μ} = \bar{x} = \sum_{i = 1}^{n} x_{i} / n .

Este é realmente o máximo da função, pois é o único ponto de virada em μ e a segunda derivada é estritamente menor que zero. Seu valor esperado é igual ao parâmetro μ da distribuição dada,

E [\hat{μ}] = μ,

o que significa que o estimador de verossimilhança máxima $\hat{μ}$ é imparcial.

Similarmente diferenciamos a verossimilhança de log em relação a σ e equivale a zero:

\begin{matrix} 0 & = \frac{\partial}{\partial σ} \log ({(\frac{1}{2 π σ^{2}})}^{n / 2} \exp (- \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} + n (\bar{x} - μ)^{2}}{2 σ^{2}})) \\ = \frac{\partial}{\partial σ} (\frac{n}{2} \log (\frac{1}{2 π σ^{2}}) - \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} + n (\bar{x} - μ)^{2}}{2 σ^{2}}) \\ = - \frac{n}{σ} + \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} + n (\bar{x} - μ)^{2}}{σ^{3}} \end{matrix}

que é resolvido por

{\hat{σ}}^{2} = \sum_{i = 1}^{n} (x_{i} - \hat{μ})^{2} / n .

Inserindo $\hat{μ}$ obtem-se

{\hat{σ}}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2} - \frac{1}{n^{2}} \sum_{i = 1}^{n} \sum_{j = 1}^{n} x_{i} x_{j} .

Para calcular seu valor esperado, é conveniente reescrever a expressão em termos de variáveis aleatórias com média zero (erro estatístico) $δ_{i} \equiv μ - x_{i}$ . Expressar a estimativa nessas variáveis resulta

{\hat{σ}}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (μ - δ_{i})^{2} - \frac{1}{n^{2}} \sum_{i = 1}^{n} \sum_{j = 1}^{n} (μ - δ_{i}) (μ - δ_{j}) .

Simplificando a expressão acima, utilizando os fatos que $E [δ_{i}] = 0$ e $E [δ_{i}^{2}] = σ^{2}$ , nos permite obter

E [\hat{σ^{2}}] = \frac{n - 1}{n} σ^{2} .

Isso significa que o estimador $\hat{σ}$ é tendencioso. Contudo, $\hat{σ}$ é consistente.

Formalmente dizemos que o estimador de máxima verossimilhança (EMV) para $θ = (μ, σ^{2})$ é:

\hat{θ} = (\hat{μ}, {\hat{σ}}^{2}) .

Neste caso os EMVs pode ser obtido individualmente. Em geral, esse pode não ser o caso, e o EMVs teria que ser obtido simultaneamente.

Variáveis não independentes

Pode ser que as variáveis estejam correlacionadas, ou seja, não sejam independentes. Duas variáveis aleatórias X e Y são independentes apenas se a função de densidade de probabilidade conjunta for o produto das funções individuais de densidade de probabilidade, i.e.

f (x, y) = f (x) f (y)

Suponha que se construa um vetor Gaussiano de ordem n fora de variáveis aleatórias $(x_{1}, \dots, x_{n})$ , onde cada variável tem médias dadas por $(μ_{1}, \dots, μ_{n})$ . Além disso, faz-se a matriz de covariância ser indicada por $Σ,$

A função densidade de probabilidade conjunta dessas n variáveis randômicas é então dada por:

f (x_{1}, \dots, x_{n}) = \frac{1}{(2 π)^{n / 2} \sqrt{det (Σ)}} \exp (- \frac{1}{2} [x_{1} - μ_{1}, \dots, x_{n} - μ_{n}] Σ^{- 1} {[x_{1} - μ_{1}, \dots, x_{n} - μ_{n}]}^{T})

Nos dois casos variáveis, a função densidade de probabilidade conjunta é dada por:

f (x, y) = \frac{1}{2 π σ_{x} σ_{y} \sqrt{1 - ρ^{2}}} \exp [- \frac{1}{2 (1 - ρ^{2})} (\frac{(x - μ_{x})^{2}}{σ_{x}^{2}} - \frac{2 ρ (x - μ_{x}) (y - μ_{y})}{σ_{x} σ_{y}} + \frac{(y - μ_{y})^{2}}{σ_{y}^{2}})]

Neste e em outros casos em que existe uma função de densidade articular, a função de probabilidade é definida como acima, em Fundamentos, usando essa densidade.

Predefinição:Referências

Predefinição:Econometria Predefinição:Estatística

Predefinição:Portal3

[1] Edgeworth (Set 1908, Dez 1908)

[2] Predefinição:Citar periódico

[Newey_1-3] 3,0 ^3,1 Predefinição:Harvtxt

[4] Predefinição:Harvtxt

[5] Predefinição:Harvtxt

[1]

[2]

[3]

[4]

[5]

Máxima verossimilhança

Índice

História

Fundamentos

Propriedades do estimador de máxima verossimilhança

Consistência

Normalidade assintótica 2

Invariância funcional

Outras propriedades

Exemplos

Distribuição uniforme discreta

Distribuição discreta com parâmetros discretos

Distribuição discreta com parâmetros contínuos

Distribuição contínua com parâmetros contínuos

Variáveis não independentes

Menu de navegação

Máxima verossimilhança

História

Fundamentos

Propriedades do estimador de máxima verossimilhança

Consistência

Normalidade assintótica 2

Invariância funcional

Outras propriedades

Exemplos

Distribuição uniforme discreta

Distribuição discreta com parâmetros discretos

Distribuição discreta com parâmetros contínuos

Distribuição contínua com parâmetros contínuos

Variáveis não independentes

Menu de navegação

Procurar