Algoritmo de Gauss-Newton

O algoritmo de Gauss-Newton é um método usado para resolver problemas de mínimos quadrados não lineares. Ele pode ser visto como uma modificação do Método de Newton para achar o mínimo de uma função. Diferentemente do Método de Newton, o Algoritmo de Gauss-Newton apenas pode ser usado para minimizar uma soma dos valores quadrados da função, mas tem a vantagem de que as derivadas segundas, que podem ser difíceis de calcular, não são necessárias.

Problemas de mínimos quadrados não lineares surgem, por exemplo, em regressão não linear, onde os parâmetros de um modelo são procurados de forma que o modelo esteja em concordância com as observações disponíveis.

O método foi nomeado a partir dos matemáticos Carl Friedrich Gauss e Isaac Newton.

Descrição

Dada "m" funções r = (r₁, …, r_m) de n variáveis 'β = (β₁, …, β_n), com m ≥ n', o Algoritmo de Gauss-Newton iterativamente encontra o mínimo das somas dos quadrados^[1]

S (𝜷) = \sum_{i = 1}^{m} r_{i}^{2} (𝜷) .

Começando com uma estimativa inicial $𝜷^{(0)}$ para o mínimo, o método prossegue com as iterações

𝜷^{(s + 1)} = 𝜷^{(s)} - {({𝐉_{𝐫}}^{⊤} 𝐉_{𝐫})}^{- 1} {𝐉_{𝐫}}^{⊤} 𝐫 (𝜷^{(s)})

onde

𝐉_{𝐫} = \frac{\partial r_{i}}{\partial β_{j}} (𝜷^{(s)})

é a Matriz Jacobiana de "r" e o símbolo $^{⊤}$ denota a matriz transposta.

Na montagem de dados, onde o objetivo é encontrar os parâmetros β tais que uma dada função modelo y = f(x, β) ajuste melhor alguns pontos de dados (x_i, y_i), as funções r_i são os resíduos

r_{i} (𝜷) = y_{i} - f (x_{i}, 𝜷) .

Então, o método de Gauss-Newton pode ser expresso em termos da Jacobiana da função "f" como

𝜷^{(s + 1)} = 𝜷^{(s)} - {({𝐉_{𝐟}}^{⊤} 𝐉_{𝐟})}^{- 1} {𝐉_{𝐟}}^{⊤} 𝐫 (𝜷^{(s)}) .

Notas

A suposição m ≥ n na demonstração do algoritmo é necessária, senão a matriz J_r^TJ_r não será invertível e as equações normais não poderão ser resolvidas (pelo menos exclusivamente).

O Algoritmo de Gauss-Newton pode ser obtido por aproximação linear do vetor das funções r_i. Usando o Teorema de Taylor, podemos escrever em cada iteração:

𝐫 (𝜷) \approx 𝐫 (𝜷^{s}) + 𝐉_{𝐫} (𝜷^{s}) Δ

com $Δ = 𝜷 - 𝜷^{s} .$

A tarefa de encontrar Δ minimizando a soma dos quadrados do lado direito, por exemplo:

𝐦 𝐢 𝐧 ‖ 𝐫 (𝜷^{s}) + 𝐉_{𝐫} (𝜷^{s}) Δ ‖_{2}^{2}

é um problema linear de mínimos quadrados, que pode ser resolvido explicitamente, obtendo-se as equações normais no algoritmo.

As equações normais são m equações normais simultâneas no desconhecido incremento Δ. Elas podem ser solucionadas em um passo, usando decomposição de Cholesky, ou, melhor, a fatoração QR de J_r. Para sistemas de grandes dimensões, um método iterativo, tal como o método do gradiente conjugado, pode ser mais eficiente. Se existe uma dependência linear entre as colunas de J_r, as iterações falharão, já que J_r^TJ_r se tornará singular.

Exemplo

Neste exemplo, o Algoritmo de Gauss-Newton será usado para ajustar um modelo a alguns dados, minimizando os erros das somas dos quadrados entre os dados e as previsões do modelo.

Numa experiência de biologia, estudando a relação entre a concentração de substrato ["S"] e a taxa de reação de uma reação mediada por enzimas, foram obtidos os dados da tabela a seguir:

i	1	2	3	4	5	6	7
[S]	0,038	0,194	0,425	0,626	1,253	2,500	3,740
taxa	0,050	0,127	0,094	0,2122	0,2729	0,2665	0,3317

É desejado encontrar uma curva (função modelo) com a fórmula

taxa = \frac{V_{max} [S]}{K_{M} + [S]}

que melhor se adapte aos dados, no sentido dos mínimos quadrados, com os parâmetros $V_{max}$ e $K_{M}$ a serem determinados.

Denotado por $x_{i}$ e $y_{i}$ o valor de $[S]$ e a taxa da tabela $i = 1, \dots, 7.$ Seja $β_{1} = V_{max}$ e $β_{2} = K_{M} .$ Encontraremos $β_{1}$ e $β_{2}$ tal que a soma dos quadrados dos resíduos

r_{i} = y_{i} - \frac{β_{1} x_{i}}{β_{2} + x_{i}}

(

i = 1, \dots, 7

)

será minimizada.

A Jacobiana $𝐉_{𝐫}$ do vetor dos resíduos $r_{i}$ em relação às incógnitas $β_{j}$ é uma matriz $7 \times 2$ com $i$ -th linhas de entrada

\frac{\partial r_{i}}{\partial β_{1}} = - \frac{x_{i}}{β_{2} + x_{i}}, \frac{\partial r_{i}}{\partial β_{2}} = \frac{β_{1} x_{i}}{{(β_{2} + x_{i})}^{2}} .

Começando com as estimativas iniciais de $β_{1}$ =0,9 e $β_{2}$ =0,2, depois de cinco iterações do Algoritmo de Gauss-Newton os valores otimizados ${\hat{β}}_{1} = 0, 362$ e ${\hat{β}}_{2} = 0, 556$ são obtidos. Podemos também determinar as erros: ${\hat{β}}_{1} = 0, 36$ ± $0, 07$ e ${\hat{β}}_{2} = 0, 56$ ± $0, 35$ com 80% de confiança.^[2] A soma dos quadrados dos resíduos diminuiu desde o valor inicial de 1.445 para 0,00784 depois da quinta iteração. O gráfico à direita mostra a curva determinada pelo modelo dos parâmetros otimizados e os dados observados.

Propriedades de Convergência

Pode ser mostrado^[3] que o incremento Δ é um sentido descendente para "S", e, se o algoritmo converge, então o limite é um ponto estacionário de "S". Contudo, a convergência não é garantida, nem mesmo a convergência local como no Método de Newton.

A taxa de convergência do Algoritmo de Gauss-Newton pode se aproximar do quadrático.^[4] O algoritmo pode convergir lentamente ou nunca se a suposição inicial estiver longe do mínimo ou se a matriz $𝐉_{𝐫}^{𝐓} 𝐉_{𝐫}$ estiver mal condicionada. Por exemplo, considere o problema com m=2 equações e n=1 variáveis, dadas por:

\begin{matrix} r_{1} (β) & = β + 1 \\ r_{2} (β) & = λ β^{2} + β - 1. \end{matrix}

A otimização é em $β = 0$ . Se |λ| = 0, então o problema é de fato linear e o método converge em uma iteração. Se |λ| < 1, então o método converge linearmente e o erro decresce assintóticamente com um fator |λ| em cada iteração. No entanto, se |λ| > 1, então o método não converge nem mesmo localmente.^[5]

Derivação com o Método de Newton

No que segue, o Algoritmo de Gauss-Newton será derivado com o Método de Newton por otimização da função através de uma aproximação. Como consequência, a taxa de convergência do Algoritmo de Gauss-Newton será no máximo quadrática.

A relação de recorrência do Método de Newton para minimizar uma função "S" de parâmetros β, é

𝜷^{(s + 1)} = 𝜷^{(s)} - 𝐇^{- 1} 𝐠

onde g denota o vetor gradiente de S e H denota a Matriz de Hessian de S. Uma vez que $S = \sum_{i = 1}^{m} r_{i}^{2}$ , o gradiente é dado por:

g_{j} = 2 \sum_{i = 1}^{m} r_{i} \frac{\partial r_{i}}{\partial β_{j}} .

Elementos de Hessien são calculados através da diferenciação dos elementos do gradiente, $g_{j}$ , com respeito a $β_{k}$

H_{j k} = 2 \sum_{i = 1}^{m} (\frac{\partial r_{i}}{\partial β_{j}} \frac{\partial r_{i}}{\partial β_{k}} + r_{i} \frac{\partial^{2} r_{i}}{\partial β_{j} \partial β_{k}}) .

O método de Gauss-Newton é obtido ignorando os termos derivados de segunda ordem (o segundo termo nesta expressão). Isto é, o Hessian é aproximado por:

H_{j k} \approx 2 \sum_{i = 1}^{m} J_{i j} J_{i k}

onde $J_{i j} = \frac{\partial r_{i}}{\partial β_{j}}$ são entradas da Jacobiana J_r. O gradiente e o Hessien aproximado podem ser escritos numa notação matricial como:

𝐠 = 2 {𝐉_{𝐫}}^{⊤} 𝐫, 𝐇 \approx 2 {𝐉_{𝐫}}^{⊤} 𝐉_{𝐫} .

Estas expressões são substituídas na relação de recorrência acima pra obter as equações operacionais.

𝜷^{(s + 1)} = 𝜷^{(s)} + Δ; Δ = - {({𝐉_{𝐫}}^{⊤} 𝐉_{𝐫})}^{- 1} {𝐉_{𝐫}}^{⊤} 𝐫 .

A convergência do método de Gauss-Newton não é garantida em todas as instâncias. A aproximação

| r_{i} \frac{\partial^{2} r_{i}}{\partial β_{j} \partial β_{k}} | ≪ | \frac{\partial r_{i}}{\partial β_{j}} \frac{\partial r_{i}}{\partial β_{k}} |

que precisa ser capaz de ignorar os termos derivados de segunda ordem, pode ser válida em dois casos, nos quais a convergência é de se esperar.^[6]

Os valores da função $r_{i}$ são pequenos em magnitude, ao menos em torno do mínimo.
As funções são apenas "ligeiramente" não lineares, de modo que $\frac{\partial^{2} r_{i}}{\partial β_{j} \partial β_{k}}$ seja relativamente pequena em magnitude.

Versões Aperfeiçoadas

Com o método de Gauss-Newton a soma dos quadrados S pode não decrescer em cada iteração. Contudo, uma vez que Δ é um sentido descendente, a menos que $S (𝜷^{s})$ seja um ponto estacionário, mantem-se que $S (𝜷^{s} + α Δ) < S (𝜷^{s})$ para todos suficientemente pequenos $α > 0$ . Assim, se ocorre divergência, uma solução é a de empregar uma fração $α$ , do vetor incremento Δ na atual fórmula.

𝜷^{s + 1} = 𝜷^{s} + α Δ

.

Em outras palavras, o vetor incremento é muito longo, mas ele aponta "para baixo", então somente uma parte irá decrescer o objetivo da função S. Um valor ideal para $α$ pode ser encontrado usando um algoritmo de linha de pesquisa, ou seja, a magnitude de $α$ é determinada encontrando o valor que minimiza S, geralmente usando um método de pesquisa direto no intervalo $0 < α < 1$ .

Nos casos em que a direção do vetor de deslocamento é tal que a fração otimizada, $α$ , é próxima de zero, um método alternativo para o tratamento de divergência é a utilização do algoritmo de Levenberg-Marquardt, também conhecido como o "método da região de segurança". As equações normais são modificadas de tal forma que o vetor de incremento seja virado na direção de descida mais acentuada.

(𝐉^{𝐓} 𝐉 + 𝝀 𝐃) Δ = 𝐉^{T} 𝐫

,

onde D é uma matriz diagonal positiva. Note que quando D é a matriz identidade e $λ \to + \infty$ , então $Δ / λ \to 𝐉^{T} 𝐫$ , portanto a direção de Δ se aproxima da direção do gradiente $𝐉^{T} 𝐫$ .

O chamado parâmetro de Marquardt, $λ$ , também pode ser otimizado por uma linha de pesquisa, mas é ineficiente já que o vetor de deslocamento deve ser recalculado toda vez que $λ$ for alterado. Uma estratégia mais eficiente é a seguinte: quando a divergência ocorre, deve-se aumentar o parâmetro de Marquartdt até que haja uma diminuição em S. Então deve-se manter o valor de uma iteração para a outra, mas, se possível, diminuí-lo até que um valor de corte seja atingido quando o parâmetro de Marquardt pode ser definido em zero; a minimização de S se torna então um padrão de minimização de Gauss-Newton.

Referências

↑ Björck (1996)
↑ Predefinição:Citar livro
↑ Björck (1996) p260
↑ Björck (1996) p341, 342
↑ Fletcher (1987) p.113
↑ Nocedal (1997) Predefinição:Page needed

Fontes

Predefinição:Isaac Newton

[ab-1] Björck (1996)

[2] Predefinição:Citar livro

[3] Björck (1996) p260

[4] Björck (1996) p341, 342

[5] Fletcher (1987) p.113

[6] Nocedal (1997) Predefinição:Page needed

[1]

[2]

[3]

[4]

[5]

[6]

Algoritmo de Gauss-Newton

Índice

Descrição

Notas

Exemplo

Propriedades de Convergência

Derivação com o Método de Newton

Versões Aperfeiçoadas

Referências

Fontes

Menu de navegação

Algoritmo de Gauss-Newton

Descrição

Notas

Exemplo

Propriedades de Convergência

Derivação com o Método de Newton

Versões Aperfeiçoadas

Referências

Fontes

Menu de navegação

Procurar