Distância de Cook

Em estatística, a distância de Cook é uma medida da influência de uma observação ao realizar-se uma análise de regressão de mínimos quadrados. O nome é uma homenagem ao estatístico americano R. Dennis Cook. A distância de Cook mede o efeito de excluir uma dada observação. E em pontos com grande distância de Cook considera-se checagem para validação.

A distância de Cook é definida como

D_{i} = \frac{\sum_{j = 1}^{n} ({\hat{Y}}_{j} - {\hat{Y}}_{j (i)})^{2}}{p M S E} .

Que é algebricamente equivalente à expressão

D_{i} = \frac{e_{i}^{2}}{p M S E} [\frac{h_{i i}}{(1 - h_{i i})^{2}}] .

Nas equações acima:

{\hat{Y}}_{j}

é a previsão do modelo de regressão completo para a observação j;

{\hat{Y}}_{j (i)}

é a previsão de observação j de um modelo de regressão reformado em que a observação i foi omitida;

h_{i i}

é o i-nésimo elemento da diagonal da matriz de projeção

𝐗 {(𝐗^{T} 𝐗)}^{- 1} 𝐗^{T}

;

e_{i}

é o resíduo bruto (i.e., a diferença entre o valor observado e o valor ajustado pelo modelo proposto);

M S E

é o erro quadrático médio do modelo de regressão;

p

é o número de parâmetros ajustados no modelo

Detecção de observações altamente influentes

Há mais de uma opinião a respeito de quais pontos de corte devem ser usados para se detectar pontos altamente influentes. A norma operacional $D_{i} > 1$ é uma das sugeridas.^[1] Outros sugerem o uso de $D_{i} > 4 / n$ , onde $n$ é o número de observações.^[2]

Predefinição:Notas Predefinição:Tradução/ref

Referências

Predefinição:Reflist Predefinição:Refbegin

Predefinição:Refend

↑ Cook, R. Dennis; and Weisberg, Sanford (1982); Residuals and influence in regression, New York, NY: Chapman & Hall
↑ Bollen, Kenneth A.; and Jackman, Robert W. (1990); Regression diagnostics: An expository treatment of outliers and influential cases, in Fox, John; and Long, J. Scott (eds.); Modern Methods of Data Analysis (pp. 257-91). Newbury Park, CA: Sage

[1] Cook, R. Dennis; and Weisberg, Sanford (1982); Residuals and influence in regression, New York, NY: Chapman & Hall

[2] Bollen, Kenneth A.; and Jackman, Robert W. (1990); Regression diagnostics: An expository treatment of outliers and influential cases, in Fox, John; and Long, J. Scott (eds.); Modern Methods of Data Analysis (pp. 257-91). Newbury Park, CA: Sage

[1]

[2]

Distância de Cook

Detecção de observações altamente influentes

Referências

Menu de navegação

Pesquisa