Regressão linear

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Mais notas Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.[1][2]

Exemplo de regressão linear.

A regressão, em geral, tem como objetivo tratar de um valor que não se consegue estimar inicialmente.

A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, é usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.[3]

Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos. Predefinição:Carece de fontes

Equação da Regressão Linear

Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.

yi=α+βXi+εi

, onde:

yi: Variável explicada (dependente); representa o que o modelo tentará prever

α: É uma constante, que representa a interceptação da reta com o eixo vertical;

β: Representa a inclinação (coeficiente angular) em relação à variável explicativa;

Xi: Variável explicativa (independente);

εi: Representa todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: terem distribuição normal, com a mesma variância σ2, independentes e independentes da variável explicativa X, ou seja, i.i.d. (independentes e identicamente distribuídas).

Notação Matricial

A equação acima pode ser reescrita em forma de matriz:

𝐲=𝐗β+ε

Onde 𝐲 é uma matriz de n×1 observações, 𝐗 é uma matriz de tamanho n×p+1 (sendo a primeira coluna com valores sempre = 1, representando a constante α, e p é a quantidade de variáveis explicativas), β é uma matriz de p+1×1 variáveis explicativas (sendo que β0 representa a constante α) e ε é uma matriz de n×1 de resíduos.

𝐲=[y1y2yn],𝐗=[1X11X12X1p1X21X22X2p1Xn1Xn2Xnp],β=[β0β1β2βp],ε=[ε1ε2εn]

Estimativa dos fatores α e β

A técnica mais usual para estimativa dos parâmetros α e β é o Método dos mínimos quadrados, mas também podem ser usados:

Interpretação dos parâmetros do modelo

O chamado intercepto ou coeficiente linear (β0) é utilizado para representar o ponto em que a reta da regressão corta o eixo Y quando X = 0. Já o parâmetro  representa a inclinação da reta ( β1 ) é denominado como coeficiente de regressão ou coeficiente angular. A interpretação geométrica dos coeficientes podem ser vistos na imagem abaixo.

Uma desvantagem é que o modelo de regressão linear simples não acomoda impactos de erros experimentais (variação de matéria prima), de erros de medida, entre outras inúmeras fontes de variabilidade


Com base no modelo representado na imagem assim, é possível identificar que :

  • A relação matemática entre Y e X é linear
  • Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória
  • A média do erro é nula, ou seja E(εi)=0.

E(Yi)=E(β0+β1xi+ϵi)=β0+β1xi+E(ϵi)=β0+β1xi

Dado isto, temos que a regressão do modelo acima e dado por:

E[Y|x]=β0+β1x

  • Sabendo que para cada valor de X, a variação de εi será sempre σ2, teremos que:

Var(ϵi)=E(ϵi2)[E(ϵi)2]=E(ϵi2)=σ2 Assim temos que :

Var(Yi)=E[YiE(Yi|xi)2]=E(ϵi2)=σ2

Quando deparamos com casos como este, dizemos que o erro é homocedástico, ou seja, a variância é constante.

  • Em casos como esse, esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal,  esta hipótese é equivalente a independência dos erros.

Cov(ϵi,ϵj)=E(ϵiϵj)E(ϵi)E(ϵj)=E(ϵi,ϵj)=0 ij

Ver também

Ligações externas

Predefinição:Referências

Bibliografia

  • REIS, E., Estatistica Descritiva (2ª ed.). Lisboa: Edições Sílabo, 1994

Predefinição:Econometria Predefinição:Estatística Predefinição:Portal3

Predefinição:Portal3