Variáveis instrumentais

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Em estatística, econometria, epidemiologia e disciplinas relacionadas, o método de variáveis ​​instrumentais (IV, em inglês) é usado para estimar relações causais, quando experimentos controlados não são viáveis​​. O método IV permite estimações consistentes quando as variáveis ​​explicativas são correlacionados com os termos de erro de uma relação de regressão. Nesta situação, a regressão linear simples geralmente produz estimativas viesadas e inconsistentes. No entanto, se um instrumento está disponível, estimativas consistentes ainda podem ser obtidas.

Um instrumento é uma variável que não se pertence à equação explicativa mas está correlacionada com as variáveis ​​explicativas. Em modelos lineares, existem dois requisitos principais para a utilização de um IV:

  • O instrumento deve ser correlacionado com as variáveis ​​endógenas explicativo, condicionada a outras variáveis​​.
  • O instrumento não pode ser correlacionada com o termo de erro na equação explicativa, isto é, o instrumento não pode sofrer o mesmo problema que a variável original para a qual ele servirá de instrumento.

Exemplo

Suponha que um pesquisador deseja estimar o efeito causal do tabagismo sobre a saúde geral (como em Leigh e Schembri 2004 [1]).

Em princípio, a existência de correlação entre a saúde e o hábito de fumar não implica necessariamente que o fumo piora a saúde, porque

  • Outras variáveis ​​podem afetar tanto a saúde quanto o hábito de fumar. Por exemplo, pode ocorrer por acaso que pessoas de uma certa cidade exposta à poluição radioativa fumem muito, mas é a poluição que realmente causa problemas de saúde à esta população em estudo.
  • Mesmo que o tabagismo cause realmente problemas, a saúde em si pode afetar o hábito de fumar (digamos, um paciente muito doente pode se sentir instigado a fumar mais).

Fazer estudos controlados (por exemplo, colocar uma pessoa num laboratório, sem exposição à poluição, fumando quantidades controladas) pode ser difícil, caro ou antiético. Uma opção alternativa, portanto, seria o pesquisador tentar estimar o efeito causal do tabagismo sobre a saúde a partir de dados observacionais, utilizando, por exemplo, a alíquota de imposto sobre o tabaco como um instrumento para fumar em uma regressão de saúde.

Se as alíquotas de imposto sobre o tabaco afetam apenas (positivamente, imagina-se) a saúde porque eles afetam o hábito de fumar (mantendo as outras variáveis do modelo fixas), a correlação entre impostos sobre o tabaco e a saúde é uma evidência de que o tabagismo provoca alterações na saúde. Uma estimativa do efeito do tabagismo sobre a saúde podem ser feita também fazendo uso da correlação entre os impostos e os hábitos de fumar.

Estimação

Suponha que as observações são geradas por um processo na forma

yi=βxi+εi,

Onde "i" é o número de cada observação, yi é a variável dependente, xi é a variável explicativa, εi é o erro não observado (que representa tudo que afeta yi além de xi), e β é um parâmetro escalar não observado.

O parâmetro β é o efeito causal em yi de uma mudança de uma unidade em xi, mantidos todos os demais fatores constantes. O objetivo da econometria, aqui, é estimar β.

Por simplicidade, vamos assumir que os termos de erro ε não têm correlação serial e são homoscedásticos.

Suponha que um modelo de regressão é proposto. dada uma amostra de "T" observações, o estimador de mínimos quadrados ordinários é

β^OLS=xyxx=x(xβ+ε)xx=β+xεxx.

onde x, y e ε denotam vetores coluna de dimensão TX1. Quando x e ε são não correlacionados, sob certas condições o valor esperado do segundo termo da expressão acima é zero, e portanto o estimador de mínimos quadrados ordinários (OLS) é não-viesado e consistente. Ao contrário, quando "x" e outras causas não mensuradas que estão no termo de erro ε são correlacionadas, o estimador OLS é geralmente viesado e inconsistente para β.

Uma variável instrumental "z" é aquela que é correlacionada com a variável explicativa mas não com os termos de erro. Usando o método dos momentos, poderemos descobrir que:

E[y|z]=βE[x|z]+E[ε|z].

O segundo termo do lado direito da equação é zero por hipótese. Resolvendo para β e escrevendo a expressão resultante em termo de momentos amostrais,

β^IV=zyzx=β+zεzx.

Quando z e ε são não correlacionados, o termo final, sob certas condições, tende a zero no limite, o que caracteriza um estimador consistente. Ou seja, o efeito causal de "x" sobre "y" pode ser eficientemente estimado a partir destes dados.

Esta técnica pode ser generalizada para o caso em que há mais de uma variável explicativa, ou seja, para o caso em que x não é um vetor TX1 (1 variável), e sim uma matriz TXK (K variáveis explicativas, T observações). Seja "Z" uma matriz TXK de instrumentos. Então, pode ser mostrado que o estimador

β^IV=(ZX)1ZY

é consistente sob as condições discutidas acima. Se houver mais instrumentos que variáveis explicativas, então "Z" é uma matriz T×M,M>K. O método dos momentos generalizados pode ser usado e o estimador IV resultante é

β^IV=(XPZX)1XPZy, onde PZ=Z(ZZ)1Z.

Esta expressão torna-se a primeira (β^IV=(ZX)1ZY) quando o número de variáveis instrumentais é igual ao número de variáveis explicativas (M=K) da equação de interesse.

Ver também

  • Explicação sobre variáveis instrumentais e um exemplo usando o estimador de Wald, em que a variável instrumental é binária.

Referências

  1. Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–293.

Predefinição:Econometria