Pareamento de pontuação de propensão

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Na análise estatística de dados observacionais, o pareamento de pontuação de propensão (PPP) é uma técnica de pareamento estatístico que tenta estimar o efeito de um tratamento, política ou outra intervenção contabilizando as covariáveis que prevêem o recebimento do tratamento. O PPP tenta reduzir o viés devido a variáveis de confusão que podem ser encontradas em uma estimativa do efeito do tratamento obtido simplesmente comparando os resultados entre as unidades que receberam o tratamento versus aquelas que não receberam. Paul R. Rosenbaum e Donald Rubin introduziram a técnica em 1983.[1]

A possibilidade de viés surge porque uma diferença no resultado do tratamento (como o efeito médio do tratamento) entre grupos tratados e não tratados pode ser causada por um fator que prevê o tratamento e não pelo tratamento em si. Em experimentos randomizados, a randomização permite uma estimativa imparcial dos efeitos do tratamento; para cada covariável, a randomização implica que os grupos de tratamento serão equilibrados em média, pela lei dos grandes números. Infelizmente, em estudos observacionais, a atribuição de tratamentos aos sujeitos da pesquisa normalmente não é aleatória. A correspondência tenta reduzir o viés de atribuição do tratamento e imitar a randomização, criando uma amostra de unidades que receberam o tratamento que é comparável em todas as covariáveis observadas a uma amostra de unidades que não receberam o tratamento.

A "propensão" descreve a probabilidade de uma unidade ter sido tratada, dados seus valores de covariáveis. Quanto mais forte for a confusão entre tratamento e covariáveis e, portanto, mais forte for o viés na análise do efeito do tratamento ingênuo, melhor as covariáveis preveem se uma unidade será tratada ou não. Ao ter unidades com pontuações de propensão semelhantes tanto no tratamento quanto no controle, essa confusão é reduzida.

Por exemplo, alguém pode estar interessado em saber as consequências do tabagismo. Um estudo observacional é necessário, pois não é ético designar aleatoriamente pessoas para o tratamento "fumar". O efeito do tratamento estimado pela simples comparação entre aqueles que fumavam e aqueles que não fumavam seria enviesado por quaisquer fatores que prevejam o tabagismo (por exemplo: gênero e idade). O PPP tenta controlar esses vieses tornando os grupos que receberam tratamento e os que não receberam tratamento comparáveis em relação às variáveis de controle.

Procedimento geral

1. Estimar pontuações de propensão, por exemplo, com regressão logística:

  • Variável dependente: Z = 1, se a unidade participou (ou seja, é membro do grupo de tratamento); Z = 0, se a unidade não participou (ou seja, é membro do grupo de controle).
  • Escolha fatores de confusão apropriados (variáveis hipotetizadas como associadas tanto ao tratamento quanto ao resultado)
  • Obtenha uma estimativa para o escore de propensão: probabilidade prevista p ou log[ p /(1 − p )].

2. Combine cada participante a um ou mais não participantes na pontuação de propensão, usando um destes métodos:

  • Correspondência do vizinho mais próximo
  • Correspondência completa ideal: combine cada participante com um ou mais não participantes exclusivos, de modo a minimizar a distância total nas pontuações de propensão entre os participantes e seus não participantes correspondentes. Este método pode ser combinado com outras técnicas de correspondência.
  • Correspondência de calibre: unidades de comparação dentro de uma certa largura da pontuação de propensão das unidades tratadas são correspondidas, onde a largura é geralmente uma fração do desvio padrão da pontuação de propensão
  • Correspondência métrica de Mahalanobis em conjunto com PPP
  • Correspondência de estratificação
  • Correspondência de diferenças em diferenças (pesos lineares locais e do kernel)
  • Correspondência exata

3. Verifique se as covariáveis estão equilibradas entre os grupos de tratamento e comparação dentro dos estratos da pontuação de propensão.

  • Use diferenças padronizadas ou gráficos para examinar distribuições
  • Se as covariáveis não estiverem balanceadas, retorne às etapas 1 ou 2 e modifique o procedimento

4. Estimar efeitos com base em nova amostra

  • Normalmente: uma média ponderada das diferenças médias dentro da partida nos resultados entre participantes e não participantes.
  • Use análises apropriadas para amostras pareadas não independentes se mais de um não participante for pareado com cada participante

Pontuação de propensão

Uma pontuação de propensão é a probabilidade de uma unidade (por exemplo, pessoa, sala de aula, escola) ser atribuída a um tratamento específico, dado um conjunto de covariáveis observadas. As pontuações de propensão são usadas para reduzir a confusão, equacionando grupos com base nessas covariáveis.

Suponha que temos um indicador de tratamento binário Z, uma variável de resposta r e covariáveis observadas em segundo plano X. A pontuação de propensão é definida como a probabilidade condicional de tratamento dadas as variáveis de segundo plano:

e(x) =def Pr(Z=1X=x).

No contexto da inferência causal e da metodologia de pesquisa, as pontuações de propensão são estimadas (por meio de métodos como regressão logística, florestas aleatórias ou outros), usando algum conjunto de covariáveis. Essas pontuações de propensão são então usadas como estimadores de pesos a serem usados com métodos de ponderação de probabilidade inversa.

Implementações em pacotes de estatística

  • R: a correspondência de pontuação de propensão está disponível como parte de MatchIt,[2][3] optmatch,[4] ou outros pacotes.
  • SAS: O procedimento PSMatch e as observações de correspondência macro OneToManyMTCH com base em uma pontuação de propensão.[5]
  • Stata: vários comandos implementam correspondência de pontuação de propensão,[6] incluindo o psmatch2 escrito pelo usuário.[7] Stata versão 13 e posterior também oferece o comando integrado teffects psmatch .[8]
  • SPSS: Uma caixa de diálogo para Propensity Score Matching está disponível no menu IBM SPSS Statistics (Data/Propensity Score Matching) e permite ao usuário definir a tolerância de correspondência, randomizar a ordem dos casos ao extrair amostras, priorizar correspondências exatas, amostrar com ou sem substituição, defina uma semente aleatória e maximize o desempenho aumentando a velocidade de processamento e minimizando o uso de memória.
  • Python: PsmPy, uma biblioteca para correspondência de pontuação de propensão em python

Referências