Correlação parcial

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Estatística sidebar Predefinição:Distinguish2 Em teoria das probabilidades e estatística, a correlação parcial mede o grau de associação entre duas variáveis aleatórias, com o efeito de um conjunto de variáveis aleatórias de controle removido. Se estivermos interessados em encontrar se ou com que grau há uma relação numérica entre duas variáveis de interesse, usar seu coeficiente de correlação dará resultados enganadores se houve outra variável, de confusão, numericamente relacionada com ambas as variáveis de interesse. Esta informação enganadora pode ser evitada ao controlar a variável de confusão, o que é feito ao computar o coeficiente de correlação parcial. Isto é precisamente a motivação para incluir outras variáveis à direita em uma regressão múltipla.

Por exemplo, se tivermos dados econômicos sobre o consumo, renda e riqueza de vários indivíduos e quisermos ver se há uma relação entre consumo e renda, não controlar a riqueza ao computar um coeficiente de correlação entre consumo e renda dará um resultado enganador, já que a renda pode ser numericamente relacionada com a riqueza, que, por sua vez, pode ser numericamente relacionada com o consumo. Uma correlação medida entre consumo e renda pode na verdade ser contaminada por estas outras correlações. O uso de uma correlação parcial evita este problema.

Como o coeficiente de correlação, o coeficiente de correlação parcial assume um valor em um intervalo entre 1 e 1. O valor 1 representa uma perfeita correlação negativa controlando algumas variáveis (isto é, uma relação linear exata na qual valores mais elevados de uma variável estão associados com valores mais reduzidos de outra). O valor 1 representa uma perfeita relação linear positiva e o valor 0 afirma que não há relação linear.

A correlação parcial coincide com a correlação condicional se as variáveis aleatórias forem conjuntamente distribuídas, como a normal multivariada, a elíptica, a hipergeométrica multivariada, a hipergeométrica multivariada negativa, a multinomial ou a distribuição de Dirichlet, mas, de outra forma, em geral não.[1]

Exemplo

Suponha que temos os seguintes dados sobre três variáveis X, Y e Z:

X Y Z
2 1 0
4 2 0
15 3 1
20 4 1

Estes dados têm a característica de que, sempre que Z=0, X é exatamente igual ao dobro de Y e, sempre que Z=1, X é exatamente igual ao quíntuplo de Y. Assim, contingente no valor de Z, há uma relação exata entre X e Y, mas não se pode dizer que a relação é exata sem referência ao valor de Z.

Na verdade, se computarmos o coeficiente de correlação de Pearson entre as variáveis X e Y, o resultado é aproximadamente 0,969, enquanto, se computarmos a correlação parcial entre X e Y, usando a fórmula dada abaixo, encontramos uma correlação parcial de 0,919. As computação foram feitas usando R com o seguinte código:

> X = c(2,4,15,20)
> Y = c(1,2,3,4)
> Z = c(0,0,1,1)
> mm1 = lm(X~Z)
> res1 = mm1$residuals
> mm2 = lm(Y~Z)
> res2 = mm2$residuals
> cor(res1,res2)
[1] 0.919145
> cor(X,Y)
[1] 0.9695016

Definição formal

Formalmente, a correlação parcial entre X e Y dado um conjunto de n variáveis de controle 𝐙={Z1,Z2,...,Zn}, escrita ρXY𝐙, é a correlação entre os resíduos eX e eY resultante da regressão linear de X com 𝐙 e Y com 𝐙 respectivamente. A correlação parcial de primeira ordem (isto é, quando n=1) é a diferença entre uma correlação e o produto de correlações removíveis dividida pelo produto dos coeficientes de alienação das correlações removíveis. O coeficiente de alienação e sua relação com a variância conjunta pela correlação foram descritos pelo psicólogo norte-americano Joy Paul Guilford.[2]

Computação

Usando regressão linear

Uma forma simples de computar a correlação parcial amostral para alguns dados é resolver os dois problemas de regressão linear associados, obter os resíduos e calcular a correlação entre os resíduos. Considere

X

e

Y

, como acima, variáveis aleatórias que assumem valores reais e considere

𝐙

a variável aleatória de valores vetoriais e de

n

dimensões. Escrevemos

xi

,

yi

e

𝐳i

para denotar a

i

-ésima de

N

observações independentes e identicamente distribuídas a partir de alguma distribuição de probabilidade conjunta sobre variáveis aleatórias reais

X

,

Y

e

𝐙

, com

𝐳i

tendo sido aumentado em 1 para permitir um termo constante na regressão. Resolver o problema da regressão linear leva a encontrar os vetores de coeficiente de regressão

𝐰X*

e

𝐰Y*

de

(n+1)

dimensões, tal que:

𝐰X*=argmin𝐰{i=1N(xi𝐰,𝐳i)2},
𝐰Y*=argmin𝐰{i=1N(yi𝐰,𝐳i)2},

com

N

sendo o número de observação e

𝐰,𝐯

o produto escalar entre os vetores

𝐰

e

𝐯

. Os resíduos são então:

eX,i=xi𝐰X*,𝐳i,
eY,i=yi𝐰Y*,𝐳i,

e a correlação parcial amostral é então dada pela fórmula usual para correlação amostral, mas entre estes novos valores derivados:

ρ^XY𝐙=Ni=1NeX,ieY,ii=1NeX,ii=1NeY,iNi=1NeX,i2(i=1NeX,i)2Ni=1NeY,i2(i=1NeY,i)2.

[3]

Usando fórmula recursiva

Pode ser computacionalmente dispendioso resolver os problemas de regressão linear. Na verdade, a correlação parcial de n-ésima ordem (isto é, com |𝐙|=n) pode ser facilmente computada a partir de três correlações parciais de (n1)-ésima ordem. A correlação parcial de zerésima ordem ρXY é definida como sendo o coeficiente de correlação regular ρXY.

Aplica-se que, para qualquer

Z0𝐙

,

ρXY𝐙=ρXY𝐙{Z0}ρXZ0𝐙{Z0}ρZ0Y𝐙{Z0}1ρXZ0𝐙{Z0}21ρZ0Y𝐙{Z0}2.

Implementar ingenuamente esta computação como um algoritmo recursivo produz uma complexidade de tempo exponencial. Entretanto, esta computação tem a propriedade de subproblemas sobrepostos, tal que usar a programação dinâmica ou simplesmente armazenar em cache os resultados das chamadas recursivas produz uma complexidade de

𝒪(n3)

. Note que, no caso em que

Z

é uma variável única, isto se reduz a:

ρXYZ=ρXYρXZρZY1ρXZ21ρZY2.

[4]

Usando inversão de matriz

Em tempo

𝒪(n3)

, outra abordagem permite que todas as correlações parciais sejam computadas entre quaisquer duas variáveis

Xi

e

Xj

de um conjunto

𝐕

de cardinalidade

n

, dadas todas as outras, isto é,

𝐕{Xi,Xj}

, se a matriz de correlação (ou alternativamente a matriz de covariância)

Ω=(ωij)

, em que

ωij=ρxixj

é definida positiva e por isso invertível. Se definirmos

𝐏=(pij)ij=Ω1

, temos que:

ρXiXj𝐕{Xi,Xj}=pijpiipjj.

[4]

Interpretação

Geométrica

Interpretação geométrica da correlação parcial para o caso de N=3 observações e assim um hiperplano bidimensional.
Triângulo esférico.

Considere três variáveis X,Y,Z (em que Z é a "variável de controle" ou "variável extra") escolhidas a partir de uma distribuição de probabilidade conjunta sobre n variáveis 𝐕. Além disso, considere 𝐯i, 1iN, as observações N independentes e identicamente distribuídas de n dimensões retiradas a partir da distribuição de probabilidade conjunta sobre 𝐕. Então, consideramos os vetores 𝐱 de N-dimensões (formado pelos valores sucessivos de X sobre as observações), 𝐲 (formado pelos valores de Y) e 𝐳 (formado pelos valores de Z).

Pode-se mostrar que os resíduos eX,i vindos a partir da regressão linear de X em 𝐙, se também considerados como um vetor 𝐞X de N-dimensões, têm um produto escalar zero com o vetor 𝐳 gerado por 𝐙. Isto significa que os vetores residuais repousam em um hiperplano S𝐳 de (N1) dimensões que é perpendicular a 𝐳.

O mesmo se aplica aos resíduos eY,i gerando um vetor 𝐞Y. A correlação parcial desejada é então o cosseno do ângulo ϕ entre as projeções 𝐞X e 𝐞Y de 𝐱 e 𝐲, respectivamente, sobre o hiperplano perpendicular a 𝐳.[5]

A distribuição da correlação parcial amostral foi descrita pelo estatístico inglês Ronald Fisher. O autor em questão deu a seguinte interpretação geométrica do coeficiente de correlação e da correlação parcial. Considerando três variáveis aleatórias

X

,

Y

e

Z

três amostras de tamanho

n

, respectivamente

x1,x2,...,xn

,

y1,y2,...,yn

e

z1,z2,...,zn

, pode-se representar a diferença de cada ponto em relação à média de cada amostra como vetores em um espaço euclidiano de

n

dimensões. Além disto, se cada um destes vetores for normalizado pelo desvio padrão amostral, obtém-se três vetores unitários

OA

,

OB

e

OC

:

OA=(x1x¯sX,x2x¯sX,xnx¯sX),
OB=(y1y¯sY,y2y¯sY,yny¯sY),
OC=(z1z¯sZ,z2z¯sZ,znz¯sZ).

Estes três pontos definem um triângulo esférico

ABC

, em que cada lado representa a correlação e cada ângulo diedro representa a correlação parcial, através de:

ρXY=cosc,
ρXZ=cosb,
ρYZ=cosa,
ρXY.Z=cosγ,
ρXZ.Y=cosβ,
ρYZ.X=cosα.

[6]

Como teste de independência condicional

Como o pressuposto de que todas as variáveis envolvidas são normais multivariadas, a correlação parcial ρXY𝐙 é zero se e apenas se X for condicionalmente independente de Y dada 𝐙.[1] Esta propriedade não se aplica no caso geral.

Para testar se uma correlação parcial amostral

ρ^XY𝐙

implica um correlação parcial populacional verdadeira de

0

, a transformada

z

de Fisher da correlação pode ser usada:

z(ρ^XY𝐙)=12ln(1+ρ^XY𝐙1ρ^XY𝐙).

A hipótese nula é

H0:ρXY𝐙=0

, a ser testada contra a alternativa bicaudal

HA:ρXY𝐙0

. Rejeitamos

H0

com nível de significância

α

se:

N|𝐙|3|z(ρ^XY𝐙)|>Φ1(1α/2),

em que

ϕ()

é a função distribuição acumulada de uma distribuição normal com média zero e desvio padrão unitário, sendo

N

o tamanho da amostra. Esta transformada

z

é aproximada e a verdadeira distribuição do coeficiente de correlação (parcial) amostral não é direta. Entretanto, um teste t exato baseado em uma combinação do coeficiente de regressão parcial com o coeficiente de correlação parcial e as variâncias parciais está disponível.[7]

Correlação semiparcial

A estatística de correlação semiparcial (correlação de parte) é semelhante à estatística de correlação parcial. Ambas comparam variações de duas variáveis depois que certos fatores são controlados, mas para calcular a correlação semiparcial, mantém-se a terceira variável constante ou para X ou para Y, mas não para ambas, enquanto para a correlação parcial, mantém-se a terceira variável constante para ambas. A correlação semiparcial compara a única variação de uma variável (tendo removida a variação associada com a(s) variável(is) Z) com a variação não filtrada da outra, enquanto a correlação parcial compara a única variação de uma variável com a única variação de outra.

A correlação semiparcial pode ser vista como mais relevante em termos práticos, porque é escalonada em relação à variabilidade total na variável dependente (de resposta)". Por outro lado, é menos útil em termos teóricos, porque é menos precisa quanto ao papel da única contribuição da variável independente.

O valor absoluto da correlação semiparcial de X com Y é sempre menor que ou igual àquele da correlação parcial de X com Y. Suponha que a correlação de X com Z tenha sido removida de X, dando o vetor residual 𝐞x. Ao computar a correlação semiparcial, Y ainda contém tanto a variância única, quanto a variância devido a sua associação com Z. Entretanto, 𝐞x, sendo não correlacionado com Z, pode apenas explicar um pouco da parte única da variância de Y e não da parte relativa a Z. Em contraste, com a correlação parcial, apenas 𝐞y (a parte da variância de Y que não é relacionada com Z) pode ser explicado, de forma que há menos variância do tipo que 𝐞x não pode explicar.[8]

Uso em análise de séries temporais

Em análise de séries temporais, a função autocorrelação parcial (algumas vezes "função correlação parcial") de uma série temporal é definida, para a defasagem

h

, como:

φ(h)=ρX0Xh{X1,,Xh1}.

Esta função é usada para determinar o comprimento de defasagem apropriado para uma autorregressão.[9]

Ver também

Referências

Predefinição:Reflist

Predefinição:Portal3