Medidas de dependência

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Uma medida de dependência é um parâmetro associado a um par de variáveis aleatórias que codifica em seu valor a intensidade da dependência estatística entre as variáveis. Similarmente uma medida de concordância é um parâmetro que, além de dar informação a respeito da dependência estatística, também é capaz de informar a respeito da correlação entre a direção de movimento dessas variáveis.

Critérios de Renyi

De maneira informal e grosseira, uma medida de dependência diz quanta informação se obtém a respeito de uma variável quando o valor de outra variável é conhecido. Exemplos de candidatos à medida de dependência são a covariância e a correlação (a rigor a correlação seria candidata a medida de concordância e seu módulo a medida de dependência). Ambas carregam alguma informação a respeito de quanto o conhecimento de uma variável informa sobre sobre o valor da outra. Entretanto há algumas ressalvas a esse respeito:

  • é possível obter variáveis que não são estatísticamente independentes e no entanto possuem correlação nula.
  • a correlação é invariante por mudanças lineares de parâmetros, mas não é invariante por mudanças monotônicas de variáveis gerais, ou seja, em geral ρ(X,Y)ρ(f(X),g(Y)). Isso significa que uma mera mudança de escala pode mudar sua conclusão a respeito da intensidade da dependência, o que é algo indesejável.
  • além disso em geral não é possível demonstrar que uma correlação máxima (|ρ(X,Y)|=1) implica uma dependência monotônica entre as variáveis X e Y.

Renyi estipulou um conjunto de exigências ou requisitos do que é razoável supor sobre boas medidas de dependência.[1][2] Segundo essa lista de exigências, uma medidas de dependência δ(X,Y) é um funcional da distribuição conjunta de qualquer par de variáveis X e Y com as seguintes propriedades:

  1. O funcional é simétrico na permutação de X e Y: δ(X,Y)=δ(Y,X);
  2. 0δ(X,Y)1, com δ(X,Y)=0 se e somente se X e Y são estatisticamente independentes e δ(X,Y)=1 se e somente se Y é, quase certamente, uma função estritamente monotônica de X;
  3. se f(.) e g(.) são duas funções estritamente monotônicas de seus argumentos, então δ(X,Y)=δ(f(X),g(Y));
  4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal, δ(X,Y) deve ser uma função monotônica do módulo da correlação;
  5. se a sequencia (Xn,Yn) converge para (X,Y) então δ(Xn,Yn) converge para δ(X,Y).

Pode-se adaptar esses requisitos para medidas de concordância ajustando-se apenas os (2 - 4) da seguinte forma:

2. 1δ(X,Y)1, com δ(X,Y)=0 se e somente se X e Y são estatisticamente independentes, δ(X,Y)=1 se e somente se Y é quase certamente uma função monotônica crescente de X e δ(X,Y)=1 se e somente se Y é, quase certamente, uma função monotônica decrescente de X.
3. Se f(.) e g(.) são funções monotônicas sendo ambas crescentes ou ambas decrescentes, então δ(X,Y)=δ(f(X),g(Y)). Caso uma das funções seja decrescente e a outra crescente, então δ(X,Y)=δ(f(X),g(Y)).
4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal, δ(X,Y) deve ser uma função monotônica crescente da correlação;


Relação com teoria de Cópulas

Diversas medidas de concordância e dependência podem ser facilmente relacionadas às respectivas cópulas. De fato, pode-se argumentar que toda boa medida de concordância ou dependência deve ser unicamente um funcional da cópula e ser independente das distribuições marginais.[3]

Exemplos de medidas de dependência

Tau de Kendall

O tau de Kendall é definido como:

τ=ncnd12n(n1)

onde nc é o número de pares concordantes, e nd é o número de pares discordantes do conjunto de dados. Alternativamente, τ é a probabilidade de que dois pontos sorteados da distribuição conjunta sejam concordantes, ou seja:

τ=Prob[(XX)(YY)>0]

O Tau de Kendall pode ser escrito como um funcional da cópula:

τ=4C(u,v)dC(u,v)

Rho de Spearman

O coeficiente de correlação rho de Spearman é definido como a correlação entre os postos de X e Y. Pode ser escrito como função da cópula da seguinte forma:

ρ=12uvdC(u,v)3

Informação Mútua

A informação mútua é definida da seguinte forma:

I=dxdyP(x,y)logP(x,y)P(x)P(y)=S(X)+S(Y)S(X,Y)=S(X)S(X|Y),

onde S(.) é a entropia de Shannon. A informação mútua possui muitas interpretações do ponto de vista de teoria da informação, e pode ser compreendida como a diminuição na incerteza de uma das variáveis proporcionada pelo conhecimento da outra. A informação mútua pode ser estimada a partir de amostras de X e Y através do algoritmo de k-vizinhos de Kraskov-Stogbauer- Grassberger.[4]

Dependência nas caudas

Duas variáveis chamadas dependência na cauda superior e dependência na cauda inferior (upper and lower tail dependence) são usadas para caracterizar o aumento de dependência entre duas variáveis quando ocorrem eventos extremos. A dependência na cauda superior é definida como:

λsup=limu1Prob[X>FX1(u)|Y>FY1(u)],

ou seja, a probabilidade de que se observe um valor de X maior no u-ésimo quantil dado que Y foi observado no u-ésimo quantil, no limite em que u se aproxima de 1. A dependência na cauda inferior é definida de forma similar.

Em função da cópula, as dependências na cauda são escritas como:

λsup=limu112u+C(u,u)1u
λinf=limu0C(u,u)u


Veja também

Predefinição:Referências

Predefinição:Esboço Predefinição:Esboço-matemática