Coeficiente de correlação tau de Kendall

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Estatística sidebar Em estatística, o coeficiente de correlação de postos de Kendall, comumente chamado de coeficiente tau de Kendall (devido à letra grega τ), é uma estatística usada para medir a correlação de postos entre duas quantidades medidas. Um teste tau é um teste de hipóteses não paramétrico referente à dependência estatística baseada no coeficiente tau.

É uma medida de correlação de postos, ou seja, verifica a semelhança entre as ordens dos dados quando classificados por cada uma das quantidades. Recebe este nome em homenagem ao estatístico britânico Maurice Kendall, que o desenvolveu em 1938.[1] O filósofo alemão Gustav Fechner propôs uma medida semelhante no contexto das séries temporais em 1897.[2]

Intuitivamente, a correlação de Kendall entre duas variáveis será elevada se as observações tiverem uma classificação semelhante (ou idêntica no caso de correlação igual a 1), comparadas as duas variáveis. Por classificação, entende-se a descrição das posições relativas das observações no interior de cada variável. A correlação de Kendall será baixa quando as observações tiverem uma classificação diferente (ou completamente diferente no caso de correlação igual a -1) comparadas as duas variáveis.[3]

Tanto o coeficiente τ, como o coeficiente ρ de Spearman podem ser formulados como casos especiais de um coeficiente de correlação geral.

Definição

Considere (x1,y1), (x2,y2), ..., (xn,yn) um conjunto de observações das variáveis aleatórias conjuntas X e Y respectivamente, tal que todos os valores de (xi) e (yi) sejam únicos. Qualquer par de observações (xi,yi) e (xj,yj), em que ij, é concordante se as classificações de ambos os elementos concordarem uma com a outra, isto é, se xi>xj e yi>yj ou se xi<xj e yi<yj. Elas são discordantes se xi>xj e yi<yj ou se xi<xj e yi>yj. Se xi=xj ou yi=yj, o par não é nem concordante, nem discordante.

O coeficiente τ de Kendall é definido como:

τ=(quantidade de pares concordantes)(quantidade de pares discordantes)n(n1)/2.[4]

Propriedades

  • O denominador é o número total de combinações de pares, então, o coeficiente deve estar no intervalo 1τ1.
  • Se a concordância entre as duas classificações for perfeita (isto é, se as duas classificações forem iguais), o coeficiente tem valor 1.
  • Se a discordância entre as duas classificações for perfeita (isto é, se uma classificação for o reverso da outra), o coeficiente tem valor -1.
  • Se X e Y forem independentes, espera-se que o coeficiente seja próximo de zero.

Teste de hipóteses

O coeficiente de postos de Kendall é frequentemente usado como uma estatística de teste em um teste de hipóteses para estabelecer se duas variáveis podem ser consideradas estatisticamente dependentes. O teste é não paramétrico, já que não se apoia em pressupostos sobre as distribuições de X ou Y ou a distribuição de (X,Y).

Sob a hipótese nula da independência de X e Y, a distribuição amostral de τ tem valor esperado igual a zero.[5] Esta distribuição não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada com exatidão para pequenas amostras.[6] No caso de amostras maiores, é comum usar uma aproximação da distribuição normal com média zero e variância igual a:

2(2n+5)9n(n1).[7]

Repetições

Um par {(xi,yi),(xj,yj)} é considerado empatado se xi=xj ou yi=yj. Um par empatado não é concordante, nem discordante. Quando pares empatados aparecem nos dados, o coeficiente pode ser modificado de várias maneiras para que se mantenha no intervalo [1,1].

Tau-a

A estatística de Tau-a testa a razão de possibilidades de tabelas de contingência. Ambas as variáveis devem ser ordinais. Tau-a não fará ajustes para empates. É definida como:

τA=ncndn0

em que nc, nd e n0 são definidas na próxima seção.

Tau-b

A estatística de Tau-b, diferentemente de Tau-a, faz ajustes para empates.[8] Valores de Tau-b variam entre -1 (associação 100% negativa ou inversão perfeita) e +1 (associação 100% positiva ou concordância perfeita). Sendo igual a zero, indica ausência de associação.

O coeficiente Tau-b de Kendall é definido como:

τB=ncnd(n0n1)(n0n2)

em que

  • n0=n(n1)/2;
  • n1=iti(ti1)/2;
  • n2=juj(uj1)/2;
  • nc é o número de pares concordantes;
  • nd é o número de pares discordantes;
  • ti é o número de valores empatados no i-ésimo grupo de empates para a primeira quantidade;
  • uj é o número de valores empatados no j-ésimo grupo de empates para a segunda quantidade.

Tau-c

A estatística de Tau-c (também chamada de Tau-c de Stuart-Kendall) difere de Tau-b na medida em que é mais adequada para tabelas retangulares do que para tabelas quadradas.

Testes de significância

Quando duas quantidades são estatisticamente independentes, a distribuição de τ não é facilmente caracterizável em termos de distribuições conhecidas.[9] Entretanto, para τA, a seguinte estatística, zA, é aproximadamente distribuída como uma normal padrão quando as variáveis são estatisticamente independentes:

zA=3(ncnd)n(n1)(2n+5)/2

Assim, para testar se as duas variáveis são estatisticamente dependentes, computa-se zA e encontra-se a probabilidade cumulativa para a distribuição normal padrão em |zA|. Para um teste bicaudal, multiplica-se aquele número por dois para obter o valor-p. Se o valor-p, estiver abaixo de um dado nível de significância, rejeita-se a hipótese nula (àquele nível de significância) de que as quantidades são estatisticamente independentes.

Numerosos ajustes devem ser acrescentados a zA quando se levam em conta os empates. A seguinte estatística, zB, tem distribuição igual à distribuição τB e é mais uma vez aproximadamente igual à distribuição normal padrão quando as quantidades forem estatisticamente independentes:

zB=ncndv

em que

  • v=(v0vtvu)/18+v1+v2;
  • v0=n(n1)(2n+5);
  • vt=iti(ti1)(2ti+5);
  • vu=juj(uj1)(2uj+5);
  • v1=iti(ti1)juj(uj1)/(2n(n1));
  • v2=iti(ti1)(ti2)juj(uj1)(uj2)/(9n(n1)(n2)).

Ver também

Referências

Predefinição:Reflist

Ligações externas

Predefinição:Estatística Predefinição:Portal3