Kappa de Cohen

O coeficiente kappa de Cohen (κ) é uma estatística que é usada para medir a confiabilidade interexaminador (e também a confiabilidade intraexaminador) para itens qualitativos (categóricos).^[1] Geralmente é considerada uma medida mais robusta do que o simples cálculo percentual de concordância, pois κ leva em consideração a possibilidade de a concordância ocorrer por acaso. Há controvérsia em torno do kappa de Cohen devido à dificuldade em interpretar os índices de concordância. Alguns pesquisadores sugeriram que é conceitualmente mais simples avaliar a discordância entre os itens.

História

A primeira menção de uma estatística semelhante ao kappa é atribuída a Galton (1892). ^[2]^[3]

O artigo seminal introduzindo o kappa como uma nova técnica foi publicado por Jacob Cohen na revista Educational and Psychological Measurement em 1960. ^[4]

Definição

O kappa de Cohen mede a concordância entre dois avaliadores que classificam N itens em C categorias mutuamente exclusivas. A definição de $κ$ é

κ \equiv \frac{p_{o} - p_{e}}{1 - p_{e}} = 1 - \frac{1 - p_{o}}{1 - p_{e}},

onde Predefinição:Mvar é a concordância relativa observada entre os avaliadores e Predefinição:Mvar é a probabilidade hipotética de concordância ao acaso, usando os dados observados para calcular as probabilidades de cada observador ver aleatoriamente cada categoria. Se os avaliadores estiverem de acordo, então $κ = 1$ . Se não houver acordo entre os avaliadores além do que seria esperado por acaso (conforme dado por Predefinição:Mvar), $κ = 0$ . É possível que a estatística seja negativa, ^[5] o que pode ocorrer por acaso se não houver relação entre as avaliações dos dois avaliadores, ou pode refletir uma tendência real dos avaliadores em dar avaliações diferentes.

Para Predefinição:Mvar categorias, Predefinição:Mvar observações para categorizar e $n_{k i}$ o número de vezes que o avaliador Predefinição:Mvar previu a categoria Predefinição:Mvar:

p_{e} = \frac{1}{N^{2}} \sum_{k} n_{k 1} n_{k 2}

Isso é derivado da seguinte equação:

p_{e} = \sum_{k} \hat{p_{k 12}} = \sum_{k} \hat{p_{k 1}} \hat{p_{k 2}} = \sum_{k} \frac{n_{k 1}}{N} \frac{n_{k 2}}{N} = \frac{1}{N^{2}} \sum_{k} n_{k 1} n_{k 2}

Onde $\hat{p_{k 12}}$ é a probabilidade estimada de que tanto o avaliador 1 quanto o avaliador 2 classificarão o mesmo item como k, enquanto $\hat{p_{k 1}}$ é a probabilidade estimada de que o avaliador 1 classificará um item como k (e similarmente para o avaliador 2). A relação $\hat{p_{k}} = \sum_{k} \hat{p_{k 1}} \hat{p_{k 2}}$ baseia-se na suposição de que a classificação dos dois avaliadores é independente. O termo $\hat{p_{k 1}}$ é estimado usando o número de itens classificados como k pelo avaliador 1 ( $n_{k 1}$ ) dividido pelo total de itens a classificar ( $N$ ): $\hat{p_{k 1}} = \frac{n_{k 1}}{N}$ (e da mesma forma para o avaliador 2).

Matriz de confusão de classificação binária

Na tradicional matriz de confusão 2 × 2 empregada em aprendizado de máquina e estatística para avaliar classificações binárias, a fórmula Kappa de Cohen pode ser escrita como: ^[6]

$κ = \frac{2 \times (T P \times T N - F N \times F P)}{(T P + F P) \times (F P + T N) + (T P + F N) \times (F N + T N)}$

onde TP são os verdadeiros positivos, FP são os falsos positivos, TN são os verdadeiros negativos e FN são os falsos negativos. Neste caso, o Kappa de Cohen é equivalente à pontuação de habilidade de Heidke conhecida na meteorologia. ^[7] A medida foi introduzida pela primeira vez por Myrick Haskell Doolittle em 1888. ^[8]

Propriedades

Teste de hipóteses e intervalo de confiança

O valor-p para kappa raramente é relatado, provavelmente porque mesmo valores relativamente baixos de kappa podem ser significativamente diferentes de zero, mas não de magnitude suficiente para satisfazer os investigadores. ^[9] Ainda assim, seu erro padrão foi descrito ^[10] e é calculado por vários programas de computador. ^[11]

Interpretando a magnitude

Se a significância estatística não for um guia útil, que magnitude de kappa reflete uma concordância adequada? Diretrizes seriam úteis, mas outros fatores além do acordo podem influenciar sua magnitude, o que torna problemática a interpretação de uma determinada magnitude. Como Sim e Wright observaram, dois fatores importantes são prevalência (os códigos são equiprováveis ou suas probabilidades variam) e viés (são as probabilidades marginais para os dois observadores semelhantes ou diferentes). Outras coisas sendo iguais, os kappas são maiores quando os códigos são equiprováveis. Por outro lado, os Kappas são maiores quando os códigos são distribuídos assimetricamente pelos dois observadores. Em contraste com as variações de probabilidade, o efeito do viés é maior quando Kappa é pequeno do que quando é grande. ^[12]

Veja também

Bibliografia

Referências

[Mary2012-1] Predefinição:Citar periódico

[2] Galton, F. (1892) Finger Prints Macmillan, London.

[3] Predefinição:Citar periódico

[4] Predefinição:Citar periódico

[5] Predefinição:Citar periódico

[6] Predefinição:Citar periódico

[7] Predefinição:Citar periódico

[8] Predefinição:Citar livro

[BakemanGottman1997-9] Predefinição:Citar livro

[FleissCohenEv1969-10] Predefinição:Citar periódico

[BakemanRobinson1998-11] Predefinição:Citar periódico

[SimWright2005-12] Predefinição:Citar periódico

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Kappa de Cohen

Índice

História

Definição

Matriz de confusão de classificação binária

Propriedades

Teste de hipóteses e intervalo de confiança

Interpretando a magnitude

Veja também

Bibliografia

Referências

Menu de navegação

Kappa de Cohen

História

Definição

Matriz de confusão de classificação binária

Propriedades

Teste de hipóteses e intervalo de confiança

Interpretando a magnitude

Veja também

Bibliografia

Referências

Menu de navegação

Pesquisa