Kappa de Cohen

Fonte: testwiki
Revisão em 05h02min de 27 de dezembro de 2022 por imported>Alch Bot (Robô: Alteração da categoria redirecionada Estatísticas para Estatística)
(dif) ← Revisão anterior | Revisão atual (dif) | Revisão seguinte → (dif)
Saltar para a navegação Saltar para a pesquisa

O coeficiente kappa de Cohen (κ) é uma estatística que é usada para medir a confiabilidade interexaminador (e também a confiabilidade intraexaminador) para itens qualitativos (categóricos).[1] Geralmente é considerada uma medida mais robusta do que o simples cálculo percentual de concordância, pois κ leva em consideração a possibilidade de a concordância ocorrer por acaso. Há controvérsia em torno do kappa de Cohen devido à dificuldade em interpretar os índices de concordância. Alguns pesquisadores sugeriram que é conceitualmente mais simples avaliar a discordância entre os itens.

História

A primeira menção de uma estatística semelhante ao kappa é atribuída a Galton (1892). [2][3]

O artigo seminal introduzindo o kappa como uma nova técnica foi publicado por Jacob Cohen na revista Educational and Psychological Measurement em 1960. [4]

Definição

O kappa de Cohen mede a concordância entre dois avaliadores que classificam N itens em C categorias mutuamente exclusivas. A definição de κ é

κpope1pe=11po1pe,

onde Predefinição:Mvar é a concordância relativa observada entre os avaliadores e Predefinição:Mvar é a probabilidade hipotética de concordância ao acaso, usando os dados observados para calcular as probabilidades de cada observador ver aleatoriamente cada categoria. Se os avaliadores estiverem de acordo, então κ=1. Se não houver acordo entre os avaliadores além do que seria esperado por acaso (conforme dado por Predefinição:Mvar), κ=0. É possível que a estatística seja negativa, [5] o que pode ocorrer por acaso se não houver relação entre as avaliações dos dois avaliadores, ou pode refletir uma tendência real dos avaliadores em dar avaliações diferentes.

Para Predefinição:Mvar categorias, Predefinição:Mvar observações para categorizar e nki o número de vezes que o avaliador Predefinição:Mvar previu a categoria Predefinição:Mvar:

pe=1N2knk1nk2

Isso é derivado da seguinte equação:

pe=kpk12^=kpk1^pk2^=knk1Nnk2N=1N2knk1nk2

Onde pk12^ é a probabilidade estimada de que tanto o avaliador 1 quanto o avaliador 2 classificarão o mesmo item como k, enquanto pk1^ é a probabilidade estimada de que o avaliador 1 classificará um item como k (e similarmente para o avaliador 2). A relação pk^=kpk1^pk2^ baseia-se na suposição de que a classificação dos dois avaliadores é independente. O termo pk1^ é estimado usando o número de itens classificados como k pelo avaliador 1 (nk1) dividido pelo total de itens a classificar (N): pk1^=nk1N (e da mesma forma para o avaliador 2).

Matriz de confusão de classificação binária

Na tradicional matriz de confusão 2 × 2 empregada em aprendizado de máquina e estatística para avaliar classificações binárias, a fórmula Kappa de Cohen pode ser escrita como: [6]

κ=2×(TP×TNFN×FP)(TP+FP)×(FP+TN)+(TP+FN)×(FN+TN)

onde TP são os verdadeiros positivos, FP são os falsos positivos, TN são os verdadeiros negativos e FN são os falsos negativos. Neste caso, o Kappa de Cohen é equivalente à pontuação de habilidade de Heidke conhecida na meteorologia. [7] A medida foi introduzida pela primeira vez por Myrick Haskell Doolittle em 1888. [8]

Propriedades

Teste de hipóteses e intervalo de confiança

O valor-p para kappa raramente é relatado, provavelmente porque mesmo valores relativamente baixos de kappa podem ser significativamente diferentes de zero, mas não de magnitude suficiente para satisfazer os investigadores. [9] Ainda assim, seu erro padrão foi descrito [10] e é calculado por vários programas de computador. [11]

Interpretando a magnitude

Se a significância estatística não for um guia útil, que magnitude de kappa reflete uma concordância adequada? Diretrizes seriam úteis, mas outros fatores além do acordo podem influenciar sua magnitude, o que torna problemática a interpretação de uma determinada magnitude. Como Sim e Wright observaram, dois fatores importantes são prevalência (os códigos são equiprováveis ou suas probabilidades variam) e viés (são as probabilidades marginais para os dois observadores semelhantes ou diferentes). Outras coisas sendo iguais, os kappas são maiores quando os códigos são equiprováveis. Por outro lado, os Kappas são maiores quando os códigos são distribuídos assimetricamente pelos dois observadores. Em contraste com as variações de probabilidade, o efeito do viés é maior quando Kappa é pequeno do que quando é grande. [12]

Veja também

Bibliografia

Referências