Teste do sinal

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Estatística sidebar O teste do sinal é um método estatístico para testar diferenças consistentes entre pares de observações, tal como o peso dos sujeitos antes e depois do tratamento. Dados os pares de observações (tal como peso pré e pós-tratamento) para cada sujeito, o teste do sinal determina se um membro do par (tal como o peso pré-tratamento) tende a ser maior do que (ou menor do que) o outro membro do par (tal como o peso pós-tratamento).

As observações pareadas podem ser designadas como x e y. Para comparações de observações pareadas (x,y), o teste do sinal é mais útil se as comparações puderem ser expressas apenas como x>y, x=y ou x<y. Se, em vez disto, as observações puderem ser expressas como quantidades numéricas (x=7, y=18) ou como postos (posto de x=1º, posto de y=8º), então, o teste t de Student[1] pareado ou teste de postos sinalizados de Wilcoxon[2] geralmente serão mais adequados do que o teste do sinal para detectar diferenças consistentes.

Se X e Y forem variáveis quantitativas, o teste do sinal pode ser usado para testar a hipótese de que a diferença entre X e Y tem mediana zero, pressupondo distribuições contínuas das duas variáveis aleatórias X e Y, na situação em que podemos obter amostras pareadas a partir de X e Y.[3]

O teste do sinal também pode testar se a mediana de uma coleção de números é significantemente maior ou menor que um valor especificado. Por exemplo, dada uma ista de notas de alunos em uma sala, o teste do sinal pode determinar se a mediada das notas é significantemente diferentes de, por exemplo, 75 de 100.

O teste do sinal é um teste não paramétrico que faz poucas pressuposições sobre a natureza das distribuições sob o teste – isto significa que ele tem uma aplicabilidade muito generalizada, mas pode não ter a potência estatística de testes alternativos.

As duas condições para o teste do sinal de amostra pareada são que a amostra deve ser aleatoriamente selecionada a partir de cada população e que as amostras devem ser dependentes ou pareadas. Amostras independentes não podem ser significantemente pareadas. Já que o teste é não paramétrico, as amostras não precisam vir de populações normalmente distribuídas. Além disto, o teste funciona para testes com cauda à esquerda, cauda à direita e bicaudais.[4]

Método

Considere p=Pr(X>Y) e então teste a hipótese nula H0:p=0,50. Em outras palavras, a hipótese nula afirma que, dado um par aleatório de medidas (xi,yi), é igualmente provável que xi e yi sejam uma maior que a outra.

Para testar a hipótese nula, os pares independentes de dados amostrais são coletados a partir das populações {(x1,y1),(x2,y2),...,(xn,yn)}. Pares para os quais não há nenhuma diferença são omitidos de modo que haja a possibilidade de uma amostra reduzida de pares m.

Então, considere W. o número de pares para os quais yixi>0. Pressupondo que H0 é verdadeira, então, W segue uma distribuição binomial Wb(m;0,5).[5]

Pressupostos

Considere Zi=XiYi para i=1,...,n.

  1. Pressupõe-se que as diferenças Zi são independentes.
  2. Cada Zi vem da mesma população contínua.
  3. Os valores que Xi e Yi representam são ordenados (pelo menos na escala ordinal), de modo que as comparações "maior que", "menor que" e "igual a" tenham sentido.[5]

Teste de significância

Já que se espera que a estatística do teste siga uma distribuição binomial, o teste binomial padrão é usado para calcular a significância. A aproximação normal à distribuição binomial pode ser usada para amostras grandes com m>25.[6]

O valor da cauda à esquerda é computado por Pr(Ww), que é o valor-p para a alternativa H1:p<0,5. Esta alternativa significa que as medidas de X tendem a ser maiores.

O valor da cauda à direita é computado por Pr(Ww), que é o valor-p para a alternativa H1:p>0,5. Esta alternativa significa que as medidas de Y tendem a ser maiores.

Para uma alternativa bicaudal H1, o valor-p é o dobro do menor valor de cauda.

Exemplo de teste do sinal bilateral para pares emparelhados

Jerold H. Zar dá o seguindo exemplo de teste de sinal para pares emparelhados. Os dados coletados dizem respeito ao comprimento da pata esquerda traseira e da pata esquerda dianteira de 10 cervos.[7]

Cervo Comprimento da pata traseira (cm) Comprimento da pata dianteira (cm) Diferença
1 142 138 +
2 140 136 +
3 144 147
4 144 139 +
5 142 143
6 146 141 +
7 149 143 +
8 150 145 +
9 142 136 +
10 148 146 +

A hipótese nula é que não há diferença entre os comprimentos da pata traseira e da pata dianteira do cervo. A hipótese alternativa é que há uma diferença entre os comprimentos da pata traseira e da pata dianteira. Note que este é um teste bicaudal. Para o teste bicaudal. a hipótese alternativa é de que o comprimento da pata traseira pode ser maior ou menor do que pata dianteira. Um teste monocaudal poderia avaliar se o comprimento da pata traseira é maior do que o da pata dianteira, de modo que a diferença só pode ser em uma direção (maior que).

Há 10 cervos. Há 8 diferenças positivas e 2 diferenças negativas. Se a hipótese nula for verdadeira, ou seja, não houver diferença entre os comprimentos da pata traseira e da pata dianteira, então, o número esperado de diferenças positivas é 5 de 10. Qual é a probabilidade de que o resultado observado de 8 diferenças positivas ou um resultado mais extremo ocorra se não houver diferença nos comprimentos das patas?

Já que o teste é bilateral, um resultado igualmente ou mais extremo que 8 diferenças positivas inclui os resultados de 8, 9 ou 10 diferenças positivas e os resultados de 0, 1 ou 2 diferenças positivas. A probabilidade de 8 ou mais diferenças positivas entre 10 cervos ou 2 ou menos diferenças positivas entre 10 cervos é igual à probabilidade 8 ou mais caras ou 2 ou menos caras em dez jogos de cara ou coroa com uma moeda justa. As probabilidades podem ser calculadas usando o teste binomial, com a probabilidade de caras e de coroas iguais a 0,5.

  • Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
  • Probabilidade de 1 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 2 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
  • Probabilidade de 8 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
  • Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.

A probabilidade bilateral de um resultado tão extremo quanto 8 de 10 diferenças positivas é a soma destas probabilidades:

0,00098+0,00977+0,04395+0,04395+0,00977+0,00098=0,109375.

Assim, a probabilidade de observar resultados tão extremos como 8 de 10 diferenças positivas nos comprimentos das patas, se não houver diferença nos comprimentos das patas, é

p=0,109375

. A hipótese nula não é rejeitada ao nível de significância de

p=0,05

. Como uma amostra de tamanho maior, a evidência pode ser suficiente para rejeitar a hipótese nula.

Já que as observações podem ser expressas como quantidades numéricas (comprimento real da pata), o teste t pareado ou o teste de postos sinalizados de Wilcoxon terão geralmente maior potência do que o teste do sinal para detectar diferenças consistentes. Para este exemplo, o teste t pareado para diferenças indica que há uma diferença significante entre o comprimento da pata traseira e o comprimento da pata dianteira (p=0,007).

Se o resultado observado fosse 9 diferenças positivas em 10 comparações, o teste do sinal pode ser significante. Apenas jogos de cara ou coroa com 0, 1, 9 ou 10 seriam igualmente ou mais extremos que o resultado observado.

  • Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
  • Probabilidade de 1 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00977.
  • Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00098.

A probabilidade de um resultado tão extremo quanto 9 ou 10 diferenças positivas é igual à soma destas probabilidades:

0,00098+0,00977+0,00977+0,00098=0,0215.

Em geral, 8 de 10 diferenças positivas não é significante (

p=0,11

), mas 9 de 10 diferenças positivas é significante (

p=0,0215

).

Exemplo de teste do sinal unilateral para pares emparelhados

W. J. Conover dá o seguinte exemplo usando um teste do sinal unilateral para pares emparelhados.[8] Um fabricante faz dois produtos, A e B. O fabricante deseja saber se os consumidores preferem o produto B ao produto A. Em uma amostra de 10 consumidores, cada um recebe um produto A e um produto B e diz qual produto prefere.

A hipótese nula é que os consumidores não preferem o produto B ao produto A. A hipótese alternativa é que os consumidores preferem o produto B ao produto A. Note que este é um teste unilateral, ou seja, com uma única direção.

No fim do estudo, 8 consumidores preferiram o produto B, 1 consumidor preferiu o produto A e um consumidor disse não ter preferência.

  • Número de casos positivos (que preferiram B) = 8.
  • Número de casos negativos (que preferiram A) = 1.
  • Número de empates (nenhuma preferência) = 1.

O empate é excluído da análise, o que torna n, o número de casos positivos e negativos, igual a 9,

Qual é a probabilidade de um resultado tão extremo quanto 8 positivos em favor de B em 9 pares, sendo que a hipótese nula diz que os consumidores não preferem B a A? Isto é igual à probabilidade 8 ou mais caras em 9 jogos de cara ou coroa com uma moeda justa e pode ser calculado usando a distribuição binomial com a probabilidade de caras e a probabilidade de coroas iguais a 0,5.

A probabilidade de 8 ou 9 caras em 9 jogos de cara ou coroa com uma moeda justa é igual a 0,0195. A hipótese nula é rejeitada e o operário conclui que os consumidores preferem o produto B ao produto A.

Exemplo de teste do sinal para mediana de uma única amostra

P. Sprent dá o seguinte exemplo de um teste do sinal para uma mediana.[9] Em um ensaio clínico, o tempo de sobrevivência (em semanas) é coletado para 10 sujeitos com linfoma não Hodgkin. O tempo de sobrevivência exato não é conhecido para um sujeito que ainda estava vivo 362 semanas depois, quando o estudo terminou. Os tempos de sobrevivência dos sujeitos foram:Predefinição:QuoteO sinal de mais indica o sujeito ainda vivo no fim do estudo. O pesquisador desejava determina se a mediana do tempo de sobrevivência era menor ou maior que 200 semanas.

A hipótese nula é que a mediana da sobrevivência é igual a 200 semanas. A hipótese alternativa é que a mediana da sobrevivência não é 200 semanas. Nota que este é um teste bilateral: a hipótese alternativa é que a mediana pode ser maior ou menor que 200 semanas.

Se a hipótese nula for verdadeira, ou seja, a mediana da sobrevivência for igual a 200 semanas, então, em uma amostra aleatória, aproximadamente metade dos sujeitos deve sobreviver menos de 200 semanas e aproximadamente metade deve sobreviver mais de 200 semanas. Observações abaixo de 200 recebem um sinal de menos (-); observações acima de 200 recebem um sinal de mais (+). Para os tempos de sobrevivência dos sujeitos, há 7 observações abaixo de 200 semanas (-) e 3 observações acima de 200 semanas (+) para a amostra com 10 sujeitos.

Já que qualquer observação tem a mesma probabilidade de estar acima ou abaixo da mediana da população, o número de observações acima de 200 terá uma distribuição binomial com média igual a 0,5. Qual é a probabilidade de um resultado tão extremo quanto 7 em 10 sujeitos com tempos de sobrevivência abaixo da mediana? Isto é exatamente igual à probabilidade de um resultado tão extremo quanto 7 caras em 10 jogos de cara ou coroa com uma moeda justa. Já que este é um teste bilateral, um resultado extremo pode ser tanto três caras ou menos ou sete caras ou menos.

A probabilidade de observar

k

caras em 10 jogos de cara ou coroa, sendo

p(caras)=0,5

é dada pela fórmula binomial:

Pr(nu´mero de caras=k)=(10k)×0,510

A probabilidade para cada valor de

k

é dada na tabela abaixo:

k 0 1 2 3 4 5 6 7 8 9 10
Pr 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010

A probabilidade de 0, 1, 2, 3, 7, 8, 9 ou 10 caras em 10 jogos é igual à soma de suas probabilidades individuais:

0,0010+0,0098+0,0439+0,1172+0,1172+0,0439+0,0098+0,0010=0,3438.

Assim, a probabilidade de observar 3 ou menos sinais de mais ou 7 ou mais sinais de mais nos dados de sobrevivência, se a mediana da sobrevivência for igual a 200 semanas, é 0,3438. O número esperado de sinais de mais é igual a 5 se a hipótese nula for verdadeira. Observar 3 ou menos ou 7 ou mais sinais de mais não é significantemente diferente de 5. A hipótese nula não é rejeitada. Devido ao seu tamanho extremamente reduzido, esta amostra tem pouca potência para detectar uma diferença.

História

W. J. Conover e P. Sprent descrevem o uso de teste do sinal por John Arbuthnot em 1710.[8][9] Arbuthnot examinou certidões de nascimento em Londres para cada um dos 82 anos entre 1629 e 1710. Em todo ano, o número de homens nascidos em Londres superou o número de mulheres. Se a hipótese nula de números iguais de nascimentos de cada sexo for verdadeira, a probabilidade da observação esperada é 0,582, o que levou Arbuthnot a concluir que as probabilidades de nascimentos de homens e de mulheres não eram exatamente iguais.

Por suas publicações em 1692 e 1710, Arbuthnot é creditado pelo "primeiro uso de testes de significância",[10] pelo primeiro exemplo de raciocínio sobre significância estatística e certeza moral[11] e "talvez pelo primeiro relatório publicado com um teste não paramétrico".[8]

Anders Hald descreveu posteriormente o impacto da pesquisa de Arbuthnot da seguinte forma: "Entre 1710 e 1713, Nicholas Bernoulli completou a análise dos dados de Arbuthnot mostrando que a maior parte da variação do número anual de nascimentos de homens pode ser explicada como binomial com p=18/35. Este é o primeiro exemplo de ajuste de uma binomial a dados. Assim, temos aqui um teste de significância que rejeita a hipótese p=0,5 seguido pela estimativa de p e por uma discussão sobre qualidade do ajuste."[11]

Relação com outros testes estatísticos

Teste de postos sinalizados de Wilcoxon

O teste do sinal exige apenas que as observações em um par estejam ordenadas, por exemplo, x>y. Em alguns casos, pode-se atribuir um valor de posto às observações para todos os sujeitos (1, 2, 3, ...). Se as observações puderem ser ranqueadas e cada observação em um par for uma amostra aleatória a partir de uma distribuição simétrica, então, o teste de postos sinalizados de Wilcoxon é apropriado. O teste de Wilcoxon geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparado ao teste de postos sinalizados de Wilcoxon, sob estas circunstâncias, é igual a 0,67.[8][12]

Teste t pareado

Se as observações pareadas forem quantidades numéricas (tais como os comprimentos reais da pata traseira e da pata dianteira no exemplo acima) e as diferenças entre as observações pareadas forem amostras aleatórias a partir de uma única distribuição normal, entao, o teste t pareado é apropriado. O teste t pareado geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparada ao teste t pareado, sob estas circunstâncias, é igual a 0,637. Entretanto, se a distribuição das diferenças entre os pares não for normal, mas, em vez disso, tiver uma curtose muito baixo (distribuição platicúrtica), o teste do sinal pode ter maior potência do que o teste t pareado, como eficiência relativa assintótica igual a 2 comparado ao teste t pareado e igual a 1,3 comparado o teste do posto sinalizado de Wilcoxon.[8][12]

Teste de McNemar

Em algumas aplicações, as observações no interior de cada par podem apenas assumir os valores 0 ou 1. Por exemplo, 0 pode indicar fracasso e 1 pode indicar sucesso. Há quatro pares possíveis: {0,0}, {0,1}, {1,0}, {1,1}. Nestes casos, o mesmo procedimento do teste do sinal é usado, mas é conhecido como teste de McNemar.[8]

Teste de Friedman

Em vez de observações pareadas tais como (Produto A,Produto B), os dados podem consistir em três ou mais níveis, como (Produto A,Produto B,Produto C). Se as observações individuais puderem ser ordenadas de forma igual à do teste do sinal, por exemplo, B>C>A, então, o teste de Friedman pode ser usado.[7]

Ver também

Referências

Predefinição:Reflist

Predefinição:Estatística Predefinição:Portal3