Testes de hipóteses

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Estatística sidebar Predefinição:Wikipédia audível Teste de hipóteses, teste estatístico ou teste de significância[1] é um procedimento estatístico que permite tomar uma decisão (rejeitar ou não a hipótese nula H0) entre duas ou mais hipóteses (hipótese nula H0 ou hipótese alternativa H1), utilizando os dados observados de um determinado experimento.[2] Há diversos métodos para realizar o teste de hipóteses, dos quais se destacam o método de Fisher (teste de significância),[3] o método de Neyman–Pearson[4] e o método de Bayes.[5]

Por meio da teoria da probabilidade, é possível inferir sobre quantidades de interesse de uma população a partir de uma amostra observada de um experimento científico. Por exemplo, estimar pontualmente e de forma intervalar um parâmetro de interesse, testar se uma determinada teoria científica deve ser descartada, verificar se um lote de remédios deve ser devolvido por falta de qualidade, entre outros. Por meio do rigor matemático, a inferência estatística pode ser utilizada para auxiliar a tomada de decisões nas mais variadas áreas.[6]

Os testes de hipóteses são utilizados para determinar quais resultados de um estudo científico podem levar à rejeição da hipótese nula H0 a um nível de significância pré–estabelecido. O estudo da teoria das probabilidades e a determinação da estatística de teste correta são fundamentais para a coerência de um teste de hipótese. Se as hipóteses do teste de hipóteses não forem assumidas de maneira correta, o resultado será incorreto e a informação será incoerente com a questão do estudo científico. Os tipos conceituais de erro (erro do tipo I e erro do tipo II) e os limites paramétricos ajudam a distinguir entre a hipótese nula H0 e a hipótese alternativa H1.[7]

São fundamentais os seguintes conceitos para um teste de hipóteses:[7]

  • Hipótese nula (H0): é a hipótese assumida como verdadeira para a construção do teste. É a teoria, o efeito ou a alternativa que se está interessado em testar.
  • Hipótese alternativa (H1): é considerada quando a hipótese nula não tem evidência estatística.
  • Erro do tipo I (α): é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira.
  • Erro do tipo II: é a probabilidade de se rejeitar a hipótese alternativa quando ela é verdadeira.
Hipótese nula H0 é verdadeira Hipótese nula H0 é falsa
Hipótese nula H0 é rejeitada Erro do tipo I Não há erro
Hipótese nula H0 não é rejeitada Não há erro Erro do tipo II

Origens

O teste de significância é, em grande parte, um produto de Karl Pearson (p–valor e teste qui quadrado de Pearson), William Sealy Gosset (distribuição t de Student) e Ronald Fisher (hipótese nula, análise de variância e teste de significância), enquanto o teste de hipóteses foi desenvolvido por Jerzy Neyman e Egon Pearson (filho do próprio Karl Pearson). Ronald Fisher começou sua vida na estatística na área bayesiana, mas logo se desencantou com a subjetividade envolvida (ou seja, o uso do princípio da indiferença para determinar as probabilidades anteriores) e procurou fornecer uma abordagem mais objetiva da inferência.[8]

Fisher foi um estatístico agrícola que enfatizava o desenho experimental rigoroso e o método para extrair resultado de algumas amostras assumindo as distribuições gaussianas. Neyman enfatizou o rigor matemático e os métodos para obter mais resultados a partir de muitas amostras e uma maior variação de distribuições. Embora os testes de hipóteses modernos tenham sido popularizados no início no século XX, evidências do seu uso podem ser encontradas muito antes. Nos anos 1770, Laplace considerou a estatística de quase meio milhão de nascimentos para mostrar o maior número de meninos em comparação com as meninas.[9] Ele concluiu pelo cálculo do p–valor que o excesso era real, mas inexplicado.[10] Fisher popularizou o teste de significância. Ele exigiu a hipótese nula (correspondente à distribuição da frequência da população) e uma amostra. Seus cálculos determinaram se uma hipótese nula deveria ou não ser rejeitada. O teste de significância não utilizou hipótese alternativa. Então, não havia o conceito erro do tipo II.[11] O p–valor foi concebido como um índice informal (mas objetivo) para ajudar um pesquisador a determinar (com base em outros conhecimentos) se é preciso modificar os experimentos futuros ou fortalecer a crença na hipótese nula.[12]

Os conceitos de "teste de hipóteses", "erro do tipo I" e "erro do tipo II" foram concebidos por Neyman e Pearson como uma alternativa mais objetiva ao p–valor de Fisher para determinar o comportamento do pesquisador sem requerer qualquer inferência indutiva da parte dele.[13][14] Neyman e Pearson consideraram um problema diferente, o qual chamaram de teste de hipóteses. Fisher e Neyman e Pearson entraram em choque. Neyman e Pearson consideravam sua formulação uma generalização melhorada do teste de significância. Entretanto, seu artigo principal On the Problem of the Most Efficient Tests of Statistical Hypotheses era considerado abstrato.[13] Os matemáticos têm generalizado e refinado essa teoria há décadas.[15] Fisher pensou que isso não era aplicável à pesquisa científica porque geralmente, durante o curso do experimento, descobre–se que as afirmações iniciais sobre a hipótese nula são questionáveis devido às fontes inesperadas de erro. Fisher acreditava que o uso de decisões rígidas para rejeição ou aceitação baseada em modelos formulados antes da coleta de dados era incompatível com este cenário comum enfrentado pelos cientistas e as tentativas para aplicar este método à pesquisa científica poderia provocar uma confusão geral.[16] A disputa entre Fisher e Neyman e Pearson foi travada em bases filosóficas, podendo ser caracterizada como uma disputa sobre o papel apropriado dos modelos na inferência estatística.[17]

Neyman aceitou um cargo no Ocidente, rompendo sua parceria com Pearson. A Segunda Guerra Mundial também interrompeu o debate. A disputa entre Fisher e Neyman terminou sem resolução depois de 27 anos com o falecimento de Fisher em 1962. Neyman escreveu um respeitoso elogio ao estatístico.[18] Posteriormente algumas das publicações de Neyman reportaram p–valores e níveis de significância.[19]

Visão moderna

A visão moderna de teste de hipóteses é um híbrido de duas abordagens que resultou da confusão entre autores de livros estatísticos (como previsto por Fisher), começando nos anos 1940.[20] Por exemplo, detecção de sinal ainda usa a formulação de Neyman e Pearson. Grandes diferenças conceituais e muitas advertências, além das mencionadas acima, foram ignoradas. Neyman e Pearson forneceram a terminologia mais forte, a matemática mais rigorosa e a filosofia mais consistente, mas o conteúdo ensinado atualmente em estatística introdutória tem mais similaridades com o método de Fisher que com o método de Neyman e Pearson. Esta história explica a mistura presente da terminologia. Por exemplo, a hipótese nula nunca é aceita, mas pode ser não rejeitada, porém tem uma região de aceitação.[21]

Por volta de 1940, os autores de livros estatísticos começaram a combinar estas duas estratégias anonimamente, usando o p–valor no lugar do teste estatístico para testar contra o nível de significância de Neyman e Pearson.[20] Portanto, os pesquisadores eram encorajados a inferir a força dos seus dados contra algumas hipóteses nulas, usando p–valores, enquanto eles também pensavam que estavam mantendo a objetividade pós coleta de dados fornecida pelo teste de hipóteses. Em seguida, isto se tornou usual para a hipótese nula, que era originalmente uma hipótese de pesquisa realista, que seria usada quase que exclusivamente como a hipótese para a qual o tratamento não tem efeito, independentemente do contexto.[22]

Bayes não viveu na mesma época que Fisher, Neyman e Pearson, mas a teoria bayesiana também tem sido utilizada no contexto de tomadas de decisão. Por exemplo, na medicina.[23][24]

Escolha da hipótese nula

Paul Meehl argumenta que a importância epistemológica da escolha da hipótese nula não foi reconhecida. Quando a hipótese nula é prevista pela teoria, um experimento mais preciso é um teste mais severo da teoria subjacente. Quando a hipótese nula é sem diferença ou sem efeito, um experimento mais preciso é um teste menos severo da teoria que motivou a realização da experiência.[25]

Os exemplos de escolha da hipótese nula incluem:

1778 – Pierre Laplace compara as taxas de nascimento de meninos e meninas em várias cidades europeias. Laplace afirma que é natural concluir que estas possibilidades estão quase na mesma proporção. Portanto, a hipótese nula de Laplace é que as taxas de nascimento de meninos e meninas devem ser iguais dada a sabedoria convencional.[9]

1900 – Karl Pearson desenvolve o teste qui quadrado para determinar se uma dada forma da curva de frequência descreverá eficientemente as amostras desenhadas a partir de dada população. Portanto, a hipótese nula é que a população é descrita por tal curva de frequência. Pearson usa um exemplo da quantidade de 5 e 6 nos dados do lançamento de dados de Weldon.[26]

1904 – Karl Pearson desenvolve o conceito de contingência para determinar se os resultados são independentes de um dado fator categórico. A hipótese nula é que duas coisas não estão relacionadas (por exemplo, formação de cicatrizes e taxas de morte por varíola).[27] Neste caso, a hipótese nula não é mais prevista pela teoria ou pela sabedoria convencional. Em vez disto, ela é prevista pelo princípio da indiferença que levou Fisher e outros a descartar o uso de probabilidades inversas.[28]

Variações

Embora a inferência frequentista e a inferência bayesiana tenham diferenças notáveis, o teste de hipóteses é um princípio fundamental de ambos os métodos. Os testes de hipótese definem um procedimento que controla (corrige) a probabilidade de se rejeitar a hipótese nula incorretamente. O procedimento baseia–se na probabilidade de ocorrer um conjunto de observações se a hipótese nula for verdadeira. Esta probabilidade de tomar uma decisão incorreta não é a probabilidade de a hipótese nula ser verdadeira, nem mesmo se qualquer hipótese alternativa for verdadeira. Isto contrasta com outras possíveis técnicas da teoria da decisão, em que hipótese nula e hipótese alternativa são tratadas em uma base mais igualitária.[29]

Uma abordagem bayesiana ingênua para o teste de hipóteses é basear as decisões na probabilidade a posteriori, mas isto falha quando as hipóteses pontuais e contínuas são comparadas.[30][31] Outras abordagens para a tomada de decisão como a teoria da decisão bayesiana tentam equilibrar as consequências das decisões incorretas dentre todas as possibilidades ao invés de se concentrarem em uma única hipótese nula. Uma série de outras abordagens para a tomada de decisão com base em dados estão disponíveis por meio da teoria da decisão e da decisão ótima, algumas das quais possuem propriedades desejáveis. Entretanto, o teste de hipóteses é uma abordagem dominante na análise de dados em muitos campos da ciência. As extensões dos testes de hipóteses incluem o estudo do poder dos testes de hipótese. Isto é, a probabilidade de se rejeitar a hipótese nula corretamente. Estas considerações podem ser usadas para determinar o tamanho da amostra antes da coleta de dados.[32]

Procedimentos para o teste de hipóteses

Relação entre os erros do tipo I e do tipo II associados às distribuições das hipóteses nula e alternativa.

Teste de hipóteses usando região crítica

É possível adotar o seguinte procedimento ao estabelecer o teste de hipóteses:[33]

  1. Escolher a hipótese nula e a hipótese alternativa com base no problema.
  2. Estabelecer a estimativa de teste (média, desvio padrão, distribuição) para testar a hipótese nula a partir da teoria estatística e das informações disponíveis no problema.
  3. Determinar um valor para o erro do tipo I (nível de significância). Os valores comuns são 5% e 1%. Construir a região crítica com o valor do erro do tipo I, os parâmetros os quais deseja–se testar e os parâmetros obtidos do problema (a região crítica determinará se a hipótese nula será ou não será rejeitada).
  4. Retirar uma amostra da população. Fazer os cálculos para determinar o valor da estimativa de teste a partir das observações da amostra da população. Geralmente as observações seguem uma distribuição normal (estatística de teste Z) ou uma distribuição t de Student (estatística de teste t).
  5. Se o valor da estatística (por exemplo, de teste Z ou de teste t) pertencer à região crítica definida pelo nível de significância, rejeitar a hipótese nula. Em caso contrário, não rejeitar a hipótese nula.
  6. Para os casos em que não for possível rejeitar a hipótese nula, o procedimento pode ser repetido com diferentes valores para o nível de significância para dar maior precisão à decisão pelo cálculo da região crítica e da estatística de teste.

Teste de hipóteses usando p–valor

Há um caminho mais rápido para o teste de hipótese. Em vez de se construir uma região crítica, calcula–se diretamente o p–valor. O p–valor é uma estatística muito usada para sintetizar o resultado de um teste de hipóteses. Formalmente, o p–valor é definido como a probabilidade de obter–se uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população assumindo–se a hipótese nula como verdadeira. Na literatura, o p–valor também é chamado de probabilidade de significância.[34]

  1. Calcular a estatística de teste (por exemplo, de teste Z ou de teste t) a partir das observações.
  2. Calcular o p–valor.
  3. Rejeitar a hipótese nula, se e somente se o p–valor for menor que o nível de significância pré–estabelecido.

Equivalência

Testes de hipótese via região crítica ou p-valor são equivalentes. O primeiro procedimento era mais vantajoso no passado, quando tabelas de estatísticas de teste, com os limiares de probabilidade das distribuições mais comuns, eram mais facilmente acessíveis que recursos computacionais. Essas tabelas permitiam que decisões fossem tomadas sem cálculos mais complexos de probabilidade; o que era adequado para uso operacional ou em sala de aula, mas deficiente para a demonstração de resultados. O segundo procedimento é acessível por tabelas mais extensas ou por suporte computacional, nem sempre disponíveis. Hoje, os cálculos de probabilidade, úteis para a elaboração de relatórios, são trivialmente realizados com os softwares apropriados.[35]

Os procedimentos descritos são perfeitamente adequados para a computação. Eles negligenciam o projeto de considerações dos experimentos. É particularmente crítico que tamanhos apropriados de amostras sejam estimados antes da realização do experimento.[36][37]

Interpretação

Se o p–valor for menor que o nível de significância determinado ou se a estatística de teste observada estiver dentro da região crítica, então a hipótese nula é rejeitada. Há uma conclusão. No exemplo do julgamento no tribunal, seria como se as evidências fossem suficientes para rejeitar a inocência e aceitar a culpa do réu. Se o p–valor não for menor que o nível de significância determinado (se a estatística de teste observada estiver fora da região crítica), então o teste não tem resultado. Não há uma conclusão. Isto seria como se o juri não conseguisse chegar a um veredicto.[38] O pesquisador geralmente apresenta considerações adicionais nos casos em que o p–valor é próximo do nível de significância. Há algumas pessoas que acham útil pensar a estrutura do teste de hipóteses como análoga à prova matemática por contradição.[39]

É importante notar a diferença entre aceitar a hipótese nula e simplesmente falhar em rejeita–la.[40] O termo falhar em rejeitar destaca que a hipótese nula é assumida como verdadeira desde o início do teste. Se há falta de evidências, a hipótese nula simplesmente continua a ser assumida como verdadeira. O termo aceitar a hipótese nula pode sugerir que a hipótese nula foi provada simplesmente por não ter sido refutada, uma falácia lógica conhecida como argumento da ignorância.[41][42] A menos que um teste com poder particularmente alto seja usado, a ideia de aceitar a hipótese nula pode ser perigosa. Entretanto, o termo prevalece em toda a estatística em que o significado realmente pretendido é bem compreendido.[43]

Se a rejeição da hipótese nula justifica verdadeiramente a aceitação da hipótese de pesquisa, isso depende da estrutura da hipótese. Por exemplo, rejeitar a hipótese de que a pegada de uma grande pata originou–se de um urso não significa aceitar imediatamente a existência do pé grande. Os testes de hipótese enfatizam a rejeição, que é baseada na probabilidade em vez da aceitação. Isso requer mais etapas de lógica. De acordo com David Bakan, a probabilidade de rejeitar a hipótese nula é uma função de cinco fatores: se o teste tem uma ou duas caudas, o nível de significância, o desvio padrão, a quantidade da hipótese nula e o número de observações. Estes fatores são fontes de críticas, uma vez que os fatores sob controle do pesquisador confere aos resultados a aparência de subjetividade.[44]

Uso e importância

Os testes de hipóteses desempenham um papel importante em inferência estatística e em estatística como um todo. Em uma análise do artigo de Neyman e Pearson, o professor do Departamento de Estatística da Universidade da Califórnia chamado E. L. Lehmann afirma que o novo paradigma formulado no artigo de 1933 e os seus desenvolvimentos continuam a desempenhar um papel central tanto na teoria quanto na prática em estatística.[45]

As aplicações práticas do teste de hipóteses incluem:[46]

  • Testar se mais homens que mulheres sofrem com pesadelos.
  • Estabelecer autoria de documentos.
  • Avaliar o efeito da lua cheia no comportamento.
  • Determinar o intervalo no qual um morcego pode detectar um inseto pelo eco.
  • Decidir se o carpete de hospital resulta em mais infecções.
  • Selecionar os melhores meios para parar de fumar.
  • Checar se adesivos refletem no comportamento de proprietários de carros.
  • Testar as reivindicações de analistas de manuscritos.

O teste de significância é uma das ferramentas estatísticas favoritas de algumas ciências sociais experimentais (outras áreas têm favorecido a estimação de parâmetros como o tamanho de efeito), usado como substituto da comparação tradicional do valor previsto e do resultado experimental no método científico. Por exemplo, mais de 90% dos artigos do Journal of Applied Psychology no início da década de 1990.[47]

Cuidados

De acordo com David Moore, se o governo requeresse que procedimentos estatísticos apresentassem rótulos de advertência nos moldes daqueles contidos em medicamentos, a maioria dos métodos de inferência com certeza teria longos rótulos.[48] Estes cuidados aplicam–se aos testes de hipóteses e às suas alternativas. Um teste de hipóteses de sucesso está associado à probabilidade e à taxa de erro do tipo I (a conclusão de um teste de hipóteses depende da solidez da amostra). É muito importante o desenho do experimento, uma vez que efeitos inesperados podem ser observados.[49]

Estes efeitos inesperados incluem:

  • O efeito do Hans esperto, em que um cavalo parecia ser capaz de fazer aritmética simples.[50][51]
  • O efeito Hawthorne, em que trabalhadores industriais eram mais produtivos com melhor iluminação e menos produtivos com pior iluminação.[52][53]
  • O efeito placebo, em que pílulas sem componentes medicamente ativos eram notadamente eficazes.[54][55]

Uma análise estatística de dados enganosos produz conclusões enganosas. A questão da qualidade dos dados pode ser mais sutil. Em previsões, não há concordância sobre a precisão de uma medida de previsão. Na ausência de uma medida de consenso, nenhuma decisão baseada em medições será tomada sem controvérsia. Um dos livros mais populares sobre estatística, Como Mentir com Estatística, não fala muito sobre teste de hipóteses, mas chama atenção para o fato que muitas alegações são feitas com base em amostras muito pequenas para convencer (se um relatório não menciona o tamanho da amostra, é preciso duvidar dele).[56][57][58]

Os testes de hipóteses agem como um filtro das conclusões estatísticas. Apenas os resultados que atendam a um limiar de probabilidade são publicáveis. A economia também age como um filtro de publicação. Somente os resultados favoráveis ao autor e à fonte de financiamento podem ser submetidos para publicação. O impacto das filtragens nas publicações é denominado viés de publicação.[59]

Por exemplo, os testes múltiplos (às vezes relacionados à mineração de dados) podem ser um problema. Nos testes múltiplos, uma variedade de testes para possíveis efeitos são aplicados a um único conjunto de dados e somente os testes que produzem um resultado significante são relatados.[60] Estes testes muitas vezes envolvem procedimentos de correção múltiplos que controlam a taxa de erro de família (FWER) ou a taxa de falsa descoberta (FDR).[61] É prudente tomar decisões críticas com base nos resultados de testes de hipóteses, considerando os detalhes dos procedimentos em vez da conclusão por si só.[62]

Exemplos

Mala radioativa

Considere que um contador Geiger, equipamento de medição de radioatividade, é colocado próximo a uma mala e marca 10 contagens por minuto. Normalmente existe uma radioatividade natural típica do ambiente proveniente do ar e de objetos inofensivos de cerca de 9 contagens por minuto. A hipótese nula é que não há material radioativo na mala. De acordo com a distribuição de Poisson com valor esperado 9, há cerca de 41% de chance de registrar 10 contagens por minuto ou mais. Portanto, podemos dizer que a mala é compatível com a hipótese nula (isto não garante que não há material radioativo, apenas que não há evidências suficientes para sugerir isto). Por outro lado, se a radiação ambiente típica fosse de 3 contagens por minuto, então, a chance de registrar 10 contagens por minuto ou mais em uma distribuição Poisson seria de apenas 0.1%. Isso faria com que a mala não seja compatível com a hipótese nula e que provavelmente existam outros fatores responsáveis pela alta medição.

O teste não acusa diretamente a presença de material radioativo. O teste declara que a afirmação que não há presença de material radioativo é improvável. O duplo negativo (refutando a hipótese nula) do método é confuso, mas usar um contra-exemplo para refutar a hipótese nula é a prática matemática padrão.[63]

Julgamento no tribunal

O procedimento de um teste estatístico é comparável ao julgamento de um crime. O réu não é considerado culpado na medida em que sua culpa não é provada. O promotor tenta provar a culpa do réu. Quando houver provas de acusação suficientes o réu é condenado. No início do procedimento, há duas hipóteses H0 (o réu não é culpado) e H1 (o réu é culpado). H0 é a hipótese nula, aceita no momento (presunção da inocência). H1é a hipótese alternativa, a qual espera-se apoiar.[38]

A hipótese de inocência (Presunção da inocência) somente é rejeitada quando o erro é muito improvável, porque não se quer condenar um réu inocente. Este erro é chamado de erro do tipo I (isto é, a convicção de uma pessoa inocente) e a ocorrência deste erro é controlada para ser rara. Como uma consequência desde comportamento assimétrico, o erro do tipo II (absolver uma pessoa que cometeu um crime) muitas vezes é muito grande.[38]

H0 é verdadeira

(o réu não é culpado)

H1é verdadeira

(o réu é culpado)

Hipótese nula é aceita

(absolvição)

Decisão incorreta Decisão correta

(erro do tipo II)

Hipótese nula é rejeitada

(condenação)

Decisão meio errada

(erro do tipo I)

Decisão meio certa

Um julgamento criminal pode considerar os procedimentos de decisão culpado e não culpado ou evidência e limiar. Por um lado, o réu é julgado. Por outro lado, o desempenho do promotor (o qual detém o ônus da prova) também é julgado. Portanto, um teste de hipóteses pode ser considerado tanto como o julgamento de uma hipótese quanto como o julgamento de uma evidência.[38]

Dama apreciadora de chá

Predefinição:AP Em um famoso exemplo de teste de hipóteses conhecido como dama apreciadora de chá, o autor Fisher diz que uma colega sua, Dra. Muriel Bristol, afirmou ser capaz de identificar se foi adicionado primeiramente leite ou chá à xícara.[64] Fisher propôs dar 8 xícaras (4 xícaras com leite adicionado primeiramente e 4 xícaras de com chá adicionado primeiramente) em ordem aleatória e perguntar qual a probabilidade de ela chegar ao resultado correto apenas com base nas probabilidades (a hipótese nula era que ela não teria esta capacidade). O teste estatístico era um conta simples de número do sucessos em selecionar quatro xícaras. A região crítica era o caso de quatro sucessos de quatro possibilidades baseadas em um critério de probabilidade convencional (<5%,1 de 701,4%). Fisher afirmou que nenhuma hipótese alternativa era necessária. A dama identificou corretamente cada xícara, o que seria considerado um resultado estatisticamente significativo.[65]

Teste de clarividência

Uma pessoa é testada quanto ao seu poder de clarividência. É mostrada para a pessoa a parte de trás de 25 cartas de um baralho comum, de modo que ela precisa aceitar o naipe da carta. Denomina–se X o número de acertos. Como deseja–se encontrar evidências do poder de clarividência da pessoa, a hipótese nula é que ela não possui esta habilidade e a hipótese alternativa é que ela possui esta habilidade, mesmo que em diferentes graus. Se a hipótese nula é válida, a pessoa pode apenas chutar um naipe.[66]

Como existem 4 naipes em um baralho comum, ela possui 14 de chance de acertar o naipe.

Se a hipótese alternativa for válida, a pessoa pode acertar os naipes com probabilidade maior que 14.[66]

Sendo p esta probabilidade, podemos construir o teste da seguinte maneira:

H0:p=14 (a pessoa está chutando)

H1:p>14 (a pessoa possui dom de clarividência)[66]

Quando a pessoa acertar todas as cartas, ela é considerada clarividente (a hipótese nula é rejeitada). O mesmo acontece para 24 ou 23 acertos. Entretanto, o que acontece para 19, 18 ou 17 acertos? Qual o valor crítico para considerar que a pessoa acertou o naipe das cartas devido à clarividência em vez da sorte? Como determinar o valor crítico?[67]

Por exemplo, se for escolhido o valor crítico c=25, muito poucas pessoas testadas serão consideradas clarividentes. Entretanto, se for escolhido o valor crítico c=10, um maior número de pessoas serão consideradas clarividentes. Na prática, quem constrói o teste é quem decide o valor crítico. Em outras palavras, escolher o valor crítico é definir o quão frequente serão os erros do tipo I (quantas pessoas acertam o valor crítico apenas com chutes, sem possuírem o poder de clarividência).[67]

É possível calcular a probabilidade para c=25 e c=10, por exemplo:

P(rejeitar H0|H0 é válida)=P(X=25|p=14)=(14)251015

P(rejeitar H0|H0 é válida)=P(X10|p=14)=k=1025P(X=k|p=14)0,07[68]

Isto indica que com um valor crítico c=10, a probabilidade de um falso positivo é muito maior.[68]

Porém, o que acontece se a pessoa não acertar nenhuma das cartas? Também pode existir uma clarividência reversa. A probabilidade de errar o naipe é de 34.[68]

Então, existem considerações diferentes no momento de construir o teste de hipóteses:

P(X=0|H0 é válida)=P(X=0|p=14)=(114))250,00075.[68]

É bastante improvável que alguém erre todas as cartas. Entretanto, rejeitar a hipótese nula neste caso seria ignorar a característica da pessoa de evitar o naipe correto. É comum para este tipo de problema associar uma estatística para o erro do tipo II (afirmar que uma pessoa não tem o poder de clarividência quando ela tem esta capacidade). Uma solução seria considerar um nível de significância de 1% apenas se a pessoa conseguisse prever corretamente pelo menos 2 cartas (não teria uma probabilidade tão pequena quanto errar todas as cartas).[67]

Problema dos parafusos

Uma construtora utiliza um parafuso importado com propriedades específicas para a manutenção da qualidade das construções. A propriedade mais interessante é a resistência à tração. Há 2 empresas que fabricam este tipo de parafuso, de acordo com as especificações técnicas de seu país. O país A fabrica parafusos com resistência média à tração de 145 kg e desvio padrão de 12 kg. O país B fabrica parafusos com uma média 155 kg e desvio padrão 20 kg. Seja o leilão de um lote deste tipo de parafuso, que sobrou de uma obra em uma determinada região.[69]

Uma construtora interessada em comprar os parafusos precisa saber a origem deles para verificar se eles atendem às especificações do seu país. Um leiloeiro afirma que, antes do leilão, será divulgada a resistência média de uma amostra de 25 parafusos do lote. Como a construtora interessada em comprar os parafusos deve proceder para tomar sua decisão?[69]

Uma resposta coerente é analisar as médias. É possível estipular que para um valor menor que 150 kg (o meio termo entre as duas médias), os parafusos são do país A. Em caso contrário, os parafusos são do país B. No dia do leilão, a resistência média divulgada da amostra é de 148 kg. Isto é, os parafusos são do país A. Entretanto, esta conclusão não poderia ser enganosa? Não seria possível uma amostra de 25 parafusos do país B apresentar resistência média de 148 kg? Seja, portanto, o seguinte teste de hipóteses:

  • H0 : os parafusos são do país B. Isto é, a resistência média X da amostra segue uma distribuição com média μ=155 kg e desvio padrão σ=20 kg.
  • H1 : os parafusos são do país A. Isto é, a resistência média X da amostra segue uma distribuição com média μ=145 kg e desvio padrão σ=12 kg.
  • Erro de tipo I: conclui–se que os parafusos são do país A, quando na verdade são do país B. A amostra do país B apresenta média inferior a 150 kg.
  • Erro do tipo II: conclui–se que os parafusos são do país B, quando na verdade são do país A. A amostra do país A apresenta média superior a 150 kg.[68]

Então, é possível usar o teorema do limite central para estipular uma média (igual à média da população) e um desvio padrão para a amostra:

s=σn=4.[70]

Com a estatística de teste normal Z com os dados da amostra, é possível calcular a probabilidade do erro de tipo I e do erro de tipo II. Para a região crítica (RC), é possível utilizar valores menores ou iguais a 150 kg:

P(erro I)=P(XRCH0 é verdadeira)=

P(X150|XN(155;16))=

P(Z1501554)=

P(Z1,25)=

0,10565=10,56%=α,

em que o valor para a estatística Z=1,25 foi obtido a partir de uma tabela de distribuição normal padrão.[66]

Da mesma forma, é possível calcular o erro do tipo II. No entanto, é considerada distribuição do país A (com seu próprio desvio padrão da amostra):

P(erro II)=P(XRCH1é verdadeira)=

P(X>150|XN(145;5,76))=

P(Z>1501452,4)=

P(Z>2,08)=

0,01876=1,88%=β[71]

Estes resultados indicam que para a regra de decisão definida, há maior probabilidade de se cometer o erro do tipo I em vez do erro do tipo II. Isto é, a regra de decisão privilegia a afirmação de que os parafusos são do país A.[69]

Porém, a construção do teste também está sujeita a erros. Como os valores do erro do tipo I e do erro do tipo II dependem apenas da média da amostra, é possível supor uma média para a qual obtém–se o mesmo valor de α e β a partir dos quais é possível tomar uma decisão com maior confiabilidade (esta decisão seria efetiva mesmo que houvesse parafusos de outros países no lote).[69]

Teste de redução de preço

Um comerciante que vende pela internet decidiu verificar se conseguiria aumentar seu lucro se reduzisse o preço da mercadoria. Para isso, estava disposto a reduzir o preço para um grupo aleatório de clientes que visitassem sua loja online (grupo de teste), manter o preço para os demais visitantes (grupo de controle) e medir a conversão de vendas de cada grupo. Na perspectiva do comerciante, o teste seria um sucesso se conseguisse confirmar que as vendas adicionais foram suficientes para compensar a redução do preço.

Esse teste é interessante porque não basta que o resultado mostre um aumento estatisticamente significativo na conversão de vendas, e nem tão pouco na receita, mas sim no lucro. Digamos que o preço da mercadoria atualmente é $ 70, a conversão de vendas é de 4% (ou seja, 4% dos visitantes compram a mercadoria) e o custo de produção da mercadoria é de $ 30. O comerciante quer testar o preço de $ 60. Então, podemos desenhar 3 hipóteses nulas:

  • Não há aumento de vendas: Conversão do grupo de teste não é maior do que a do grupo de controle
  • Não há aumento em receitas: Conversão do grupo de teste não é maior do que 4,67% (=4%60/70), que é o valor necessário para manter a mesma receita apesar da queda do preço.
  • Não há aumento em lucro: Conversão do grupo de teste não é maior do que 5,33% (=4%(6030)/(7030)), que é o valor necessário para manter o mesmo lucro apesar da queda do preço.
Controle Teste
p Preço $ 70 $ 60
n Quantidade de visitantes no site 8.000 2.000
v Vendas 320 120
v/n Conversão de vendas 4% 6%

Com esses dados, o comerciante pode tirar algumas conclusões sobre o resultado do teste usando a fórmula de teste z de duas proporções:

H0 Estatística z p-valor Conclusão considerando nível de significância de 0.05
Não há aumento de vendas 6%4%6%(16%)2000+4%(14%)8000=3,4816 0,0002 H0 rejeitada
Não há aumento em receitas 6%4,67%6%(16%)2000+4%(14%)8000=2,3210 0,0101 H0 rejeitada
Não há aumento em lucro 6%5,33%6%(16%)2000+4%(14%)8000=1,1605 0,1229 H0 não rejeitada

Portanto, mesmo observando uma conversão de 6%, o comerciante ainda não tem confiança para concluir que a redução de preço vale a pena, do ponto de vista de aumento de lucros. Como alternativa, ele poderia deixar o teste vigorar por mais tempo ou aumentar a proporção de visitantes que serão expostos ao preço reduzido. Essas ações fariam com que diminuísse o denominador da estatística z, aumentando a confiança para rejeitar a hipótese nula.

Estatísticas de teste comuns

Teste de hipóteses com uma amostra – É apropriado para comparar a amostra com a população a partir da hipótese. As características da população são conhecidas a partir da teoria ou são calculadas a partir da população.[62]

Teste de hipóteses com duas amostras – É apropriado para comparar duas amostras, tipicamente amostra experimental e amostra de controle a partir de um experimento cientificamente controlado.[72]

Teste pareado É apropriado para comparar duas amostras quando é impossível controlar variáveis importantes. Em vez de comparar dois conjuntos, os componentes são pareados entre amostras. Então, a diferença entre os componentes se torna a amostra. Tipicamente a média das diferenças é comparada a 0. O cenário comum de exemplo para quando o teste pareado é apropriado é quando um único conjunto de sujeitos de teste tem algo aplicado a eles e o teste destina-se a verificar um efeito.[73]

Teste Z É apropriado para comparar médias por meio de condições mais rigorosas em relação à normalidade a um desvio padrão conhecido.[74]

Teste t É apropriado para comparar médias por meio de condições mais relaxadas.[75]

Teste de proporção – É análogo aos testes de médias (proporção de 50%).[76]

Testes qui quadrado – Usam os mesmos cálculos e a mesma distribuição de probabilidade para diferentes aplicações:

  • Testes qui quadrado para variância são usados para determinar se uma população normal tem uma variância específica. A hipótese nula é que a população normal tem a variância específica.[77]
  • Testes qui quadrado para independência são usados para decidir se duas variáveis são associadas ou independentes. As variáveis são categóricas em vez de numéricas. A hipótese nula é que as variáveis são independentes. Os números usados no cálculo são as frequências observadas e esperadas de ocorrência (a partir de tabelas de contingência).[78]
  • Testes qui quadrado de bondade de ajuste são usados para determinar a adequação das curvas ajustadas aos dados. A hipótese nula é que a curva ajustada é adequada. É comum determinar formatos de curvas para minimizar o erro quadrático médio. Então, é apropriado que o cálculo de bondade de ajuste some os erros quadráticos.[79]

Teste F – É comumente usado para decidir se agrupamentos de dados por categorias são significativos. A hipótese nula é que duas variâncias são as mesmas. Então, o agrupamento proposto não é significativo.[80]

Na tabela abaixo, os símbolos usados são definidos na última linha. Há mais testes que podem ser encontrados em outros artigos. Existem provas de que estas estatísticas de teste são apropriadas.[81]

Teste Fórmula Notas
Teste Z para uma amostra z=xμ0(σn)[82]
  • População normal ou n>30 e σ conhecido.[82]
  • z é a distância a partir da média em relação ao desvio padrão da média.
  • Para distribuições não normais é possível calcular uma proporção mínima para uma população, que caia dentro de k desvios padrão para qualquer k (ver desigualdade de Chebyshev).
Teste Z para duas amostras z=(x1x2)d0σ12n1+σ22n2[83]
  • População normal e observações independentes e σ1 e σ2 são conhecidos.[83]
Teste t para uma amostra t=xμ0(sn),df=n1 [84]
  • n<30 e σ desconhecido.[84]
Teste pareado t=dd0(sdn),df=n1 [85]
  • População normal ou n>30 e σ desconhecido ou amostra de tamanho pequeno n<30.[85]
Teste t combinado para duas amostras com variâncias iguais t=(x1x2)d0sp1n1+1n2,[86]sp2=(n11)s12+(n21)s22n1+n22,

df=n1+n22 [87]

  • População normal ou n1+n2>40 e observações independentes e σ1=σ2 desconhecidos.[86]
Teste t não combinado para duas amostras com variâncias desiguais (Teste t de Welch) t=(x1x2)d0s12n1+s22n2,[88]df=(s12n1+s22n2)2(s12n1)2n11+(s22n2)2n21[87]
  • População normal ou n1+n2>40 e observações independentes e σ1σ2 desconhecidos.[88]
Teste Z de uma proporção z=p^p0p0(1p0)n[89]
  • n×p0>10 e n(1p0)>10 e é uma amostragem aleatória simples.[89]
Teste Z de duas proporções combinado para H0:p1=p2 z=(p^1p^2)p^(1p^)(1n1+1n2)[90]p^=x1+x2n1+n2
  • n1×p1>5 e n1(1p1)>5 e n2×p2>5 e n2(1p2)>5 e observações independentes.[90]
Teste Z de duas proporções não combinado para |d0|>0 z=(p^1p^2)d0p^1(1p^1)n1+p^2(1p^2)n2[91]
  • n1×p1>5 e n1(1p1)>5 e n2×p2>5 e n2(1p2)>5 e observações independentes.[91]
Teste qui quadrado para variância χ2=(n1)s2σ02[92]
  • População normal.[92]
Teste qui quadrado de bondade de ajuste χ2=k(observadoesperado)2esperado[93]
  • df=k1número de parâmetros estimados, e um deles deve ser mantido.[93]
  • Todas as contagens esperadas são pelo menos 5.[94]
  • Todas as contagens são mais que 1 e não mais que 20% das contagens esperadas são menores que 5.[95]
Teste F para duas amostras para igualdade de variâncias F=s12s22[96]
  • População normal.
  • Determina–se s12s22 e rejeita–se H0 para F>F(α2,n11,n21).[97]
Test t de regressão para H0:R2=0 t=R2(nk1*)1R2[96]
  • Rejeita–se H0 para t>t(α2,nk1).[98] Subtrai–se 1 para interceptar.
  • k termos contem variáveis independentes.
Em geral, o subscrito 0 indica um valor extraído da hipótese nula (H0), que deveria ser usado o máximo possível na construção do seu teste estatístico.

Definição de outros símbolos:

  • α = probabilidade do erro de tipo I (rejeitando a hipótese nula H0 quando ela é verdadeira)
  • n = tamanho da amostra
  • n1 = tamanho da amostra 1
  • n2 = tamanho da amostra 2
  • x = média da amostra
  • μ0 = média populacional hipotética
  • μ1 = média da população 1
  • μ2 = média da população 2
  • σ = desvio padrão populacional
  • σ2 = variância populacional
  • s = desvio padrão amostral
  • k = soma (k números)
  • s2 = variância amostral
  • s1 = desvio padrão da amostra 1
  • s2 = desvio padrão da amostra 2
  • t = estatística t
  • df = graus de liberdade
  • d = média amostral das diferenças
  • d0 = diferença da média populacional hipotética
  • sd = desvio padrão das diferenças
  • χ2 = estatística qui quadrado
  • p^ = xn = proporção amostral, a menos que especificado de outra forma
  • p0 = proporção da população hipotética
  • p1 = proporção 1
  • p2 = proporção 2
  • dp = diferença hipotética na proporção
  • min{n1,n2} = mínimo de n1 e n2
  • x1=n1p1
  • x2=n2p2
  • F = estatística F

Testes para a média

Legenda.

O teste de hipóteses consiste em verificar por meio de uma amostra se a média da população atende a um certo nível de significância.[2][6]

Inicialmente deve–se calcular

Zcalc=xμsn,

em que x é a média da amostra, μ é a média esperada da população, s é o desvio padrão da amostra e n é o tamanho da amostra.[99]

Em seguida, consulta–se na tabela da curva normal o Z correspondente a cada caso. Finalmente, verifica–se se

Zcalc

encontra–se na área de rejeição do teste de hipótese.[99]

Exemplos de erro do tipo I e erro de tipo II para diferentes médias.

Unilateral (unicaudal à esquerda)

H0:μ=μ0

H1:μ<μ0

Rejeita–se Zcalc<Zα.[100]

Unilateral (unicaudal à direita)

H0:μ=μ0

H1:μ>μ0

Rejeita–se Zcalc>Zα.[100]

Bilateral

H0:μ=μ0

H1:μμ0

Rejeita–se Zcalc<Zα2 ou se Zcalc>Zα2.[100]

Terminologia

Seguem algumas definições baseadas no livro Testing Statistical Hypotheses, de E. L. Lehmann e Joseph P. Romano.[101]

Hipótese estatística – Afirmação sobre os parâmetros que descreve a população (não é a mesma coisa que amostra).[101]

Estatística – Valor calculado a partir de uma amostra geralmente para resumir a amostra para propósito de comparação.[101]

Hipótese simples – Qualquer hipótese que especifique completamente a distribuição da população.[101]

Hipótese composta – Qualquer hipótese que não especifique completamente a distribuição da população.[101]

Hipótese nula (H0) – Hipótese simples associada a uma contradição de uma teoria que se gostaria de provar.[101]

Hipótese alternativa (H1) – Hipótese geralmente composta associada a uma contradição de uma teoria que se gostaria de provar.[101]

Teste estatístico – Procedimento cujos inputs são as amostras e o resultado é a hipótese.[101]

Região de aceitação – Conjunto de valores do teste estatístico para o qual a hipótese nula não é rejeitada.[101]

Região de rejeição (região crítica) – Conjunto de valores do teste estatístico para o qual a hipótese nula é rejeitada.[101]

Valor crítico – Valor limite que delimita as regiões de aceitação e de rejeição para o teste estatístico.[101]

Poder de um teste (1β) – Probabilidade do teste de se rejeitar corretamente a hipótese nula. β é o complemento da taxa de falsos negativos. O poder é denominado sensibilidade em bioestatística ("Este é um teste sensível. Porque o resultado é negativo, podemos afirmar com confiança que o paciente não tem a condição").[101]

Tamanho – Para hipóteses simples, é a probabilidade do teste de se rejeitar incorretamente a hipótese nula. É a taxa de falsos positivos. Para hipóteses compostas, é o supremo da probabilidade do teste de se rejeitar a hipótese sobre todos os casos cobertos pela hipótese nula. O componente da taxa de falsos positivos é denominado especificidade em bioestatística ("Este é um teste específico. Porque o resultado é positivo, podemos afirmar com confiança que o paciente tem a condição").[101]

Nível de significância de um teste (α) – O limite superior imposto sobre o tamanho de um teste. O seu valor é escolhido pelo estatístico antes de verificar os dados ou de escolher qualquer teste particular para ser utilizado. É a exposição máxima para se rejeitar erroneamente a hipótese nula.Testar a hipótese nula a um nível de significância α significa testar a hipótese nula por meio de um teste, cujo tamanho não excede α. Na maioria dos casos, usa–se testes cujos tamanhos são iguais aos níveis de significância.[101]

p–valor – Probabilidade do resultado ser pelo menos tão extremo quanto teste estatístico, assumindo que a hipótese nula é verdadeira.[101]

Predefinição:ÂncoraTeste de significância estatística – Predecessor ao teste de hipótese. Um resultado experimental é considerado estatisticamente significante se a amostra é suficientemente inconsistente com a hipótese nula. Isto foi considerado senso comum, uma heurística pragmática para identificar resultados experimentais significativos, uma convenção que estabelece um limite para a evidência estatística ou um método para tirar conclusões a partir dos dados. O teste de hipóteses adicionou rigor matemático e consistência filosófica ao conceito, tornando a hipótese alternativa explícita. O termo é pouco usado para descrever a versão moderna que agora é parte do teste de hipóteses.[101]

Teste conservador – Um teste é conservador se, quando construído para um dado nível de significância nominal, a probabilidade verdadeira de se rejeitar incorretamente a hipótese nula nunca é maior que o nível nominal.[101]

Teste exato – Um teste no qual o nível de significância ou o valor crítico podem ser calculados exatamente. isto é, sem qualquer aproximação. Em alguns contextos, o termo é restrito aos testes aplicados a dados categóricos e a testes de permutação nos quais os cálculos são realizados pela completa enumeração de todos os resultados possíveis e suas probabilidades. Um teste de hipóteses compara um teste estatístico (Z ou t, por exemplo) e um limite. O teste estatístico (fórmula encontrada na tabela abaixo) é baseada na otimalidade. os seguintes termos descrevem testes em termos desta otimalidade.[101]

Teste mais poderoso – Para um dado tamanho ou nível de significância, o teste com o maior poder (probabilidade de rejeição) para um dado valor de parâmetro(s) sendo testado contido na hipótese alternativa.[101]

Teste uniformemente mais poderoso – Um teste com o maior poder para todos os valores de parâmetro(s) testado contido na hipótese alternativa.[101]

Os métodos de Fisher, Neyman–Pearson e Bayes

O exemplo da mala radioativa. Se a mala realmente é blindada para o transporte de material radioativo, então um teste pode ser realizado para selecionar uma entre três hipóteses: nenhuma presença de material radioativo, presença de um material radioativo, presença de dois materiais radioativos. O lema do teste de hipóteses de Neyman–Pearson afirma que um bom critério para a seleção de hipóteses é a razão das suas probabilidades (uma razão de verossimilhança). Um método simples de solução é selecionar a hipótese com a maior probabilidade para as contagens de Geiger observadas. O resultado coincide com a intuição: uma pequena contagem implica nenhum material radioativo, enquanto que uma contagem intermediária implica um material radioativo e muitas contagens implicam dois materiais radioativos. O método Baseyano mantém os argumentos sobre a priori a qual é mais usada em conjunto com as priori conjugadas.[102]

A teoria de Neyman–Pearson pode acomodar as probabilidades prévias e os custos das ações resultantes das decisões.[103] O primeiro permite que cada teste considere os resultados dos testes anteriories, diferentemete dos testes de significância de Fisher. O último permite a consideração de questões econômicas, assim como de probabilidades. Bayes irá argumentar que é necessário uma priori, ou seja, a partir de um conhecimento prévio sobre o assunto e então é definido uma família paramétrica de densidade para os casos em que é preferível trabalhar com priori conjugadas. Uma razão de verossimilhança continua a ser um bom critério de seleção entre as hipóteses.[102]

Sobre Fisher e Neyman-Pearson, as duas formas de testes de hipóteses são baseadas em diferentes formulações de problemas. O teste original é análogo à questão de falso ou verdadeiro. O teste de Neyman–Pearson é mais parecido com a questão de múltipla escolha. Na visão de John Turkey, a primeira leva a conclusões com base apenas em evidências fortes, enquanto a última leva a decisões com base em evidências disponíveis.[104] Sobre Bayes, o argumento é sobre o que se conhece das malas radioativas. Por exemplo, se uma mala foi usada anterioremente para transportar uma material radioativo, então ela terá chances maiores de conter radioatividade.[105]

Fisher e Neyman-Pearson fazem testes os quais parecem ser muito diferentes tanto matematicamente quanto filosoficamente, desenvolvimentos posteriores levam a afirmações contrárias. Sejam várias fontes radiativas minúsculas. As hipóteses se tornam 0, 1, 2, 3, ... grãos de areia radioativa. Há pouca distinção entre nenhuma e alguma radiação (Fisher), 0 grãos de areia radioativa contra todas as alternativas (Neyman–Pearson) e, se a mala tem chance de conter radioatividade depois de ter sido ou não ter sido usada anteriormente (Bayes). On the Problem of the Most Efficient Tests of Statistical Hypotheses também considerou hipóteses compostas (aquelas cuja distribuição inclui um parâmetro desconhecido). Um exemplo mostrou a otimalidade do test t de Student. Segundo o trabalho de Neyman–Pearson publicado em 1933, não pode haver melhor teste para a hipótese em consideração. A teoria de Neyman–Pearson mostrava a otimalidade dos métodos fisherianos desde seu início.[13]

O teste de significância de Fisher provou–se uma ferramenta estatística popular flexível em aplicações com pouco potencial de crescimento matemático. O teste de hipóteses de Neyman–Pearson é reivindicado como um pilar da matemática estatística, com a criação de um novo paradigma para a área. Isto também estimulou novas aplicações em controle estatístico do procedimento, teoria da detecção, teoria da decisão e teoria dos jogos.[106] Ambas as formulações têm sido bem sucedidas, mas os sucessos têm tido caráteres diferentes. O método de Bayes tem boas aplicações sobre as condições vividas ou conhecimento adquirido por experiência como na medicina, em que um médico pode constatar que uma dor no pescoço pode levar a doença meningite. Enquanto o método de Bayes mostra que 1 a cada 5000 pessoas pode ter meningite com a evidência dor no pescoço.[107]

A disputa sobre as formulações não está resolvida. A ciência usa primeiramente a formulação de Fisher ligeiramente modificada, como ensinado pela estatística introdutória. Estatísticos estudam a teoria de Neyman–Pearson na pós–graduação. Os matemáticos consideram a união de ambas as formulações. Os filósofos consideram–nas separadamente. As diferentes opiniões consideram as formulações competitivas (Fisher contra Neyman), incompatíveis[8] ou complementares.[15] A terminologia é inconsistente. O teste de hipóteses pode significar qualquer mistura das formulações de Fisher e Neyman–Pearson, que podem mudaram com o passar do tempo (qualquer discussão sobre teste de significância contra teste de hipóteses é vulnerável à confusão). A disputa tornou–se ainda mais complexa, uma vez que a inferência bayesiana passou a ser ainda mais respeitada.[108]

Fisher pensou que o teste de hipóteses era uma estratégia útil para o controle de qualidade industrial, mas ele discordava veemente que o teste de hipóteses poderia ser útil para cientistas.[12] O teste de hipóteses fornece um meio para encontrar as estatísticas de teste, usadas em um teste de significância. O conceito de poder é útil para explicar as consequências do ajuste do nível de significância e é muito usado para determinar o tamanho da amostra. Fisher e Neyman-Pearson possuem métodos os quais continuam filosoficamente distintos. Eles geralmente (mas nem sempre) levam a mesma resposta matemática. A resposta preferível depende do contexto.[15] Enquanto a fusão das teorias de Fisher e de Neyman–Pearson tem sido pesadamente criticada, modificar a fusão para alcançar objetivos bayesianos tem sido considerado.[109]

Teste da hipótese nula de Fisher Teoria da decisão de Neyman e Pearson Teoria da decisão de Bayes
1. Estabelecer uma hipótese nula estatística. O nulo não precisa ser uma hipótese nula (isto é, diferença zero). 1. Estabelecer duas hipóteses estatísticas, H1 e H2. Decidir sobre α, β e tamanho da amostra antes do experimento, com base em considerações subjetivas de custo benefício. Isto define uma região de rejeição para cada hipótese. 1. Considera-se a informação prévia sobre um evento ocorrer. Por exemplo, no lançamento de uma moeda, um observador diz que aquela moeda cai mais a face cara do que a face coroa. Então, considerar a maior probabilidade de cair cara é uma priori. Disso decorre a adequação da priori para uma distribuição de probabilidade (beta, normal, log normal, etc), sendo essa adequação a posteriori.[110]
2. Registrar o nível de significância exato (por exemplo, p=0,051 ou p=0,049). Não usar o nível de significância convencional de 5%. Não mencionar sobre aceitar ou rejeitar hipóteses. Se o resultado não é significante, não tirar conclusões e não tomar decisões. Suspender julgamentos até que mais dados estejam disponíveis. 2. Se o dado cair na região de rejeição de H1, aceitar H2. Em caso contrário, aceitar H1. Note–se que aceitar uma hipótese não significa acreditar nela. Isto significa apenas agir como se ela fosse verdadeira. 2. Realizar uma aproximação de densidade e calcula a probabilidade.[110]
3. Usar este procedimento apenas se souber pouco sobre o problema. Somente tirar conclusões provisórias no contexto de uma tentativa para entender a situação experimental. 3. A utilidade do procedimento é limitada para situações em que tem–se uma disjunção de hipóteses (por exemplo, μ1=8 ou μ2=10 é verdadeiro) e podem–se fazer concessões significativas de custo benefício para escolher α e β . 3. Utilização ampla nos setores da sociedade.[111]

 Teste de comparação múltipla para teste de hipóteses

Para testes de hipóteses, o problema de comparações múltiplas (também conhecido como problema de testes múltiplos) resulta do aumento do erro do tipo I que ocorre quando os testes são usados repetidamente. Se k comparações independentes foram realizadas, o nível de significância α¯ do experimento (também chamado taxa de erro da família) é dado por α¯=1(1α{por comparação})k.[112] Consequentemente, a menos que os testes sejam perfeitamente e positivamente dependentes, α¯ aumenta conforme o número de comparações aumenta. Se as comparações não forem independentes, também é possível afirmar que α¯kα{por comparação}, seguindo a desigualdade de Boole.[113][114]

Há diferentes formar de garantir que a taxa de erro da família seja α¯. O método mais conservador, que é livre de dependência e suposições distributivas é a correção de Bonferroni α{por comparação}=α¯k. Uma correção menos conservadora pode ser obtida resolvendo a equação para a taxa de erro da família de k comparações independentes para α{por comparação}. Isto resulta em α{por comparação}=1(1α¯)1k, que é conhecido como a correção de Šidák. Outro procedimento é o método de Holm–Bonferroni, que tem mais poder que a correção de Bonferroni testando apenas o menor p–valor (i=1) contra o critério mais rigoroso e o maior p–valor (i>1) contra o critério menos rigoroso α{por comparação}=α¯(ki+1).[115]

Correção de Bonferroni

Em estatística, a correção de Bonferroni é um dos vários métodos utilizados para neutralizar o problema das comparações múltiplas. O teste de hipóteses é baseado na rejeição da hipótese nula se a probabilidade dos dados observados ficar abaixo da hipótese nula for baixa. Se as múltiplas comparações forem feitas ou se as múltiplas hipóteses forem testadas, a chance de acontecer um evento raro aumenta e, portanto, a probabilidade de rejeitar–se incorretamente a hipótese nula também aumenta. Isto é, a chance de ocorrer erro do tipo I aumenta.[116] A correção de Bonferroni compensa este aumento por meio do teste de cada hipótese individual em um nível de significância de αm, em que α é o nível α total desejado e m é o número de hipóteses. Por exemplo, se foram testadas m=20 hipóteses com α=0,05, então a correção de Bonferroni testaria cada hipótese individual com α=0,0520=0,0025.[117]

Desigualdade de Bonferroni

Em teoria das probabilidades, a desigualdade de Boole afirma que para qualquer conjunto finito de eventos a probabilidade de pelo menos um dos eventos acontecer não é maior que a soma das probabilidades dos eventos individuais. A desigualdade de Boole pode ser generalizada para encontrar os limites superiores e inferiores da probabilidade de um conjunto finito de eventos. Estes limites são conhecidos como desigualdades de Bonferroni.[118]

Sejam

S1:=i=1n(Ai) e S2:=1i<jn(AiAj)

Sk:=1i1<<ikn(Ai1Aik),

para todos os inteiros k em {3,...,n}.[118]

Para k ímpares em {1,...,n},

(i=1nAi)j=1k(1)j1Sj.[118]

Para k pares em {2,...,n},

(i=1nAi)j=1k(1)j1Sj.[118]

A desigualdade de Boole é recuperada estabelecendo–se k=1. Quando k=n, a igualdade se mantém e a identidade resultante é o princípio da inclusão–exclusão.[119]

Método de Holm–Bonferroni

Em estatística, o método de Holm–Bonferroni (também chamado método de Holm ou método de Bonferroni–Holm) é usado para neutralizar o problema das comparações múltiplas. Pretende–se controlar a taxa de erro da família e oferece–se um teste simples uniformemente mais poderoso que a correção de Bonferroni. É um dos primeiros usos de stepwise algorithms em inferência simultânea.[120][121]

O método de Holm–Bonferroni segue os seguintes passos:

  • Seja H1,...,Hm a família de hipóteses e P1,...,Pm os p–valores correspondentes;
  • Os p–valores são ordenados em ordem crescente P(1)P(m), sendo H(1)H(m) as hipóteses associadas;
  • Para um dado nível de significância α, seja k o índice mínimo para o qual P(k)>αm+1k;
  • As hipóteses nulas H(1)H(k1) são rejeitadas e as hipóteses H(k)H(m) não são rejeitadas;
  • Se k=1, então nenhuma hipótese nula é rejeitadas. Se não existir nenhum k, então todas as hipóteses nulas são rejeitadas.[122][123]

Correção de Šidák

Em estatística, a correção de Šidák ou correção de Dunn–Šidák é um método utilizado para neutralizar o problema das comparações múltiplas. É um método simples de controlar a taxa de erro da família. Quando todas as hipóteses nulas são verdadeiras, o método fornece o controle do erro da família exato para testes que são estocasticamente independentes. É conservador para testes que são positivamente dependentes e é liberal para testes que são negativamente dependentes.[124]

Críticas

Muitas das críticas sobre o teste de hipóteses estatístico podem ser resumidas da seguinte maneira:[125][126][127][128][129][130]

  • A interpretação do p–valor depende da regra da parada (stopping rule) e da definição de comparação múltipla. A primeira muda no curso de um estudo. A segunda é inevitavelmente ambígua. Isto é, o p–valor depende tanto do [dado] observado quanto dos outros possíveis [dados] que podem ter sido observados, mas não foram.[131]
  • A confusão parcialmente resultante da combinação dos métodos de Fisher e de Neyman–Pearson, que são conceitualmente diferentes.[104]
  • Ênfase na significância estatística para exclusão da estimação e confirmação por experiências repetidas.[132]
  • Exigência rígida da significância estatística como um critério para publicação, resultando no viés da publicação. A maioria das críticas é indireta. Em vez de errados, os testes de hipóteses estatísticos são mal interpretados, excessivamente utilizados ou mal utilizados.[133]
  • Quando usados para detectar se existe diferença entre dois grupos, surge um paradoxo. Quanto mais melhorias no projeto experimental (por exemplo, maior precisão de medidas e tamanho de amostra), mais lenientes tornam–se os testes de hipótese. A menos que aceite–se a declaração absurda que todas as fontes de ruídos nos dados sejam completamente anuladas, a chance de encontrar significância estatística em qualquer direção aproxima–se de 100%.[134]
  • Há várias preocupações filosóficas. A probabilidade de significância estatística é uma função de decisões feitas por analistas e pesquisadores.[44] Se as decisões forem baseadas em uma convenção, elas são chamadas de arbitrárias.[135] Em caso contrário, elas podem ser denominadas subjetivas. Para minimizar os erros do tipo II, grandes amostras são recomendadas. Na psicologia, praticamente todas as hipóteses nulas são afirmadas como sendo falsas para amostras suficientemente grandes. Então, geralmente é sem sentido realizar um experimento com o único objetivo de rejeitar a hipótese nula.[136] Na psicologia, descobertas estatisticamente significantes são muitas vezes mal interpretadas.[137] Como a significância estatística não implica significância prática e a correlação não implica causalidade, a dúvida sobre a hipótese nula está longe de apoiar diretamente a hipótese de pesquisa.[138][139]
  • O teste de hipóteses não nos diz o que queremos saber. Há várias reclamações deste tipo entre pesquisadores.[140][129][141][142]

Os críticos e os apoiadores estão em grande parte de acordo com as características do teste de significância de hipótese nula. Embora forneça informação crítica, é inadequado como a única ferramenta para análise estatística. Rejeitar com êxito a hipótese nula pode não oferecer suporte para a hipótese de pesquisa. A controvérsia contínua trata da seleção da melhor prática estatística para o futuro de curto prazo, dadas as práticas existentes (muitas vezes pobres). Os críticos prefeririam banir completamente o teste de significância de hipótese nula. Os apoiadores sugeririam uma mudança menos radical.

As controvérsias em torno do teste de significância e os seus efeitos sobre o viés em publicações particularmente têm produzido vários resultados. Nos Estados Unidos, a American Psychological Association fortaleceu suas exigências para relatórios estatísticos depois de revisão,[143] editoras de publicações médicas reconheceram a obrigação da publicação de alguns resultados que não são estatisticamente significantes para combater o viés em publicações[144] e o Journal of Articles in Support of the Null Hypothesis foi criado para publicar estes resultados exclusivamente.[145] Os textos adicionaram algumas preocupações e aumentaram a cobertura para ferramentas necessárias para estimar o tamanho da amostra exigido para produzir resultados significativos. As principais organizações não abandonaram o uso de testes de significância, embora algumas tenham discutido o assunto.[143]

Alternativas

As numerosas críticas ao teste de significância não levam a uma única alternativa. Uma posição unificadora dos críticos é que as estatísticas não deveriam levar a uma conclusão ou a uma decisão, mas a uma probabilidade ou a um valor estimado com um intervalo de confiança em vez de uma decisão aceitação–rejeição em relação a uma hipótese em particular. É improvável que a controvérsia em torno do teste de significância seja resolvida no futuro próximo. As suas supostas falhas e impopularidade não eliminam a necessidade de um meio objetivo e transparente para chegar a conclusões sobre os estudos que produzem resultados estatísticos. Os críticos não se unificaram em torno de uma alternativa. Outras formas de reportar a confiança ou a incerteza poderiam provavelmente aumentar em popularidade. Uma forte crítica ao teste de significância sugere uma lista de alternativas, envolvendo tamanhos de efeito para importância, intervalos de previsão para confiança, repetições e extensões para replicação, meta–análises para generalidade.[146] Nenhuma destas alternativas sugeridas produz uma conclusão ou uma decisão. E. L. Lehmann afirma que a teoria do teste de hipóteses pode ser apresentada em termos de conclusão ou de decisão, probabilidade ou intervalos de confiança (a distinção entre as abordagens é em grande parte relato e interpretação).[147]

Em uma alternativa, não há discordância. De acordo com Fisher, em relação ao teste de significância, podemos afirmar que um fenômeno é experimentalmente demonstrável quando sabemos como conduzir um experimento que raramente falhará em nos fornecer um resultado estatisticamente significante.[64] Segundo Jacob Cohen, não há necessidade de procurar por uma alternativa mágica ao teste de significância de hipótese nula porque ela não existe. Para o influente crítico do teste de significância, dados os problemas da indução estatística, devemos finalmente confiar como as antigas ciências na replicação.[140] A alternativa ao teste de significância é um teste repetido. A forma mais fácil de diminuir a incerteza estatística é por meio da obtenção de mais dados, pelo aumento do tamanho da amostra ou por testes repetidos. Raymond Nickerson afirmou nunca ter visto a publicação de uma experiência literalmente replicada em psicologia. Uma abordagem indireta para a replicação é a meta–análise.[141]

A inferência bayeseana é uma alternativa proposta ao teste de significância. Nickerson citou dez fontes com esta sugestão, incluindo Rozeboom (1960).[141] Por exemplo, a estimação de parâmetros bayeseanos pode fornecer informações importantes sobre os dados, a partir dos quais os pesquisadores podem desenhar inferências ao mesmo tempo em que utilizam dados incertos que exercem apenas influência mínima sobre os resultados quando dados suficientes estão disponíveis. O psicólogo John K. Kruschke sugeriu a estimação bayeseana como uma alternativa para o teste t.[148] De outra maneira, dois modelos modelos ou hipóteses concorrentes podem ser comparados usando fatores bayeseanos.[149] Os métodos bayeseanos podem ser criticados por requerer informações raramente disponíveis nos casos em que os testes de significância são mais utilizados. Nem as probabilidades anteriores nem a distribuição de probabilidade da estatística de teste sob a hipótese alternativa muitas vezes estão disponíveis nas ciências sociais.[141]

Defensores da abordagem bayeseana às vezes afirmam que o objetivo de um pesquisador é na maioria das vezes avaliar objetivamente a probabilidade de uma hipótese ser verdadeira com base nos dados coletados.[150][151] Nem o teste de significância de Fisher nem o teste de hipóteses de Neyman–Pearson podem fornecer esta informação. A probabilidade de uma hipótese ser verdadeira apenas pode ser derivada a partir do uso do teorema de Bayes, que foi insatisfatória tanto para a área de Fisher quanto para o campo de Neyman–Pearson devido ao uso explícito da subjetividade na forma de probabilidade prévia. A estratégia de Fisher é evitar isto com o p–valor (um índice objetivo baseado nos dados sozinhos) seguida por inferência indutiva, enquanto Neyman–Pearson inventou sua abordagem de comportamento indutivo.[13][152]

Filosofia

O teste de hipóteses e a filosofia se cruzam. A estatística inferencial, que inclui o teste de hipóteses, é a probabilidade aplicada. A probabilidade e sua aplicação estão entrelaçadas com a filosofia. O filósofo David Hume escreveu que "todo conhecimento degenera em probabilidade". Definições práticas concorrentes de probabilidade refletem diferenças filosóficas. A aplicação mais comum do teste de hipóteses é na interpretação científica de dados experimentais, os quais são naturalmente estudados pela filosofia da ciência. Fisher e Neyman opunham–se à subjetividade da probabilidade. As suas visões contribuíram para as definições objetivas. O núcleo da discordância histórica deles era filosófico. Muitas das críticas filosóficas aos testes de hipóteses são discutidas por estatísticos em outros contextos, particularmente correlação não implica causação e desenho dos experimentos. Os testes de hipóteses estão sob contínuo interesse dos filósofos.[17][153]

Educação

Estatística é cada vez mais ensinada nas escolas, com o teste de hipóteses sendo um dos elementos ensinados.[154][155] Muitas conclusões reportadas na imprensa (desde pesquisas de opinião políticas a estudos médicos) são baseados em estatística. Um público informado deveria entender as limitações das conclusões estatísticas e muitas áreas de estudos na graduação requerem um curso de estatística pelo mesmo motivo.[156][157] Na graduação, a estatística introdutória dá muita ênfase ao teste de hipóteses (talvez metade de um curso típico). Áreas de estudo como literatura e religião agora incluem descobertas baseadas em análises estatísticas. As aulas de estatística introdutória ensinam o teste de hipóteses como um procedimento de um livro de receita. O teste de hipóteses também é ensinado na pós–graduação. Estatísticos aprendem como criar bons precedimentos de testes estatísticos (Z, t de Student, F e qui–quadrado). O teste de hipóteses estatístico é considerado uma área madura dentro da estatística, mas uma quantidade limitada de desenvolvimento continua.[147]

O método de livro de receita para ensinar estatística introdutória não deixa tempo para história, filosofia ou controvérsia. O teste de hipóteses tem sido ensinado como um método unificado. Pesquisas mostraram que graduandos foram enchidos com mal entendidos filosóficos em todos os aspectos da inferência estatística, que persistiram entre instrutores.[158] Embora o problema tenha sido resolvido há mais de uma década[159] e reivindicações para reformas educaionais continuem,[160] estudantes ainda se formam em estatística mantendo conceitos errôneos sobre os testes de hipóteses.[161] Ideias para melhorar o ensino do teste de hipóteses incluem encorajar os estudantes a pesquisarem erros estatísticos em trabalhos publicados, ensinar a história da estatística e enfatizar a controvérsia em uma disciplina geralmente dura.[162]

Ver também

Predefinição:Referências

Ligações externas

Predefinição:Estatística Predefinição:Portal3

  1. Predefinição:Citar livro
  2. 2,0 2,1 Predefinição:Citar web
  3. Predefinição:Citar web
  4. Predefinição:Citar web
  5. Predefinição:Citar web
  6. 6,0 6,1 Predefinição:Citar web
  7. 7,0 7,1 Predefinição:Citar web
  8. 8,0 8,1 Raymond Hubbard, M. J. Bayarri, P Values are not Error Probabilities Predefinição:Wayback. A working paper that explains the difference between Fisher's evidential p-value and the Neyman–Pearson Type I error rate α.
  9. 9,0 9,1 Predefinição:Citar periódico
  10. Predefinição:Citar livro
  11. Predefinição:Citar web
  12. 12,0 12,1 Predefinição:Citar periódico
  13. 13,0 13,1 13,2 13,3 Predefinição:Citar periódico
  14. Predefinição:Citar periódico
  15. 15,0 15,1 15,2 Predefinição:Citar periódico
  16. Predefinição:Citar periódico"We are quite in danger of sending highly trained and highly intelligent young men out into the world with tables of erroneous numbers under their arms, and with a dense fog in the place where their brains ought to be. In this century, of course, they will be working on guided missiles and advising the medical profession on the control of disease, and there is no limit to the extent to which they could impede every sort of national effort."
  17. 17,0 17,1 Predefinição:Citar periódico
  18. Predefinição:Citar periódico
  19. Predefinição:Citar periódico
  20. 20,0 20,1 Predefinição:Citar periódico
  21. Predefinição:Citar livro
  22. Predefinição:Citar periódico
  23. Predefinição:Citar web
  24. Predefinição:Citar web
  25. Predefinição:Citar periódico
  26. Predefinição:Citar periódico
  27. Predefinição:Citar periódico
  28. Predefinição:Citar periódico
  29. Predefinição:Citar web
  30. Schervish, M (1996) Theory of Statistics, p. 218. Springer ISBN 0-387-94546-6
  31. Predefinição:Citar livro
  32. Predefinição:Citar web
  33. Predefinição:Citar livro
  34. Predefinição:Citar livro
  35. Predefinição:Citar livro
  36. Predefinição:Citar livro
  37. Predefinição:Citar livro
  38. 38,0 38,1 38,2 38,3 Predefinição:Citar livro
  39. http://www.math.uah.edu/stat/hypothesis/Introduction.html
  40. Predefinição:Citar web
  41. Predefinição:Citar web
  42. Leônidas Hegenberg; Flávio E. Novaes Hegenberg (2009). Argumentar. Editora E-papers. p. 376. ISBN 978-85-7650-224-1.
  43. Predefinição:Citar web
  44. 44,0 44,1 Predefinição:Citar periódico
  45. Predefinição:Citar periódico
  46. Predefinição:Citar livro
  47. Predefinição:Citar periódico
  48. Predefinição:Citar livro
  49. Predefinição:Citar web
  50. Predefinição:Citar web
  51. Predefinição:Citar livro
  52. Predefinição:Citar periódico
  53. Predefinição:Citar periódico
  54. Predefinição:Citar web
  55. Predefinição:Citar web
  56. "Over the last fifty years, How to Lie with Statistics has sold more copies than any other statistical text." J. M. Steele. ""Darrell Huff and Fifty Years of How to Lie with Statistics". Statistical Science, 20 (3), 2005, 205–209.
  57. Predefinição:Citar livro
  58. Predefinição:Citar livro
  59. Predefinição:Citar livro
  60. Predefinição:Citar web
  61. Predefinição:Citar web
  62. 62,0 62,1 Predefinição:Citar web
  63. Predefinição:Citar livro
  64. 64,0 64,1 Predefinição:Citar livro Originalmente do livro Design of Experiments de Fisher
  65. Predefinição:Citar livro
  66. 66,0 66,1 66,2 66,3 Predefinição:Citar livro
  67. 67,0 67,1 67,2 Predefinição:Citar livro
  68. 68,0 68,1 68,2 68,3 68,4 Predefinição:Citar livro
  69. 69,0 69,1 69,2 69,3 Predefinição:Citar livro
  70. Predefinição:Citar livro
  71. Predefinição:Citar livro
  72. Predefinição:Citar web
  73. Predefinição:Citar web
  74. Predefinição:Citar web
  75. Predefinição:Citar web
  76. Predefinição:Citar web
  77. Predefinição:Citar web
  78. Predefinição:Citar web
  79. Predefinição:Citar web
  80. Predefinição:Citar web
  81. Predefinição:Citar tese Abstract: "The focus was on the Neyman–Pearson approach to hypothesis testing. A brief historical development of the Neyman–Pearson approach is followed by mathematical proofs of each of the hypothesis tests covered in the reference material." The proofs do not reference the concepts introduced by Neyman and Pearson, instead they show that traditional test statistics have the probability distributions ascribed to them, so that significance calculations assuming those distributions are correct. The thesis information is also posted at mathnstats.com as of April 2013.
  82. 82,0 82,1 Predefinição:Citar web
  83. 83,0 83,1 Predefinição:Citar web
  84. 84,0 84,1 Predefinição:Citar livro
  85. 85,0 85,1 Predefinição:Citar livro
  86. 86,0 86,1 Predefinição:Citar web
  87. 87,0 87,1 NIST handbook: Two-Sample t-test for Equal Means
  88. 88,0 88,1 Predefinição:Citar web
  89. 89,0 89,1 Predefinição:Citar web
  90. 90,0 90,1 Predefinição:Citar web
  91. 91,0 91,1 Predefinição:Citar web
  92. 92,0 92,1 Predefinição:Citar web
  93. 93,0 93,1 Predefinição:Citar web
  94. Steel, R. G. D., and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, page 350.
  95. Predefinição:Citar livro
  96. 96,0 96,1 Predefinição:Citar web
  97. NIST handbook: F-Test for Equality of Two Standard Deviations (Testing standard deviations the same as testing variances)
  98. Steel, R. G. D., and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, page 288.)
  99. 99,0 99,1 Predefinição:Citar livro
  100. 100,0 100,1 100,2 Predefinição:Citar livro
  101. 101,00 101,01 101,02 101,03 101,04 101,05 101,06 101,07 101,08 101,09 101,10 101,11 101,12 101,13 101,14 101,15 101,16 101,17 101,18 101,19 Predefinição:Citar livro
  102. 102,0 102,1 Predefinição:Citar web
  103. Predefinição:Citar livroSeção 8.2
  104. 104,0 104,1 Predefinição:Citar periódico "Until we go through the accounts of testing hypotheses, separating [Neyman–Pearson] decision elements from [Fisher] conclusion elements, the intimate mixture of disparate elements will be a continual source of confusion." ... "There is a place for both "doing one's best" and "saying only what is certain," but it is important to know, in each instance, both which one is being done, and which one ought to be done."
  105. Predefinição:Citar web
  106. Predefinição:Citar periódico
  107. Predefinição:Citar web
  108. Predefinição:Citar web
  109. Predefinição:Citar periódico
  110. 110,0 110,1 Predefinição:Citar web
  111. Predefinição:Citar web
  112. Predefinição:Citar web
  113. Predefinição:Citar periódico
  114. Predefinição:Citar livro
  115. Predefinição:Citar periódico
  116. Predefinição:Citar livro
  117. Predefinição:Citar livro
  118. 118,0 118,1 118,2 118,3 Predefinição:Citar livro
  119. Predefinição:Citar livro
  120. Predefinição:Citar periódico
  121. Predefinição:Citar periódico
  122. Predefinição:Citar periódico
  123. Predefinição:Citar web
  124. Predefinição:Citar periódico
  125. Predefinição:Citar livro
  126. Predefinição:Citar livro
  127. Predefinição:Citar livro
  128. Predefinição:Citar livro
  129. 129,0 129,1 Predefinição:Citar livro
  130. Predefinição:Citar livro
  131. Predefinição:Citar periódico
  132. Predefinição:Citar periódico "The emphasis given to formal tests of significance throughout [R.A. Fisher's] Statistical Methods ... has caused scientific research workers to pay undue attention to the results of the tests of significance they perform on their data, particularly data derived from experiments, and too little to the estimates of the magnitude of the effects they are investigating." ... "The emphasis on tests of significance and the consideration of the results of each experiment in isolation, have had the unfortunate consequence that scientific workers have often regarded the execution of a test of significance on an experiment as the ultimate objective."
  133. Predefinição:Citar periódico
  134. Predefinição:Citar periódico Thirty years later, Meehl acknowledged statistical significance theory to be mathematically sound while continuing to question the default choice of null hypothesis, blaming instead the "social scientists' poor understanding of the logical relation between theory and fact" in "The Problem Is Epistemology, Not Statistics: Replace Significance Tests by Confidence Intervals and Quantify Accuracy of Risky Numerical Predictions" (Chapter 14 in Harlow (1997)).
  135. Predefinição:Citar periódico
  136. Predefinição:Citar periódico
  137. Predefinição:Citar periódico
  138. Predefinição:Citar livro
  139. Predefinição:Citar web
  140. 140,0 140,1 Predefinição:Citar periódico This paper lead to the review of statistical practices by the APA. Cohen was a member of the Task Force that did the review.
  141. 141,0 141,1 141,2 141,3 Predefinição:Citar periódico
  142. Predefinição:Citar periódico
  143. 143,0 143,1 Predefinição:Citar periódico "Hypothesis tests. It is hard to imagine a situation in which a dichotomous accept-reject decision is better than reporting an actual p value or, better still, a confidence interval." (p 599). The committee used the cautionary term "forbearance" in describing its decision against a ban of hypothesis testing in psychology reporting. (p 603)
  144. Predefinição:Citar web
  145. Journal of Articles in Support of the Null Hypothesis website: JASNH homepage. Volume 1 number 1 was published in 2002, and all articles are on psychology-related subjects.
  146. Predefinição:Citar periódico
  147. 147,0 147,1 Predefinição:Citar periódico
  148. Predefinição:Citar periódico
  149. Predefinição:Citar periódico
  150. Predefinição:Citar periódico "...the proper application of statistics to scientific inference is irrevocably committed to extensive consideration of inverse [AKA Bayesian] probabilities..."It was acknowledged, with regret, that a priori probability distributions were available "only as a subjective feel, differing from one person to the next" "in the more immediate future, at least".
  151. Predefinição:Citar periódico In listing the competing definitions of "objective" Bayesian analysis, "A major goal of statistics (indeed science) is to find a completely coherent objective Bayesian methodology for learning from data." The author expressed the view that this goal "is not attainable".
  152. Predefinição:Citar periódico
  153. Predefinição:Citar periódico
  154. Mathematics > High School: Statistics & Probability > Introduction Predefinição:Webarchive Common Core State Standards Initiative (relates to USA students)
  155. College Board Tests > AP: Subjects > Statistics The College Board (relates to USA students)
  156. Predefinição:Citar livro'Métodos estatísticos e termos estatísticos são necessários ao reportar os dados massivos de tendências sociais e econômicas, condições de mercado, piscinas de opinião, censos. Mas sem escritores que usam palavras com honestidade e leitores que sabem o que elas significam, o resultado pode ser somente semântica sem sentido.'
  157. Predefinição:Citar livro "...As ideias básicas em estatística nos assiste em pensar claramente sobre o problema, provendo alguma direção guia sobre as condições que devem ser satisfeitas se interferências sonoras são feitas, e nos permite detectar muitas interferências que não têm boa fundamentação lógica."
  158. Predefinição:Citar periódico
  159. Predefinição:Citar periódico
  160. Predefinição:Citar periódico Preprint
  161. Predefinição:Citar periódico
  162. Predefinição:Citar livro