Amplitude interquartil

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Estatística sidebar Predefinição:Wikipédia audível

Imagem de um diagrama de caixa (com intervalo interquartil) e uma função de densidade de uma população normal.

O intervalo interquartil (IIQ) foi desenvolvido no âmbito da estatística a fim de avaliar o grau de espalhamento de dados (dispersão) em torno da medida de centralidade. Para entender o comportamento dos dados (sejam eles discretos ou contínuos) de uma forma mais precisa, busca-se o estudo sobre a dispersão de dados por meio de ferramentas que complementam uma análise geral como o desvio padrão e a variância.[1]

Enquanto o desvio padrão e a variância calculam a medida de dispersão sem levar em conta a ordem dos dados, o intervalo interquartil avalia a dispersão de dados somente depois de ordená-los em ordem crescente. O intervalo interquartil é calculado com base no cálculo de quartis, sendo o primeiro quartil (inferior), o quartil intermediário (mediana), o terceiro quartil (superior), que estão ligados ao conceito de quantil. A diferença entre o quartil superior e o quartil inferior determina o intervalo interquartil.[1]

História

Retrato de Karl Pearson.

Os termos quartil inferior e quartil superior foram cunhados por Sir Donald MacAlister em 1879 com a publicação de The Law of the Geometric Mean.[2]

Já os termos intervalo interdecil e intervalo interquartil foram cunhados por Francis Galton em 1882 com a publicação de Report of the Anthropometric Committee, embora a ideia de intervalo interquartil tenha aparecido anteriormente nos trabalhos de Carl Friedrich Gauss e Adolphe Quételet. Galton organizou as observações em ordem crescente de magnitude e tomou as frações necessárias de cada extremidade, utilizando a interpolação para obter os pontos de cortes exatos.[3]

Galton reconheceu a maior estabilidade dos quantis mais centrais e usou intervalos interquartis como estatísticas descritivas. Baseando–se nas fórmulas para covariância entre quantis amostrais, Karl Pearson apontou que enquanto a amplitude semi-interquartílica 12IIQ tem a vantagem de estimar diretamente o erro provável, outros pares de quantis amostrais simetricamente espaçados podem fornecer estimadores mais eficientes da variabilidade no caso normal.[4]

Definição formal

O conceito de quartil é importante para a definição de intervalo interquartil. Para esta definição formal é utilizado o conceito de mediana para determinar os quartis (Q1,Q2 e Q3), sendo necessário entender os cálculos tanto para conjuntos de dados com quantidade ímpar de elementos quanto para conjuntos de dados com quantidade par de elementos. É possível determinar a posição dos quartis apenas se os elementos de um conjunto finito de dados estiverem ordenados.[5]

Quartil para conjuntos de dados com quantidade par de elementos

A mediana de um conjunto de dados θ={d1,d2,...,dn} é a posição di que divide igualmente o conjunto θ em dois grupos, cada um com 50% dos dados. Se θ possui os elementos com as posições d1,d2,...,dn, então di é a posição que marca o segundo quartil. Pela definição de mediana, para o caso de um conjunto de dados com quantidade par de elementos, a posição di está entre as posições di1 e di+1 obtida pelo cálculo di=di1+di+12. Neste caso, existem elementos de θ que ocupam as posições di1 e di+1. Estes elementos devem substituir di1 e di+1 no cálculo de di. Determinando-se di, θ passa a ter uma mediana definida. Então, θ={d1,d2,...,di1,di,di+1,...,dn}, em que di é uma posição obtida pela média dos elementos di1 e di+1. Isto é, di não é um elemento novo de θ. Os grupos formados a partir do segundo quartil di são A=(d1,d2,...,di1)=(a1,a2,...,an) e B=(di+1,...,dn)=(b1,...,bn).[5]

Observações 1.

  1. Se A e B tiverem uma quantidade par de elementos, é realizado o mesmo processo de di para determinar o primeiro e o terceiro quartil. Então, a posição dj do grupo A determina o primeiro quartil pelo cálculo dj=dj1+dj+12. Isto é, A=(d1,d2,...,dj1,dj,dj+1,...,di1). Analogamente, a posição dl do grupo B determina o terceiro quartil pelo cálculo dl=dl1+dl+12. Então, B=(di+1,...,dl1,dl,dl+1,...,dn).[5]
  2. Pela definição de mediana, se A e B tiverem uma quantidade ímpar de elementos, o primeiro quartil é calculado por dj=ag+12. Neste caso, é utilizado o valor posicional em vez do valor numérico do elemento de θ para a posição ag e o terceiro quartil é calculado a partir da quantidade do grupo B por dl=bh+12. Também neste caso, é utilizado o valor posicional em vez do valor numérico do elemento de θ para a posição bh.[5]

O conjunto de dados θ tem as posições dj para o primeiro quartil, di para o segundo quartil e dl para o terceiro quartil. Em geral, é utilizada a notação Q1, Q2 e Q3 para o primeiro quartil, o segundo quartil e o terceiro quartil, respectivamente.[5]

Quartil para conjuntos de dados com quantidade ímpar de elementos

A mediana de um conjunto de dados θ¯={e1,e2,...,en} é a posição ei que divide igualmente o conjunto θ¯ em dois grupos, cada um com 50% dos dados. Se θ¯ possui os elementos com as posições e1,e2,...,en, então ei é a posição que marca o segundo quartil. Pela definição de mediana, para o caso de um conjunto de dados com quantidade ímpar de elementos, a posição ei é obtida pelo cálculo ei=en+12. Isto é, θ¯=(e1,e2,...,ei1,ei,ei+1,...,en). Os grupos formados são A^=(gi+1,...,gn)=(p1,...,pm) e B^=(hi+1,...,hn)=(q1,...,qn).[5]

Observações 2.

  1. Se A^ e B^ tiverem uma quantidade par de elementos será realizado o mesmo processo do item 1 do cálculo do quartil para conjuntos de dados com quantidade par de elementos.[5]
  2. Se A^ e B^ tiverem uma quantidade ímpar de elementos será realizado o mesmo processo do item 2 do cálculo do quartil para conjuntos de dados com quantidade par de elementos.[5]

O conjunto de dados θ¯ tem as posições ej para o primeiro quartil, ei para o segundo quartil e el para o terceiro quartil. Lembrando que em geral, é utilizada a notação Q1, Q2 e Q3 para o primeiro quartil, o segundo quartil e o terceiro quartil, respectivamente.[5]

Intervalo interquartil

Sendo Q1,Q2 e Q3, o intervalo interquartil é dado por IIQ=Q3Q1.[6][7]

Observações sobre limite superior e inferior

Na coleta de dados podem ocorrer erros de arredondamentos ou erros de observação. Estes dados são considerados discrepantes dentro de uma mesma amostra e podem levar a erros nas análises sobre a distribuição dos dados. Portanto, estabelece-se o critério de limite inferior e de limite superior nos quartis (os dados que estiverem além destes limites são considerados discrepantes).[8]

Então,

LI=Q1cIIQ

LS=Q3+cIIQ,

em LI e LS são o limite inferior e o limite superior, respectivamente.[9]

Embora c seja uma constante que pertence aos números reais e pode assumir qualquer valor, é preferível usar o valor c=1,5. O valor c=1,5 é capaz de captar mais de 99% dos dados embaixo de uma curva normal para mais e para menos do limite superior e do limite inferior, mas não é capaz de captar 100% dos dados deixando uma margem para a visualização dos dados discrepantes.[10]

Então, os cálculos do limite superior e do limite inferior podem ser dados como:

LI=Q11,5IIQ

LS=Q3+1,5IIQ,

em LI e LS são o limite inferior e o limite superior, respectivamente.[10]

Discussão

Os outros métodos para encontrar as posições dos quartis podem gerar dúvidas. Por exemplo, ao pensar que Q1,Q2 e Q3 possuem respectivamente 25%, 50% e 75% dos dados de um conjunto Ω, os cálculos dos porcentuais podem ser dados diretamente como:[11][12]

Q1=n25%n4

Q2=n50%n2

Q3=n75%3n4,

em que n é número de elementos.[11][12]

Para o conjunto Ω¯={3,5,7,9,11,67} e o primeiro quartil Q1=64=1,5, é visível que a posição 1,5 não possui 25% dos dados. Logo, este não pode ser o melhor método..[11] Um outro método para definir o quartil é Qi=i4(N+1), em que N é o número de elementos do conjunto Ω˙={2,4,6,8,10,90} e i é a posição do quartil. Então, para definir o terceiro quartil Q3 , tem-se Q3=34(6+1)=5,25 Entretanto, a posição 5,25 não possui 75% dos dados.[12]

Definição informal

Em estatística descritiva, o intervalo interquartil, também denominado por média espalhada, média de 50% ou, mais tecnicamente, propagação de H, é uma medida de dispersão estatística igual à diferença entre os percentis 75 e 25 ou entre o quartil superior e o quartil inferior. Isto é, IIQ=Q3Q1. Em outras palavras, o intervalo interquartil é a diferença entre o primeiro quartil e o terceiro quartil.[13][14]

O intervalo interquartil é uma medida de variabilidade baseada na divisão de um conjunto de dados em quartis. Os quartis dividem um conjunto de dados em quatro partes iguais. Os valores que separam as partes são chamados de primeiro quartil, segundo quartil e terceiro quartil, indicados por Q1,Q2 e Q3, respectivamente.[15]

O intervalo interquartil tem um ponto de ruptura de 25%, diferentemente do intervalo total.[16] O intervalo interquartil é usado para construir gráficos de barras, representações gráficas simples de uma distribuição de probabilidade.[17] Para uma distribuição simétrica, em que a mediana é igual ao midhinge (média entre o primeiro quartil e o terceiro quartil), metade do intervalo interquartil é igual ao desvio absoluto médio (DAM). A medida correspondente de tendência central é a mediana.

O intervalo interquartil pode ser usado para identificar outliers (pontos discrepantes em uma distribuição). A partir da metade do intervalo interquartil, tem-se o desvio do quartil ou o intervalo semi-interquartil.[18]

Intervalo semi-interquartil

As medidas de tendência central realizam uma síntese para oferecer uma leitura rápida dos dados. A partir dos conceitos de média, é possível observar no intervalo interquartil uma medida central chamada de desvio quartílico ou intervalo semi-interquartil. O intervalo semi-interquartil Q é definido como Q=12(Q3Q1).[19]

O intervalo interquartil, além de avaliar uma dispersão de dados, oferece uma medida de 50% dos dados. Isto favorece uma nova leitura dos dados e comparações com as demais medidas centrais moda, mediana e média.[20]

Diagrama de caixa

Visualização do histograma de uma amostra de uma distribuição simétrica e do seu diagrama de caixa em função do desvio padrão. O intervalo interquartil é a região limitada pelas retas verde (Q1) e amarela (Q3). A reta vermelha representa a mediana do conjunto de dados. As letras X representam os outliers.

Predefinição:Artigo principal Os dados do intervalo interquartil são úteis para a construção de um diagrama de caixa, também chamado de boxplot. Isto é, os valores de Q1,Q2,Q3,LI e LS favorecem a construção da figura abaixo.[17]

Elements of a boxplot pt

Em estatística, usualmente não há uma regra para determinar a largura da caixa (caixa em azul, na figura acima). Com bom senso, adota-se uma largura adequada para o diagrama de caixa. Embora possa ser construído em qualquer direção, o diagrama de caixa geralmente é posicionado na horizontal para facilitar a visualização dos dados. Com o auxílio de uma escala, marca-se a posição de Q1,Q2,Q3,LI e LS. Os dados que estão além do limite superior e do limite inferior são representados como pontos ou asteriscos. [21]

Em estatística, os pontos vermelhos na figura acima são chamados de outliers e podem evidenciar algum erro de arredondamento ou erro de observação dos dados. Entretanto, nem sempre os pontos que estão além do limite superior e do limite inferior são outliers. Existem casos em que os outliers são tratados como pontos exteriores ou pontos discrepantes em vez de erros de arredondamento ou erros de observação. Por exemplo, se os 15 municípios brasileiros mais populosos forem colocados em ordem crescente de número de habitantes, São Paulo e Rio de Janeiro serão pontos extremos, o que não configura um erro de arredondamento ou erro de observação.[22]

Exemplos

Exemplo com o uso de mediana

Na sequência numérica {4,4,6,7,10,11,12,14,15}, a mediana é o número 10 porque é o número que está exatamente no meio da série. Em uma sequência numérica com quantidade ímpar de elementos, a mediana sempre será o número que está no meio da sequência independente do valor numérico.[23] Em uma sequência numérica com quantidade par de elementos, a mediana será a soma dos dois valores centrais dividido por 2. Por exemplo, para {5,7,8,12,15,17}, a mediana será 8+122=10.[24][25]

O intervalo interquartil é a diferença entre a mediana da segunda parte e a mediana da primeira parte do conjunto de dados. Seja a sequência numérica {4,4,6,7,10,11,12,14,15}. A mediana da primeira parte {4,4,6,7} é 4+62=5. A mediana da segunda parte {11,12,14,15} é 12+142=13. Portanto, o intervalo interquartil é 135=8.

A partir de um conjunto de dados representado em uma tabela, tem-se IIQ=Q3Q1=11931=88.[26] Para o cálculo do intervalo semi-interquartil, tem-se Q=12(Q3Q1)=12(11931)=44.[19]

Exemplo sobre o cuidado com a medida central

Embora ofereçam um resumo dos dados amostrais, o contraexemplo abaixo mostra que as medidas centrais não são suficientes para caracterizar uma avaliação sobre uma sequência numérica.[27]

Sejam os conjuntos de dados:

A={1,6,10,10,11,13,13,17,18}

B={9,9,9,11,13,13,11,10,14}

C={11,11,11,11,11}

Todas as sequências possuem média 11, mas visualmente são sequências diferentes entre si. A variabilidade de dados em C não existe, mas a variabilidade de dados em B é maior do que a variabilidade de dados em A. Entretanto, os dados em A se mostram mais distantes entre si que os dados em B, o que pode induzir ao erro ao admitir que os dados em A são mais dispersos que os dados em B. Por isso, o cálculo dos quartis e do limite superior e do limite inferior ajudam a evitar erros nas conclusões das análises.[27]

Para evidenciar a sequência numérica com maior variabilidade de dados, pode ser realizada uma comparação entre a distribuição dos dados por meio do intervalo interquartil.[7]

Depois de ordenar os dados, tem-se

Para A, Q1=10 e Q3=13

Para B, Q1=9 e Q3=13

Logo,

Para A, AIQA=Q3Q1=1310=3

Para B, AIQB=Q3Q1=139=4

Desta forma, a dispersão de B é maior que a dispersão de A. Portanto, IIQB>IIQA.[7]

O intervalo interquartil não é suficiente para justificar o fato de A possuir os dados mais distantes entre si que B. Para identificar a modelagem dos dados de A e de B, são calculados o limite superior e o limite inferior.[9]

Para A,

LI=Q1cAIQ=101,53=5,5

LS=Q3+cAIQ=13+1,53=17,5

Para B,

LI=Q1cAIQ=91,54=3

LS=Q3+cAIQ=13+1,54=19

Desta forma, apenas A possui dados discrepantes. Reafirmando, IIQB>IIQA.[9]

Diagrama de caixa dos conjuntos de dados A e B. O retângulo azul representa o intervalo interquartil, a linha vermelha represents a mediana, as hastes pretas representam o limite inferior e e limite superior e os asteriscos em rosa representam os dados discrepantes.

A síntese sobre o intervalo é obtida pelo cálculo do intervalo semi-interquartil. [19]

Então,

Para A, QA=12(Q3Q1)=12(1310)=1,5

Para B, QB=12(Q3Q1)=12(139)=2

As conclusões para uma análise de dados amostrais são:

  • C não possui dispersão
  • A se dispersa menos que B e vice-versa
  • 50% dos dados amostrais estão entre Q1 e Q3. Portanto, a medida central de 50% dos dados é:
    • Para A, 12(Q3+Q1)=12(13+10)=232=11,5
    • Para B, 12(Q3+Q1)=12(9+13)=222=11
  • O intervalo interquartil demonstra a dispersão dos dados em torno da média de 50% dos dados. Isto é, 50% dos dados amostrais estão no intervalo:
    • Para A, 11,5±1,5
    • Para B, 11±2[20]

Distribuição do intervalo interquartil

O intervalo interquartil de uma distribuição contínua pode ser calculado integrando a função de densidade de probabilidade, que produz a função de distribuição cumulativa (FDC). O quartil inferior Q1 é um número tal que a integral da função de distribuição cumulativa de a Q1 é igual a 0,25, enquanto que o quartil superior Q3 é um número tal que a integral de a Q3 é igual a 0,75. Em termos da função de distribuição cumulativa, os quartis podem ser definidos da seguinte forma

Q1=FDC1(0,25)

Q3=FDC1(0,75),

em que a função de distribuição cumulativa FDC1é a função quantil.[28]

O intervalo interquartil e a mediana de algumas distribuições comuns são mostradas na tabela abaixo.

Distribuição Mediana Intervalo interquartil
Normal μ 2Φ1(0,75)σ1,349σ(2720)σ
Laplace μ 2bIn(2)1,386b
Cauchy μ 2γ

Teste do intervalo interquartil para normalizar a distribuição

As medidas intervalo interquartil, média e desvio padrão de uma população P podem ser usadas em um teste simples, em que P pode ou não pode ser uma distribuição normal. Se P for normalmente distribuída, então o score do primeiro quartil z1 é 0,67 e o score do terceiro quartil z3 é +0,67. Dado a média X e o desvio padrão σ para P, se P for normalmente distribuída:[29][30]

Q1=(σz1)+X

Q3=(σz3)+X

Se os valores reais do primeiro quartil ou do terceiro quartil diferirem substancialmente dos valores calculados, P não é normalmente distribuída. Entretanto, uma distribuição normal pode ser perturbada para manter Q1 e Q2, scores 0,67 e +0,67 e não ser normalmente distribuída, de modo que o teste acima produza um resultado falso positivo. Há outros testes de normalidade mais indicados, como o gráfico QQ.[31]

Outras medidas de dispersão

Desvio padrão

Predefinição:AP Em probabilidade, o desvio padrão ou desvio padrão populacional (comumente representado pela letra grega σ) é uma medida de dispersão em torno da média populacional de uma variável aleatória. Já em estatística, o desvio padrão ou desvio padrão amostral (comumente representado pela letra latina s) é uma medida de dispersão dos dados em torno de média amostral. Um baixo desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado.[32] Um alto desvio padrão indica que os pontos dos dados estão espalhados por uma ampla gama de valores. O desvio padrão populacional ou amostral é a raiz quadrada da variância populacional ou amostral correspondente, de modo a ser uma medida de dispersão que seja um número não negativo e que use a mesma unidade de medida dos dados fornecidos.[33][34][35]

Variância

Predefinição:AP

Em probabilidade e estatística, a variância de uma variável aleatória ou de um processo estocástico é uma medida de dispersão estatística que inda o quão longe os valores encontram-se do valor esperado.[36]

Outras amplitudes

Amplitude do intervalo de classe

A amplitude do intervalo de classe é definida pela diferença entre o limite superior e o limite inferior da própria classe. Isto permite verificar se em uma dada distribuição de frequências as classes possuem a mesma amplitude, evitando erros nos cálculos de quartis e desvios de interpretação.[37]

Amplitude do intervalo de confiança

A amplitude do intervalo de confiança é definida pela diferença entre o limite superior e o limite inferior do próprio intervalo.

Em termos matemáticos,

(X¯+zγ2σn)(X¯zγ2σn)=2zγ2σn,

em que γ é a confiança, σ é o desvio padrão e n é o tamanho da amostra.[38]

Em estatística, também é comum o uso de semi-amplitude como erro de estimação.

Em termos matemáticos,

Erro=2zγ2σn2,

em que γ é a confiança, σ é o desvio padrão e n é o tamanho da amostra.[38]

Predefinição:Referências

Ligações externas

Predefinição:Portal3 Predefinição:Artigo destacado