Gráfico Q-Q

Em estatística, um gráfico Q-Q^[1] ("Q" significa quantil) é um gráfico de probabilidades, que é um método gráfico para comparar duas distribuições de probabilidade, traçando seus quantis uns contra os outros. Primeiro, o conjunto de intervalos para os quantis é escolhido. Um ponto Predefinição:Math no gráfico corresponde a um dos quantis da segunda distribuição (coordenada Predefinição:Math) plotadas contra o mesmo mesmo quantil da primeira distribuição de (coordenada Predefinição:Math). Portanto, a linha é uma curva paramétrica cujo parâmetro é o quantil de cada ponto.

Se as duas distribuições que estão sendo comparadas são semelhantes, os pontos no gráfico Q-Q vão repousar aproximadamente na linha Predefinição:Math. Se as distribuições são linearmente relacionadas, os pontos no gráfico Q-Q irão repousar aproximadamente em uma linha, mas não necessariamente na linha Predefinição:Math. Gráficos Q-Q também podem ser usados como meio gráfico de estimativa de parâmetros de dispersão e tendência central em uma família de distribuições.

Um gráfico Q-Q é usado para comparar as formas das distribuições, fornecendo uma exibição gráfica de como as propriedades, tais como medidas de tendência central, dispersão e assimetria são semelhantes ou diferentes nas duas distribuições. Gráficos Q-Q podem ser usados para comparar conjuntos de dados ou distribuições teóricas. O uso de gráficos Q-Q para comparação de duas amostras de dados pode ser visto como uma abordagem não-paramétrica para comparação de suas distribuições subjacentes. Um gráfico Q-Q geralmente é uma abordagem mais poderosa para fazer essa comparação do que a técnica comum de comparação de histogramas das duas amostras, mas requer mais habilidade para interpretar. Gráficos Q-Q são comumente usados para comparar um conjunto de dados com um modelo teórico.^[2] Isto pode fornecer uma avaliação de qualidade do ajuste (goodness of fit) que é gráfica, ao invés de reduzir a uma exibição numérica. Gráficos Q-Q também são usados para comparar duas distribuições teóricas entre si. Uma vez que gráficos Q-Q compararam distribuições, não há necessidade de observar os valores como pares, como em um gráfico de dispersão, nem há necessidade mesmo serem iguais o número de valores nos dois grupos a serem comparados.

O termo "gráfico de probabilidades" às vezes, refere-se especificamente a um gráfico Q-Q, e menos comumente o gráfico P-P. O coeficiente de correlação do gráfico de probabilidade é uma grandeza derivada da ideia de gráficos Q-Q, que mede a concordância de uma distribuição ajustada com os dados observados e que às vezes é usada como um meio de ajuste de uma distribuição de dados.

Posições de plotagem

A escolha dos quantis de uma distribuição teórica pode depender do contexto e do propósito. Uma escolha, dada uma amostra de tamanho Predefinição:Math, é Predefinição:Math para Predefinição:Math, pois estes são os quantis que a distribuição amostral analisa. O último deles, Predefinição:Math, corresponde ao percentil 100 (o valor máximo da distribuição teórica, que às vezes é infinito). Outras opções são o uso de Predefinição:Math, ou espaçar os pontos uniformemente na distribuição uniforme, usando Predefinição:Math.^[3]

Muitas outras escolhas foram sugeridas, tanto formais quanto heurísticas, baseadas em teoria ou simulações. As subseções a seguir discutem algumas delas.

Heurística

Várias fórmulas diferentes foram usadas ou propostas como posições de plotagem. Tais fórmulas têm a forma Predefinição:Math para algum valor de Predefinição:Math no intervalo de 0 a 1, que dá um intervalo entre Predefinição:Math e Predefinição:Math^[4] .^[5]

As expressões incluem:

Para tamanho de amostra com Predefinição:Math grande, há pouca diferença entre essas várias expressões.

Um exemplo: Comparando uma amostra com a distribuição normal

Existem diversas distribuições populacionais teóricas, cada uma com características próprias. Os gráficos Q-Q podem utilizar qualquer uma delas, ou duas delas. De maneira mais geral, o teste de Shapiro–Wilk usa os valores esperados das estatísticas de ordem da distribuição dada; o gráfico e a linha resultantes produzem a estimativa de mínimos quadrados generalizados para localização e dispersão (da intercepto e inclinação da linha ajustada).^[12]

O uso comum de gráficos Q–Q é comparar a distribuição de uma amostra com uma distribuição teórica, como a distribuição normal padrão Predefinição:Math.^[13]

Para exemplificar a construção de uma gráfico Q-Q, a partir desse ponto são apresentadas as funções matemáticas relacionadas com a distribuição normal, que é uma das distribuições estatísticas mais utilizadas.

Sendo a função de densidade de probabilidade da distribuição normal (com média $μ$ e desvio-padrão $σ$ ):

f.d.p. $= \frac{1}{σ \sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$

A função $erf (x)$ é a função erro, utilizada para se integrar a função da distribuição normal padrão, com $μ = 0$ e $σ = 1$ :

$erf (x) = \frac{2}{\sqrt{π}} \int_{0}^{x} e^{- t^{2}} d t$

Sendo $erfc (x) + erf (x) = 1$ , portanto $erfc (x)$ é complementar à função erro $erf (x)$ .

$erfc (x) = \frac{2}{\sqrt{π}} \int_{x}^{\infty} e^{- t^{2}} d t$

Sendo A um conjunto de dados amostrais de tamanho Predefinição:Math, ordenado crescentemente, no qual estão contidos os valores a₁, a₂, ...,a_k, ..., a_n, que apresentam média $\overline{a}$ e desvio-padrão $s$ . Serão calculados quantis correspondentes q₁, q₂, ...,q_k, ..., q_n.

Seja $Φ$ a função distribuição acumulada (f.d.a.) da distribuição normal padrão. Então a função distribuição acumulada para o Predefinição:Math-ésimo elemento é:

$f.d.a = Φ (a_{k}) = \frac{1}{2} [1 + erf (\frac{a_{k} - \overline{a}}{s \sqrt{2}})]$

Outra forma de se calcular a f.d.a. é:

$f.d.a. = Φ (a_{k}) = \frac{1}{2} erfc (\frac{a_{k} - \overline{a}}{s \sqrt{2}})$

A inversa da função erro complementar é: ${erfc}^{- 1} (z)$

que se relaciona com inversa da função erro^[14]: ${erf}^{- 1} (z) = {erfc}^{- 1} (1 - z)$

Escolhendo uma regra para um gráfico Q-Q bicaudal

As fórmulas das posições de plotagem (descritas numa seção acima) são definidas para o intervalo [0,1]. Mas para as posições de plotagem abrangerem o domínio [-1,1] é necessário multiplicar a fórmula por dois, e subtrair uma unidade. Ou seja, $[- 1, 1] \sim$ Predefinição:Math. Essa fórmula garante que a mediana (percentil 50) recaia exatamente quando a f.d.a. for 1/2 e ${erf}^{- 1} (0) = 0$ .

Coordenada $x_{k} = z_{esperado} = \sqrt{2} {erf}^{- 1} (\frac{2 (k - a)}{(n + 1 - 2 a)} - 1)$

A tunagem^[15] das posições de plotagem para a distribuição normal

Acima, foi fixado o ponto central da curva (percentil 50). O valor de Predefinição:Math altera a dispersão dos quantis, sem alterar a posição do ponto central. É necessário garantir que a dispersão dos quantis seja idêntica à dispersão dos percentis. Para isso ocorrer, precisamos definir o valor de Predefinição:Math, que é o mesmo para todos os percentis diferentes de percentil 50.

Segundo Wolfram,^[16] o percentil "p" é calculado na posição $k = \frac{p (n + 1)}{100}$ .

Assim, é escolhido arbitrariamente o terceiro quartil, ou percentil 75, cuja f.d.a. é 3/4, situação em que o escore-z^[17] $\approx 0, 674489741$ e ${erf}^{- 1} (1 / 2) \approx 0, 47693627$ . Para se encontrar o valor de Predefinição:Math da regra bicaudal das posições de plotagem utilizamos:

$\frac{2 (k - a)}{(n + 1 - 2 a)} - 1 (1)$

e $k = \frac{75 (n + 1)}{100} . (2)$

Substituindo (2) em (1):

$\frac{2 (\frac{75 (n + 1)}{100} - a)}{(n + 1 - 2 a)} - 1$

Assim, neste exemplo, atribui-se arbitrariamente a regra bicaudal das posições de plotagem ao percentil 75, fazendo:

$\frac{2 (\frac{75 (n + 1)}{100} - a)}{(n + 1 - 2 a)} - 1 = \frac{1}{2}$

Resolvendo a equação acima, encontra-se que Predefinição:Math=0, que corresponde:

Coordenada $x_{k} = z_{esperado} = \sqrt{2} {erf}^{- 1} (\frac{2 k}{n + 1} - 1)$ Predefinição:NoteTag

Coordenada $y_{k} = z_{obtido} = q_{k} = \frac{a_{k} - \overline{a}}{s}$

Interpretação

Os pontos plotados em um gráfico Q–Q são sempre crescentes quando vistos da esquerda para a direita. Se as duas distribuições comparadas forem idênticas, o gráfico Q–Q segue a linha de 45° Predefinição:Math. Se as duas distribuições concordarem depois de transformar linearmente os valores em uma das distribuições, então o gráfico Q–Q segue alguma linha, mas não necessariamente a linha Predefinição:Math. Se a inclinação geral do gráfico Q–Q for mais plana que a linha Predefinição:Math, a distribuição plotada no eixo horizontal é mais disperso do que a distribuição plotada no eixo vertical. Por outro lado, se a inclinação geral do gráfico Q–Q for mais íngreme do que a linha Predefinição:Math, a distribuição plotada no eixo vertical é mais dispersa do que a distribuição plotada no eixo horizontal. Os gráficos Q–Q são frequentemente arqueados, ou em forma de "S", indicando que uma das distribuições é mais assimétrica que a outra, ou que uma das distribuições tem caudas mais pesadas que a outra.

A intercepção e inclinação de uma regressão linear entre os quantis dá medidarelativas da localização e da dispersão das amostras. Se a mediana da distribuição plotada no eixo horizontal for 0, a interceptação de uma linha de regressão é uma medida de localização e a inclinação é uma medida de dispersão. A distância entre as medianas é outra medida de localização relativa refletida em um gráfico Q–Q. O "coeficiente de correlação do gráfico de probabilidade" (gráfico PPCC) é o coeficiente de correlação entre os quantis. Quanto mais próximo o coeficiente de correlação estiver de 1, mais próximas as distribuições estarão de serem versões deslocadas e escalonadas uma das outra.

Notas

Predefinição:NoteFoot

Referências

Predefinição:Reflist Predefinição:Estatística Predefinição:Controle de autoridade

Conexões externas

Predefinição:Commons category

Probability plot
Descrição alternativa do gráfico Q-Q: http://www.stats.gla.ac.uk/steps/glossary/probability_distributions.html#qqplot

↑ Predefinição:Citar periódico
↑ Predefinição:Citar livro
↑ Predefinição:Citation
↑ Predefinição:Citation
↑ Predefinição:Citation
↑ Predefinição:Harvtxt. The plotting of observations on probability paper. Statistica Neederlandica, 7: 163-173. Predefinição:Doi. Predefinição:In lang
↑ Predefinição:Citar web
↑ Distribution free plotting position, Yu & Huang
↑ Predefinição:Harvtxt.
↑ Predefinição:Citation
↑ Predefinição:Harvtxt.
↑ Testing for Normality, by Henry C. Thode, CRC Press, 2002, Predefinição:ISBN, p. 31
↑ Predefinição:Harv
↑ Predefinição:Citar web
↑ https://pt.wiktionary.org/wiki/tunagem
↑ Weisstein, Eric W. Percentile. MathWorld -- A Wolfram Web Resource. Consultado em 3/4/2007.
↑ Predefinição:Citar livro

[1] Predefinição:Citar periódico

[2] Predefinição:Citar livro

[3] Predefinição:Citation

[4] Predefinição:Citation

[5] Predefinição:Citation

[6] Predefinição:Harvtxt. The plotting of observations on probability paper. Statistica Neederlandica, 7: 163-173. Predefinição:Doi. Predefinição:In lang

[7] Predefinição:Citar web

[8] Distribution free plotting position, Yu & Huang

[9] Predefinição:Harvtxt.

[10] Predefinição:Citation

[11] Predefinição:Harvtxt.

[thode31-12] Testing for Normality, by Henry C. Thode, CRC Press, 2002, Predefinição:ISBN, p. 31

[thode21-13] Predefinição:Harv

[had2know-14] Predefinição:Citar web

[15] ttps://pt.wiktionary.org/wiki/tunagem

[16] Weisstein, Eric W. Percentile. MathWorld -- A Wolfram Web Resource. Consultado em 3/4/2007.

[Não_nomeado-xffb-1-17] Predefinição:Citar livro

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Gráfico Q-Q

Índice

Posições de plotagem

Heurística

Um exemplo: Comparando uma amostra com a distribuição normal

Escolhendo uma regra para um gráfico Q-Q bicaudal

A tunagem^[15] das posições de plotagem para a distribuição normal

Interpretação

Notas

Referências

Conexões externas

Menu de navegação

Gráfico Q-Q

Posições de plotagem

Heurística

Um exemplo: Comparando uma amostra com a distribuição normal

Escolhendo uma regra para um gráfico Q-Q bicaudal

A tunagem[15] das posições de plotagem para a distribuição normal

Interpretação

Notas

Referências

Conexões externas

Menu de navegação

Pesquisa

A tunagem^[15] das posições de plotagem para a distribuição normal