Análise exploratória de dados
Predefinição:Ver desambig Predefinição:Estatística sidebar Em estatística, a análise exploratória de dados (AED) é uma abordagem à análise de conjuntos de dados de modo a resumir suas características principais, frequentemente com métodos visuais. Um modelo estatístico pode ou não ser usado, mas primariamente a AED tem como objetivo observar o que os dados podem nos dizer além da modelagem formal ou do processo de teste de hipóteses. A análise exploratória de dados foi promovida pelo estatístico norte-americano John Tukey, que incentivava os estatísticos a explorar os dados e possivelmente formular hipóteses que poderiam levar a novas coletas de dados e experimentos. A AED é diferente da análise inicial de dados (AID), que se concentra mais estreitamente em verificar os pressupostos exigidos para ajuste de modelos e teste de hipóteses, além de manusear valores faltantes e fazer transformações de variáveis conforme necessário. A análise exploratória de dados abrange a AID.[1]
A análise exploratória de dados emprega grande variedade de técnicas gráficas e quantitativas, visando maximizar a obtenção de informações ocultas na sua estrutura, descobrir variáveis importantes em suas tendências, detectar comportamentos anômalos do fenômeno, testar se são válidas as hipóteses assumidas, escolher modelos e determinar o número ótimo de variáveis.
Os softwares atualmente disponíveis possibilitam que esta técnica se constitua em uma ferramenta para descobrir quais tendências, relações e padrões podem estar ocultos em uma coleção de dados analisados. Seguindo as diretrizes propostas por Tukey, os investigadores deveriam iniciar sua análise pelo exame dos dados disponíveis e depois decidir qual técnica aplicar para resolver o problema.
Visão geral
Tukey definiu a análise de dados em 1961 como: "[P]rocedimentos para analisar dados, técnicas para interpretar os resultados de tais procedimentos, formas de planejar a reunião dos dados para tornar sua análise mais fácil, mais precisa ou mais exata e toda a maquinaria e os resultados da estatística (matemática) que se aplicam a análise de dados."[2]
A defesa da AED por Tukey encorajou o desenvolvimento de pacotes de estatística computacional, especificamente a S na Bell Labs. A linguagem de programação S inspirou os sistemas S-PLUS e R. Esta família de ambientes de estatística computacional incluiu capacidades de visualização dinâmica altamente melhoradas, que permitiram aos estatísticos identificar valores atípicos, tendências e padrões em dados que mereciam estudos posteriores.[3][4]
A análise exploratória de dados de Tukey estava relacionada com outros dois desenvolvimentos na teoria estatística: a estatística robusta e a estatística não paramétrica, ambas as quais tentavam reduzir a sensibilidade das inferências estatísticas a erros na formulação de modelos estatísticos.[5] Tukey promoveu o uso do resumo dos cinco números de dados números — os dois extremos (máximo e mínimo), a mediana e os quartis — já que a mediana e os quartis, sendo funções da distribuição empírica, são definidos para todas as distribuições, diferentemente da média e do desvio padrão. Além disso, a mediana e os quartis são mais robustos em relação a distribuições oblíquas e de cauda pesada do que os resumos tradicionais (a média e o desvio padrão). Os pacotes S, S-PLUS e R incluem rotinas usando estatísticas de reamostragem, tais como o jackknife de Quenouille e Tukey e o bootstrapping de Efron, que são não paramétricas e robustas (para muitos problemas).[6]
A AED, a estatística robusta, a estatística não paramétrica e o desenvolvimento das linguagens de programação estatística facilitaram o trabalho dos estatísticos em problemas de ciência e engenharia. Tais problemas incluíam a fabricação de semicondutores e a compreensão de redes de comunicação, que interessavam à Bell Labs. Estes desenvolvimentos estatísticos, todos defendidos por Tukey, foram desenhados para complementar a teoria analítica dos testes de hipóteses estatísticas, particularmente a tradição laplaciana de ênfase em famílias exponenciais.[7]
Desenvolvimento
Tukey publicou o livro Exploratory Data Analysis em 1977.[8] Tukey acreditava que se dava ênfase demais em estatística aos testes de hipóteses estatísticas (análise confirmatória de dados) e que se precisava dar mais ênfase ao uso de dados para sugerir hipóteses a se testarem. Em particular, Tukey acreditava que confundir os dois tipos de análises e empregar ambos no mesmo conjunto de dados poderiam levar a viés sistemático devido a questões inerentes aos testes de hipóteses sugeridos pelos dados.[9]
Os objetivos da AED são:
- Sugerir hipóteses sobre as causas dos fenômenos observados;
- Avaliar pressupostos sobre os quais a inferência estatística se baseará;
- Apoiar a seleção de ferramentas e técnicas estatísticas apropriadas;
- Oferecer uma base para coleta posterior de dados por meio de surveys e experimentos.[10]
Muitas técnicas de análise exploratória de dados têm sido adotadas em mineração de dados, assim como em análise de big data.[11] Também têm sido ensinadas a jovens estudantes como uma forma de introdução ao pensamento estatístico.[12][13]
Técnicas
Há várias ferramentas úteis para a análise exploratória de dados, mas a AED é mais caracterizada pela atitude tomada do que por técnicas particulares.[14]
Técnicas gráficas típicas usadas na análise exploratória de dados são:[15][16]
- Diagrama de caixa;
- Histograma;
- Carta de controle multivariada;[17]
- Diagrama de Pareto;
- Carta de sequência;
- Gráfico de dispersão;
- Diagrama de ramos e folhas;
- Coordenadas paralelas;[18]
- Razão de possibilidades;
- Perseguição da projeção;
- Redução de dimensionalidade:
- Escalonamento multidimensional;
- Análise de componentes principais (ACP);
- Análise de componentes principais multilinear;
- Redução de dimensionalidade não linear (RDNL);
- Métodos de projeção como grande volta, volta guiada e volta manual;
- Versões interativas destes diagramas.
Técnicas quantitativas típicas são:
- Polimento da mediana;
- Tri-média;
- Ordenação.
Histórico
Muitas ideias da AED podem ser remontadas a autores anteriores, por exemplo:
- O matemático britânico Francis Galton enfatizava estatísticas de ordem e quantis;
- O estatístico britânico Arthur Lyon Bowley usava precursores do diagrama de ramos e folhas (Bowley, na verdade, usava um resumo de sete números, incluindo os extremos, decis e quartis, ao lado da mediana);[19]
- O estatístico alemão Andrew Ehrenberg articulou uma filosofia de redução de dados.[20]
Exemplo
Descobertas a partir da análise exploratória de dados são frequentemente ortogonais à tarefa de análise primária. Para ilustrar, considere um exemplo em que a tarefa da análise é encontrar as variáveis que melhor preveem a gorjeta que os clientes de uma mesa em um jantar darão ao garçom.[3] As variáveis disponíveis nos dados coletados para esta tarefa são: o montante da gorjeta, o montante da conta, o gênero do pagante, seção de fumantes/não fumantes, a hora do dia, o dia da semana e o tamanho da mesa. A tarefa da análise primária é aproximada ao ajustar um modelo de regressão em que a razão da gorjeta é a variável de resposta. O modelo ajustado é
que diz que, à medida que o tamanho da mesa aumenta em um cliente (levando a uma conta maior), a razão da gorjeta diminuirá em 1%. Entretanto, a exploração dos dados revela outras características interessantes não descritas neste modelo.
-
Histograma de montantes de gorjeta em que as classes cobrem incrementos de $1. A distribuição de valores é oblíqua à direita e unimodal, como é comum em distribuições de quantidades pequenas, não negativas.
-
Histograma de montantes de gorjeta em que as classes cobrem incrementos de $0,10. Um fenômeno interessante é visível: picos ocorrem em montantes de dólar inteiro e meio dólar, o que é causado pelo escolha de números redondos para gorjeta pelos clientes. Este comportamento é comum em outros tipos de compras também.
-
Gráfico de dispersão de gorjetas versus contas. Pontos abaixo da linha correspondem a gorjetas que são menores do que o esperado. Podemos esperar ver uma associação linear positiva, apertada, mas, em vez disso, vemos uma variação que aumenta com o montante da gorjeta. Em particular, há mais pontos muito distantes da linha na direita abaixo do que na esquerda acima, indicando que mais clientes são muito avaros do que muitos generosos.
-
Gráfico de dispersão de gorjetas versus contas separado por gênero do pagante e seção de fumantes/não fumantes. Mesas com fumantes têm muito mais variabilidade nas gorjetas que dão. Homens tendem a pagar as (poucas) contas mais altas e as mulheres não fumantes tendem a ser muito consistentes ao darem gorjeta (com três exceções notáveis exibidas na amostra).
O que se aprende dos gráficos é diferente do que é ilustrado pelo modelo de regressão, ainda que o experimento não tenha sido desenhado para investigar qualquer destas outras tendências.[21] Os padrões encontrados ao explorar os dados sugerem hipóteses sobre as gorjetas que podem não ter sido antecipadas e que poderiam levar a interessantes experimentos em sequência em que as hipóteses são formalmente expostas e testadas na coleta de novos dados.
Software
Exemplos de software adequados para a AED incluem:[22]
- Cornerstone, um pacote de análise exploratória de dados;
- Data Applied, um ambiente baseado na web abrangente em visualização e mineração de dados;
- GGobi, um software livre para visualização interativa de dados;
- JMP, um pacote de AED do SAS Institute;
- KNIME (Konstanz Information Miner), plataforma em código aberto de exploração de dados baseada em Eclipse;
- Orange, uma suíte de software em código aberto de mineração de dados e aprendizado de máquina;
- Python, uma linguagem de programação em código aberto de mineração de dados e aprendizado de máquina;
- R, uma linguagem de programação em código aberto para computação e gráficos estatísticos, que é, junto com o Python, uma das linguagens mais populares para ciência de dados;
- SOCR, que oferece uma grande quantidade de ferramentas on-line gratuitas;
- TinkerPlots, um software de análise exploratória de dados para alunos do segundo ciclo do ensino fundamental;
- Weka, um pacote em código aberto de mineração de dados que inclui ferramentas de visualização e AED, como a perseguição de projeção.
Ver também
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar periódico
- ↑ 3,0 3,1 Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar web
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro