Mineração de Opinião
A Web produz e divulga informações de vital importância para o mercado financeiro. A ideia da Mineração de Opinião baseia-se em extrair informações subjetivas a partir de dados concretos através de processos de análise de texto e processamento de linguagem natural. Monitorando a resposta dos clientes, diante do lançamento de produtos e sua aceitação no mercado influencia preços, indica pontos positivos que devem ser mantidos e pontos negativos que apontam possíveis melhorias.
Módulos de Classificação
O processo de Mineração da Opinião consiste em passos básicos como: localizar, extrair, pré-processar, analisar e recomendar a opinião. A pesquisa funciona por meio da obtenção de opiniões em associação com importantes módulos de classificação semântica: Orientação Semântica (do inglês Semantic Orientation) e Informação Mútua Ponto a Ponto (do inglês Pointwise Mutual Information e portanto costumeiramente referido como PMI). A variável normalizada obtida a partir da PMI aumenta bastante a eficácia de tal extração, tornando informações subjetivas (opiniões dos clientes) em medidas palpáveis que podem ser analisadas e interpretadas por um programa de computador.[1][2]
A parte responsável pela classificação da opinião de clientes tem como objetivo categorizar as avaliações baseadas em entradas através de sentenças ou textos. É possível abordar todas as opiniões como unidades, fazendo o uso de palavras contidas nas opiniões que expressam sentimentos [3][4] para a classificação geral da opinião.[5] Assim, cada opinião, ao final estará em uma dessas classes: “Positiva” (i.e. recomendada) que será armazenado em um Positive Words Set, “Negativa” (i.e. Não-Recomendada) que fará parte do Negative Word Set. Algumas vezes é adicionada a classificação "Neutro" caso a denominação adeque-se àquela situação.[6]
Orientação Semântica
A Semantic Orientation ou Orientação Semântica, no contexto de Mineração de Opinião, pode ser vista como um módulo responsável por calcular a Orientação Semântica do documento (Opinião).[7] Também chamado de Polaridade de Palavra, indica o desvio de uma palavra de um dado grupo semântico ou campo léxico.[8] Orientações semânticas positivas indicam elogios e orientações semânticas negativas indicam critica. Variando tanto em direção (positiva e negativa) quanto grau (brando e forte).
Informação Mútua Pontual
A Pointwise Mutual Information ou Informação Mútua Ponto-a-Ponto é o módulo responsável por calcular o PMI. É uma medida de associação que envolve a área da Teoria da informação e Estatística com a função de medir a relação de entre palavras dentro de um texto comparando a probabilidade de encontrar dois itens juntos com as probabilidades de estarem separadas.[1][2]
A PMI de um par de palavras x e y se define pela seguinte equação:
Pré-processamento
As opiniões, após terem sido extraídas, passam por um pré-processamento. Esse pré-processamento retira das opiniões todos os sinais de pontuações e possíveis acentuações. Além disso, são feitas tentativas de retirar das opiniões palavras que não expressam orientação semântica. Geralmente essas palavras se encaixavam em uma dessas 6 (seis) classes gramaticais:
- Artigo;
- Conjunção;
- Interjeição;
- Numeral;
- Preposição;
- Pronome;
As palavras que se encontraram nessas classes gramaticais serão retiradas dos documentos porque elas não expressam a orientação de sentimentos do autor da opinião. Assim, as palavras que se encontraram nos documentos a serem processados encaixar-se-ão nas 4 (quatro) classes gramaticais restantes:[9] [10] [11]
- Adjetivo;
- Advérbio;
- Substantivo;
- Verbo;
Isso deve-se ao fato das palavras que se encontram nessas 4 classes gramaticais expressarem orientação de sentimentos do autor da opinião. Assim, o sistema deverá aplicar um stoplist, ou seja, eliminar do documento palavras que não têm importância para a classificação de opinião. Vale salientar que o pré-processamento pode ocorrer seguindo modelos variantes ao descrito, muitas vezes utilizando algoritmos de stemming com o intuito de maximizar ou melhorar o processo descrito.
A base de documentos de um sistema de Mineração de Opiniões guardará a informação de posição das palavras, pois esta informação será relevante para o cálculo de Pointwise Mutual Information, o PMI. Cálculo este de suma importância para a classificação da opinião. Um outro dado primordial que deverá ser guardado nesta base de documentos e que também servirá para o cálculo do PMI será a probabilidade de ocorrência das palavras.
Ligações externas
- Bibliografia
- ↑ 1,0 1,1 Predefinição:Citar livro
- ↑ 2,0 2,1 Predefinição:Citar livro
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro