Mineração de Opinião

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

A Web produz e divulga informações de vital importância para o mercado financeiro. A ideia da Mineração de Opinião baseia-se em extrair informações subjetivas a partir de dados concretos através de processos de análise de texto e processamento de linguagem natural. Monitorando a resposta dos clientes, diante do  lançamento de produtos e sua aceitação no mercado influencia preços, indica pontos positivos que devem ser mantidos e pontos negativos que apontam possíveis melhorias.

Módulos de Classificação

O processo de Mineração da Opinião consiste em passos básicos como: localizar, extrair, pré-processar, analisar e recomendar a opinião. A pesquisa funciona por meio da obtenção de opiniões em associação com importantes módulos de classificação semântica: Orientação Semântica (do inglês Semantic Orientation) e Informação Mútua Ponto a Ponto (do inglês Pointwise Mutual Information e portanto costumeiramente referido como PMI). A variável normalizada obtida a partir da PMI aumenta bastante a eficácia de tal extração, tornando informações subjetivas (opiniões dos clientes) em medidas palpáveis que podem ser analisadas e interpretadas por um programa de computador.[1][2]

A parte responsável pela classificação da opinião de clientes tem como objetivo categorizar as avaliações baseadas em entradas através de sentenças ou textos. É possível abordar todas as opiniões como unidades, fazendo o uso de palavras contidas nas opiniões que expressam sentimentos [3][4] para a classificação geral da opinião.[5] Assim, cada opinião, ao final estará em uma dessas classes: “Positiva” (i.e. recomendada) que será  armazenado em um Positive Words Set, “Negativa” (i.e. Não-Recomendada) que fará parte do Negative Word Set.  Algumas vezes é adicionada a classificação "Neutro" caso a denominação adeque-se àquela situação.[6]

Orientação Semântica

A Semantic Orientation ou Orientação Semântica, no contexto de Mineração de Opinião, pode ser vista como um  módulo responsável por calcular a Orientação Semântica do documento (Opinião).[7] Também chamado de Polaridade de Palavra, indica o desvio de uma palavra de um dado grupo semântico ou campo léxico.[8]  Orientações semânticas positivas indicam elogios e orientações semânticas negativas indicam critica.  Variando tanto em direção (positiva e negativa) quanto grau (brando e forte).

Informação Mútua Pontual

A Pointwise Mutual Information ou Informação Mútua Ponto-a-Ponto é o módulo responsável por calcular o PMI. É uma medida de associação que envolve a área da Teoria da informação e Estatística com a função de medir a relação de entre palavras dentro de um texto comparando a probabilidade de encontrar dois itens juntos com as probabilidades de estarem separadas.[1][2]

A PMI de um par de palavras x e y se define pela seguinte equação:

SI(x,y)=log(p(x,y)p(x)p(y))

Pré-processamento

As opiniões, após terem sido extraídas, passam por um pré-processamento. Esse pré-processamento retira das opiniões todos os sinais de pontuações e possíveis acentuações. Além disso, são feitas tentativas de retirar das opiniões palavras que não expressam orientação semântica. Geralmente essas palavras se encaixavam em uma dessas 6 (seis) classes gramaticais:

  • Artigo;
  • Conjunção;
  • Interjeição;
  • Numeral;
  • Preposição;
  • Pronome;

As palavras que se encontraram nessas classes gramaticais serão retiradas dos documentos porque elas não expressam a orientação de sentimentos do autor da opinião. Assim, as palavras que se encontraram nos documentos a serem processados encaixar-se-ão nas 4 (quatro) classes gramaticais restantes:[9] [10] [11]


Isso deve-se ao fato das palavras que se encontram nessas 4 classes gramaticais expressarem orientação de sentimentos do autor da opinião. Assim, o sistema deverá aplicar um stoplist, ou seja, eliminar do documento palavras que não têm importância para a classificação de opinião. Vale salientar que o pré-processamento pode ocorrer seguindo modelos variantes ao descrito, muitas vezes utilizando algoritmos de stemming com o intuito de maximizar ou melhorar o processo descrito.

A base de documentos de um sistema de Mineração de Opiniões guardará a informação de posição das palavras, pois esta informação será relevante para o cálculo de Pointwise Mutual Information, o PMI. Cálculo este de suma importância para a classificação da opinião. Um outro dado primordial que deverá ser guardado nesta base de documentos e que também servirá para o cálculo do PMI será a probabilidade de ocorrência das palavras.

Predefinição:Referências

Ligações externas

Bibliografia