Modelo vetorial em sistemas de recuperação da informação

Fonte: testwiki
Revisão em 18h50min de 14 de dezembro de 2022 por imported>UlrichSchiel
(dif) ← Revisão anterior | Revisão atual (dif) | Revisão seguinte → (dif)
Saltar para a navegação Saltar para a pesquisa

Predefinição:Sem fontes Predefinição:Reciclagem Predefinição:Revisão O Modelo Vetorial em Sistemas de Recuperação da Informação, proposto inicialmente por Salton, reconhece que o uso de pesos binários (como feito no modelo Booleano) é muito limitado e propõe um arcabouço onde o casamento parcial entre uma consulta e um documento da coleção é possível.

O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos:

dj=(w1,j,w2,j,,wn,j)
q=(w1,q,w2,q,,wn,q)

Termos são ocorrências únicas nos documentos. A relevância dos termos é destacada assinalando pesos não binários aos termos de indexação dos documentos e consultas. Esses pesos associados aos termos são usados para calcular o grau de similaridade entre cada documento de uma coleção e a consulta de usuário. Dessa forma, o modelo vetorial leva em consideração documentos que casam com a consulta de forma parcial. Como resultado, o conjunto de respostas ordenadas é muito mais preciso do que o conjunto de respostas geradas pelo modelo booleano. Para determinar se um documento está próximo de uma consulta, compara-se o vetor do documento com o vetor da consulta. Ao invés de calcular o ângulo, calcula-se o cosseno, definido pela fórmula [Salton (1988)]:

cosθ=𝐝𝐪𝐝𝐪

em que 𝐝𝐪 é o Produto escalar (intersecção) dos vetores do documento d e da consulta q, 𝐝 é a norma do vetor d, e 𝐪 é a norma do vetor q. A norma de um vetor é calculada como:

𝐪=i=1nqi2

Usando o cosseno, a similaridade entre um documento dj e uma consulta q pode ser calculada como:

cos(dj,q)=𝐝𝐣𝐪𝐝𝐣𝐪=i=1Nwi,jwi,qi=1Nwi,j2i=1Nwi,q2

Os pesos quantificam a relevância de cada termo para as consultas (Wiq) e para os documentos (Wid) no espaço vetorial. Para o cálculo dos pesos Wiq e Wid, utiliza-se uma técnica que faz o balanceamento entre as características do documento, utilizando a frequência de um termo num documento freq(t,d). Se uma coleção possui N documentos e dft é a quantidade de documentos que possuem o termo t, então o inverso da frequência do termo na coleção, ou idft (inverse document frequency) é dado por:

idft=logNdft

Este valor é usado para calcular o peso, utilizando a seguinte fórmula: Wid=freq(t,d)×idft , ou seja, é o produto da frequência do termo <math>t<\math> no documento <math>d<\math> pelo inverso da frequência do termo na coleção. Assim termos muito comuns terão um idf baixo o que reduz o peso do termo e o torna menos significativo.

As principais vantagens do modelo vetorial são a sua simplicidade, a facilidade que ele provê de se computar similaridades com eficiência e o fato de que o modelo se comporta bem com coleções genéricas.

Entre as limitações do modelo, vale citar que ele considera os termos de um documento como um saco-de-palavras, ou seja, a posição do termo no documento não é levado em consideração. Além disso, a semântica dos termos não é considerada nem questões de sinonímia, ambiguidade. termos compostos, etc.


Predefinição:Esboço-informática