ppt - Departamento de Sistemas e Computação
Download
Report
Transcript ppt - Departamento de Sistemas e Computação
Universidade Federal de Campina Grande
Departamento de Sistemas e Computação
Curso de Pós-Graduação em Ciência da Computação
Inteligência Artificial
Recuperação da Informação
(Conceitos Básicos)
Prof.a Joseana Macêdo Fechine Régis de Araújo
[email protected]
DSC/CCT/UFC
Recuperação da Informação
Tópico
Conceitos Básicos e IA
2
DSC/CCT/UFCG
Recuperação da Informação
Recuperação da informação significa a operação
pela qual se seleciona documentos, sobre tópicos
específicos, a partir do acervo, em função da
demanda do usuário.
O processo de recuperação de informação consiste
em identificar, no conjunto de documentos(corpus)
de um sistema, quais atendem à necessidade de
informação do usuário.
3
DSC/CCT/UFCG
SRI – Etapas Principais
Aquisição (seleção) dos documentos
Preparação dos documentos
Indexação dos documentos
Armazenamento
Recuperação
Busca (casamento com a consulta do usuário)
Ordenação dos documentos recuperados
4
DSC/CCT/UFCG
SRI – Tarefas e Modelos
(FERNEDA, 2003)
DSC/CCT/UFCG
5
SRI – Modelo Booleano
Baseado na lógica booleana.
Considera uma consulta como uma expressão
booleana convencional formada com os conectivos
lógicos AND, OR e NOT.
Sua estratégia de recuperação é baseada no
critério de decisão binária.
6
DSC/CCT/UFCG
SRI – Modelo Booleano ...
(FERNEDA, 2003)
DSC/CCT/UFCG
7
SRI – Modelo Vetorial
Associa pesos aos termos de indexação e aos
termos da expressão de busca.
O resultado da utilização destes pesos é a
ordenação dos documentos pelo grau de
similaridade em relação à expressão de busca.
Cada elemento do vetor é normalizado para
assumir valores entre 0 e 1.
Para o cálculo do peso é considerado o n° de vezes
que o termo aparece no documento e o n° de vezes
que o termo aparece no corpus de documentos.
8
DSC/CCT/UFCG
SRI – Modelo Vetorial ...
A representação gráfica de dois documentos: DOC1, com termos
de indexação t1 e t3, com pesos 0.3 e 0.5, e DOC2 com termos
de indexação t1, t2 e t3, com pesos 0.5, 0.4 e 0.3, dá-se:
9
DSC/CCT/UFCG
SRI – Modelo Vetorial ...
Se for utilizada uma expressão de busca eBUSCA=(0.2,0.35,0.1),
juntamente com os documentos DOC1 e DOC2, em um espaço
vetorial formado pelos termos t1, t2 e t3, tem-se a representação
gráfica a seguir:
10
DSC/CCT/UFCG
SRI – Modelo Vetorial ...
Grau de similaridade: cosseno do ângulo entre
documentos ou entre consultas e documentos:
wi,x é o peso do i-ésimo elemento do vetor x e wi,y
é o peso do i-ésimo elemento do vetor y.
11
DSC/CCT/UFCG
SRI – Modelo Vetorial ...
12
DSC/CCT/UFCG
SRI – Modelo Vetorial ...
Cálculo dos Pesos:
Método TF-IDF
Term Frequency (TF)
- Frequência do termo no documento
- Quanto maior, mais relevante é o termo para descrever o
documento
Inverse Document Frequency (IDF)
- Inverso da frequência do termo entre os documentos da
coleção
- Termo que aparece em muitos documentos não é útil para
distinguir relevância
Peso associado ao termo tenta balancear os dois fatores
DSC/CCT/UFCG
13
SRI – Modelo Vetorial ...
É possível restringir a quantidade de documentos
recuperados definindo um limite mínimo para o valor
de similaridade.
Um limite de 0.5, indica que uma expressão de
busca obterá como resultado apenas os documentos
cujo valor de similaridade for superior a 50%.
14
DSC/CCT/UFCG
SRI – Modelo Probabilístico
O Modelo Probabilístico representa o
processo de recuperação de informação sob um
ponto de vista probabilístico, ou seja, calcula a
probabilidade de que o documento seja
relevante para a consulta.
15
DSC/CCT/UFCG
SRI – Modelo Probabilístico ...
Dada uma expressão de busca, podem-se dividir os N
documentos de um corpus em quatro subconjuntos:
• o conjunto dos documentos relevantes (Rel)
• o conjunto dos documentos recuperados (Rec)
• o conjunto dos documentos relevantes e recuperados (RR) e
• o conjunto dos documentos não relevantes e não
recuperados.
16
DSC/CCT/UFCG
SRI – Modelo Probabilístico ...
O resultado ideal de uma busca é o conjunto que
contenha todos e apenas os documentos relevantes
para o usuário, isto é, todo o conjunto Rel.
17
DSC/CCT/UFCG
SRI – Modelo Probabilístico ...
Após obter os resultados da primeira busca, é
possível melhorar os resultados a partir de
interações com o usuário.
Seja Rel o conjunto de documentos relevantes, e Re l
o complemento de Rel, a probabilidade de um
documento d ser relevante em relação à expressão
de busca é designada por p(Rel|d).
18
DSC/CCT/UFCG
SRI – Modelo Probabilístico ...
A similaridade (sim) de um documento d em
relação à expressão de busca eBUSCA é definida
como:
19
DSC/CCT/UFCG
SRI – Outros Modelos
Sistemas Especialistas
Algoritmos Genéticos
Redes Neurais
20
DSC/CCT/UFCG
SRI – Sistemas Especialistas ...
A recuperação de informação é um processo cuja
eficiência depende grande parte do conhecimento
sobre o assunto.
Exemplo: Sistema IOTA
Esses conceitos são identificados utilizando-se
cálculos estatísticos de co-ocorrência de pares de
palavras.
Se duas palavras aparecerem próximas em vários
documentos do corpus então elas possuem um
certo relacionamento.
21
DSC/CCT/UFCG
SRI – Sistemas Especialistas ...
Exemplo: Sistema RUBRIC
Rule-Basic Retrieval of Information by Computer
O usuário é capaz de construir sua própria base
de conhecimento sobre um determinado assunto
a partir da especificação e organização de
conceitos na forma de uma rede de frames.
22
DSC/CCT/UFCG
SRI – Sistemas Especialistas ...
Exemplo: Sistema RUBRIC
Para cada conceito (frame) o usuário define um
conjunto de regras do tipo se...então que caracteriza
o conceito.
Ex:
Se “recuperação” e “informação” então “recuperação
de informação” (0.5)
Aparecendo as palavras”recuperação” e “informação”
no mesmo documento, a probabilidade de se tratar de
“recuperação de informação” é de 50%.
23
DSC/CCT/UFCG
SRI – Algoritmos Genéticos
As representações dos documentos podem ser
vistas como um tipo de um “código genético”.
Nesse código genético um cromossomo é
representado por um vetor binário, em que cada
elemento armazena o valor 0 ou 1 (presença ou
ausência de um determinado termo na
representação do documento).
24
DSC/CCT/UFCG
SRI – Algoritmos Genéticos ...
25
DSC/CCT/UFCG
SRI – Redes Neurais
Uma tarefa comum para um sistema de
recuperação de informação é pesquisar
documentos relevantes que satisfazem uma
determinada expressão de busca a partir dos
termos de indexação.
Essa organização pode ser comparada a
uma estrutura de uma rede neural.
26
DSC/CCT/UFCG
SRI – Redes Neurais ...
Entrada da rede neural
Saída da rede
neural
(FERNEDA, 2003)
27
DSC/CCT/UFCG
SRI – Considerações Finais
Recuperar informação implica operar
seletivamente um estoque de informação, o que
envolve processos cognitivos que dificilmente
podem ser formalizados através de um
algoritmo.
Mesmo que um modelo computacional de
recuperação da informação tenha como base
algum tipo de vocabulário e organização lógica, a
equiparação dos significados supostamente
implícitos depende de uma análise intelectual.
28
DSC/CCT/UFCG