Traducão do Capítulo..

Download Report

Transcript Traducão do Capítulo..

Introduction to Information Retrieval
Introduction to
Information Retrieval
CS276
Information Retrieval and Web Search
Christopher Manning and Prabhakar Raghavan
Lecture 9: Query expansion
Introduction to Information Retrieval
Recapitulando a última aula
 Avaliando um motor de busca
 Benchmarks
 Precisão e Retorno
 Resumo dos resultados
Sec. 8.3
Introduction to Information Retrieval
Recap: Avaliação de recuperação não
rankeada: Precisão ou Retorno
 Precisão: fração de documentos recuperados que
são relevantes = P(relevante|recuperado)
 Retorno: fração de documentos relevantes que são
recuperados = R(recuperado|relevante)
Relevante
Não-relevante
Recuperado
tp
fp
Não recuperado
fn
tn
 Precisão P = tp/(tp + fp)
 Retorno R = tp/(tp + fn)
3
Introduction to Information Retrieval
Recaptulando: Uma medida
combinada: F
Sec. 8.3
 Medida combinada que avalia o intercâmbio
precisão/retorno é a medida F (modo de
ponderação harmônica):
2
F 
1

1
1
 (1   )
P
R

(
 1) PR
 2P  R
 Pessoas normalmente usam a medida balanceada
F1
 i.e., com  = 1 ou  = ½
 Modo harmônico é uma média conservadora
 Veja CJ van Rijsbergen, Information Retrieval
4
Introduction to Information Retrieval
Nesta aula
 Melhorando os resultados
 Para alto retorno. Por exemplo, para pesquisar aeroplano
não corresponde a avião, nem termodinâmico com calor
 Opções para melhorar resultados…
 Métodos Globais
 Expansão da consulta
 Sinônimos
 Geração automática de tesauro
 Métodos Locais
 Relevância do Feedback
 Feedback de Pseudo relevância
Introduction to Information Retrieval
O que tem no Cap. 9










Conceito de Centróide
Rocchio
Otimização da Consulta
Feedback Positivo x Feedback Negativo
Pressupostos
Problemas
Estratégias de Feedback
Feedback Web
Peseudo Feedback
Expansão da Consulta
Introduction to Information Retrieval
Sec. 9.1
Feedback de Relevância
 Feedback de Relevância: feedback dos usuários sobre a
relevância dos documentos em um conjunto inicial de
resultados.
 Usuário cria uma consulta (curta, simples)
 O usuário marca alguns resultados como relevantes ou nãorelevantes.
 O sistema computa uma representação melhor da
necessidade de informação baseado no feedback.
 O Feedback de relevância pode passar por uma ou mais
iterações.
 Idéia:pode ser difícil de formular uma consulta boa quando
você não conhece a coleção bem
Introduction to Information Retrieval
Sec. 9.1
Feedback de Relevância
 Usaremos recuperação ad hoc para se referir a uma
recuperação regular sem feedback de relevância.
 Vamos ver agora quatro exemplos de feedback de
relevância que destacam aspectos diferentes.
Introduction to Information Retrieval
Páginas Similares
Introduction to Information Retrieval
Feedback de Relevância: Exemplo
 Mecanismo de busca de imagem
http://nayana.ece.ucsb.edu/imsearch/imsearch.html
Sec. 9.1.1
Introduction to Information Retrieval
Sec. 9.1.1
Resultados para uma consulta inicial
Introduction to Information Retrieval
Feedback de Relevância
Sec. 9.1.1
Introduction to Information Retrieval
Resultados após Feedback de
Relevância
Sec. 9.1.1
Introduction to Information Retrieval
Resultados ad hoc para a consulta canina
source: Fernando Diaz
Introduction to Information Retrieval
Resultados ad hoc para a consulta canina
source: Fernando Diaz
Introduction to Information Retrieval
Feedback do do usuário: Selecione o que é
relevante
source: Fernando Diaz
Introduction to Information Retrieval
Resultados após o feedback de relevância
source: Fernando Diaz
Introduction to Information Retrieval
Sec. 9.1.1
Consulta inicial / resultados
 Consulta Inicial: Novo satélite de aplicações espaciais
+1. 0.539, 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer
+ 2. 0.533, 07/09/91, NASA Scratches Environment Gear From Satellite Plan
3. 0.528, 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller
Probes
4. 0.526, 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within
Budget
5. 0.525, 07/24/90, Scientist Who Exposed Global Warming Proposes Satellites for Climate
Research
6. 0.524, 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study
Climate
7. 0.516, 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada
+ 8. 0.509, 12/02/87, Telecommunications Tale of Two Companies
 Usuário então marca os documentos relevantes com
“+”.
Sec. 9.1.1
Introduction to Information Retrieval
Consulta expandida após feedback de
relevância









2,074 new
30,816 satellite
5,991 nasa
4,196 launch
3,516 instrument
3,004 bundespost
2,790 rocket
2,003 broadcast
0,836 oil
15,106 space
5,660 application
5,196 eos
3,972 aster
3,446 arianespace
2,806 ss
2,053 scientist
1,172 earth
0,646 measure
Introduction to Information Retrieval
Sec. 9.1.1
Resultados para a consulta expandida
2 1. 0.513, 07/09/91, NASA Scratches Environment Gear From Satellite Plan
1 2. 0.500, 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer
3. 0.493, 08/07/89, When the Pentagon Launches a Secret Satellite, Space Sleuths Do
Some Spy Work of Their Own
4. 0.493, 07/31/89, NASA Uses ‘Warm’ Superconductors For Fast Circuit
8 5. 0.492, 12/02/87, Telecommunications Tale of Two Companies
6. 0.491, 07/09/91, Soviets May Adapt Parts of SS-20 Missile For Commercial Use
7. 0.490, 07/12/88, Gaping Gap: Pentagon Lags in Race To Match the Soviets In Rocket
Launchers
8. 0.490, 06/14/90, Rescue of Satellite By Space Agency To Cost $90 Million
Sec. 9.1.1
Introduction to Information Retrieval
Conceito-chave: Centróide
 O centróide é o centro de massa de um conjunto de
pontos.
 Lembre-se que nós representamos documentos
como pontos em um espaço de alta dimensão


1
 Definição: Centróide
 (C ) 
d

|C |
dC
onde C é o conjunto de documentos.
Introduction to Information Retrieval
Sec. 9.1.1
Algoritmo Rocchio
 O algoritmo Rocchio usa o modelo de espaço vetorial para
escolher uma consulta de feedback de relevância
 Rocchio pede a consulta qopt que maximiza

 
 
qopt  arg max [cos( q ,  (Cr ))  cos( q ,  (Cnr ))]

q
 Tenta separar documentos marcados como

relevantes ou não-relevantes

1
1
qopt 
d


j
Cr d jCr
Cnr

d

j

d j Cr
 Problema: não sabemos os documentos realmente relevantes
Sec. 9.1.1
Introduction to Information Retrieval
Teoricamente a melhor consulta
x
x
o
x
x
o
o

o o
o
x
Optimal
query
x
x
x
x
x
x x x
x x
x
x
x
x documentos não-relevante
o documentos relevantes
Sec. 9.1.1
Introduction to Information Retrieval
Rocchio 1971 Algorithm (SMART)
 Utilizado na prática:

1
d



j

Dnr
d j Dr


1
qm  q0  
Dr

d

j

d j Dnr
 Dr = conjunto de vetores de documentos relevantes
conhecidos
 Dnr = conjunto de vetores de documentos irrelevantes
conhecidos
 Diferente de Cr e Cnr
!
 qm = vetor consulta modificado; q0 = vetor consulta original;
α,β,γ: pesos (escolhidos a mão ou definidos empiricamente)
 A nova consulta se desloca para próximo dos documentos
relevantes e longe de documentos irrelevantes
Introduction to Information Retrieval
Sec. 9.1.1
Observando as sutilezas
 Balanceando α vs. β/γ : Se temos um monte de
documentos julgados, queremos um maior β/γ.
 Alguns pesos no vetor de consulta podem ser
negativos
 Pesos negativos a longo prazo são ignoradas (definido para 0)
Sec. 9.1.1
Introduction to Information Retrieval
Relevância do Feedback sobre a consulta inicial
Initial
query
x
o
x

o
x
x
x
Revised
query
x
x
o
o o
x
x
x
x
x
x
x
x
x
o
x
x
x known non-relevant documents
o known relevant documents
Introduction to Information Retrieval
Sec. 9.1.1
Feedback de Relevância em espaços
vetoriais
 Podemos modificar a consulta com base no
feedback de relevância e aplicar modelo de espaço
vetorial padrão.
 Utiliza apenas os documentos que foram marcados.
 feedback de relevância pode melhorar o retorno e
precisão
 feedback de relevância é mais útil para o aumento
do retorno em situações nas quais o retorno é
importante
 Os usuários podem esperar para analisar os resultados e ter tempo
para percorrer
Introduction to Information Retrieval
Sec. 9.1.1
Feedback Positivo vs Negativo
 O feedback positivo é mais valioso do que o
feedback negativo (então, faça  < ; ex.  = 0.25, 
= 0.75).
 Muitos sistemas apenas permitem feedback
positivo (=0).
Introduction to Information Retrieval
Aparte: Espaço vetorial pode ser contraintuitivo.
Doc
x
x
“J. Snow
& Cholera”
x
x
x
o
q1
x
x
x
x
Query
“cholera”
x
x
x
x
x
x x x
x x
x
x
x
q1 query “cholera”
o www.ph.ucla.edu/epi/snow.html
x other documents
Introduction to Information Retrieval
Alto-dimencionamento do Espaço
vetorial
 As consultas "cólera" e "John Snow" estão longe umas das
outras no espaço vetorial.
 Como pode o documento "John Snow e Cólera“ estar perto
de ambos?
 Nossas intuições para espaços bi- e tri-dimensional não
funcionam em > 10.000 dimensões.
 3 dimensões: se um documento está perto de muitas
consultas, então, algumas dessas consultas devem estar
próximos umas das outros.
 Não mantém para um espaço de alta dimensão.
Introduction to Information Retrieval
Sec. 9.1.3
Relevance Feedback: Pressupostos
 A1: Usuário tem conhecimento suficiente para a consulta inicial.
 A2: Protótipos de relevância são "bem-comportadso”.
 A distribuição de termos em documentos relevantes serão
semelhantes
 A distribuição de termos em documentos não relevantes
serão diferentes das dos documentos relevantes.
 Ou: Todos os documentos relevantes estão fortemente agrupados em
torno de um único protótipo.
 Ou: Há protótipos diferentes, mas eles têm sobreposição de
vocabulário significativa.
 Semelhanças entre documentos relevantes e irrelevantes são
pequenas
Introduction to Information Retrieval
Sec. 9.1.3
Violação do A1
 O usuário não tem conhecimento inicial suficiente.
 Exemplos:
 Erros ortográficos (Brittany Speers).
 Recuperação da informação multilíngüe (hígado).
 Incompatibilidade de vocabulário de pesquisa vs vocabulário
coleção
 Cosmonauta / astronauta
Introduction to Information Retrieval
Violação do A2
 Existem vários protótipos de relevância.
 Exemplos:
 Birmânia / Mianmar
 Governo políticas contraditórias
 Estrelas Pop que trabalharam no Burger King
 Freqüentemente: instâncias de um conceito geral
 Bom conteúdo editorial pode resolver problema
 Relatório sobre as políticas governamentais
contraditórias.
Sec. 9.1.3
Introduction to Information Retrieval
Relevance Feedback: Problemas
 Consultas longas são ineficientes para mecanismo de RI
típico.
 Longos tempos de resposta para o usuário.
 Alto custo para o sistema de recuperação.
 Solução Parcial:
 Apenas repondere certos termos proeminente
 Talvez top 20 por freqüência do termo
 Usuários são muitas vezes relutantes em fornecer feedback
explícito
 É muitas vezes difícil de entender por que um determinado
documento foi recuperado após a aplicação do feedback de
relevância
Introduction to Information Retrieval
Sec. 9.1.5
Avaliação de estratégias de feedback de
relevância
 Use q0 e calcular o gráfico de retorno e precisão
 Use qm e calcular o gráfico de retorno e precisão
 Avaliar em todos os documentos da coleção
 Melhorias espetaculares, mas ... é trapaça!
 Em parte devido à maior pontuação de documentos conhecidos julgados
como relevantes
 Deve ser avaliada com relação aos documentos não visto pelo usuário
 Use documentos na coleção residual (conjunto de documentos retirando aqueles
avaliados como relevante)
 Medidas normalmente são menores do que na consulta original
 Mas é uma avaliação mais realista
 O desempenho relativo pode ser validamente comparado
 Empiricamente, uma rodada de feedback de relevância é frequentemente
muito útil. Duas rodadas é marginalmente útil.
Introduction to Information Retrieval
Sec. 9.1.5
Avaliação dos Feedbacks de Relevância
 Segundo método - avaliar apenas os docs não
avaliados pelo usuário no primeiro turno
 Poderia fazer um feedback de relevância parecer pior do
que realmente é
 Pode ainda avaliar o desempenho relativo de algoritmos
 Mais satisfatório - use duas coleções cada uma com suas
próprias avaliações de pertinência
 q0 e o feedback dos usuários na primeira coleção
 qm é executado na segunda coleção e medido
Introduction to Information Retrieval
Sec. 9.1.3
Avaliação: Caveat
 Verdadeira avaliação da usabilidade deve comparar
com outros métodos, tendo a mesma quantidade de
tempo.
 Alternativa para o feedback de relevância: usuário
revê e reenvia consulta.
 Usuários podem preferir revisão / re-submissão ao invés de
ter de julgar a relevância dos documentos.
 Não há provas claras de que o feedback de relevância
é o “melhor uso” do tempo do usuário.
Introduction to Information Retrieval
Sec. 9.1.4
Feedback de relevância na Web
 Alguns mecanismos de busca oferecem uma característica de
páginas similares / relacionadas (esta é uma forma trivial de
relevante feedback)
 Google (link-based)
 Altavista
 Stanford WebBase
α/β/γ ??
 Mas alguns não, porque é difícil de explicar para o usuário médio:
 Alltheweb
 bing
 Yahoo
 Excite inicialmente tinha feedback de relevância de verdade, mas
o abandonou por falta de uso.
Introduction to Information Retrieval
Sec. 9.1.4
Excite Relevance Feedback
Spink et al. 2000
 Apenas cerca de 4% das sessões de consulta de usuário
utilizam a opção feedback de relevância
 Expresso como o link "More like this“ ao lado de cada resultado
 Mas cerca de 70% dos usuários apenas olhar para primeira
página de resultados e não buscam coisas novas
 Portanto, 4% é cerca de 1 / 8 de pessoas que prorroga a pesquisa
 O feedback de relevância melhora os resultados em
aproximadamente 2 / 3 das vezes
Introduction to Information Retrieval
Sec. 9.1.6
Feedback de pseudo relevância
 O feedback de pseudo-relevância automatiza a parte manual
do feedback de relevância verdadeiro.
 Algoritmo de pseudo-relevância:




 Recupera uma lista ordenada de documentos (de maiores
acessos (hits)) para a consulta do usuário.
 Presumir que os top k documentos são relevantes.
 Faça o feedback de relevância (ex., Rocchio)
Funciona muito bem em média
Mas podem dar horrivelmente errado para algumas consultas.
Várias iterações podem causar desvio de consulta.
Por quê? (Minas de Cobre/Chile)
Introduction to Information Retrieval
Sec. 9.2.2
Expansão de consulta
 No feedback de relevância, os usuários dão uma
entrada adicional (relevante / não relevante) em
documentos, que é usado para reponderar os
termos nos documentos
 Na expansão da consulta, os usuários dão entrada
adicional (bom/mau termo de pesquisa) em
palavras ou frases
Introduction to Information Retrieval
Assistente de consulta
Você esperaria um recurso assim para aumentar
o volume da consulta em um mecanismo de busca?
Introduction to Information Retrieval
Sec. 9.2.2
Como podemos aumentar a consulta do
usuário?
 Tesauro manual
 Ex. MedLine: physician, sinônimo: doc, doctor, MD,
medico
 Pode ser de consulta em vez de apenas sinônimos
 Análise global: (estático; de todos os documentos na coleção)
 Tesauro derivado Automaticamente
 (estatísticas de co-ocorrência)
 Refinamentos com base na mineração de logs de
consultas
 Comum na Web
 Análise local: (dinâmico)
 Análise dos documentos no conjunto de resultado
Introduction to Information Retrieval
Tesauro (Thesaurus)
 Tesauro, também conhecido como dicionário de
idéias afins, é uma lista de palavras com significados
semelhantes, dentro de um domínio específico de
conhecimento. Por definição, um tesauro é restrito.
Não deve ser encarado simplesmente como uma lista
de sinônimos, pois o objetivo do tesauro é
justamente mostrar as diferenças mínimas entre as
palavras e ajudar o escritor a escolher a palavra
exata.
Fonte: http://pt.wikipedia.org/wiki/Thesaurus
44
Introduction to Information Retrieval
Exemplo de tesauro manual
Sec. 9.2.2
Introduction to Information Retrieval
Sec. 9.2.2
Expansão da consulta baseada em tesauro
 Para cada termo t, em uma consulta, expandir a consulta com
sinônimos e palavras relacionadas ao termo t do tesauro
 felino → felino gato
 Deve ponderar menos os termos adicionados do que os termos
originais da consulta.
 Geralmente aumenta o retorno
 Amplamente utilizado em muitos campos da ciência e engenharia
 Pode diminuir significativamente a precisão, especialmente com
termos ambíguos.
 “taxa de juros ”  “taxa de juros fascinante avaliação”
 Existe um alto custo da produção manual do tesauro
 E, para atualizá-lo, quando ocorre mudança científica
Introduction to Information Retrieval
Sec. 9.2.3
Geração Automática do Tesauro
 Tentativa de gerar um tesauro automaticamente, analisando
o conjunto de documentos
 Noção fundamental: similaridade entre duas palavras
 Definição 1: Duas palavras são semelhantes se elas coocorrem com palavras semelhantes.
 Definição 2: Duas palavras são semelhantes se elas ocorrem
em uma dada relação gramatical com as mesmas palavras.
 Você pode colher, descascar, comer, preparar, etc maçãs e peras,
então maçãs e peras devem ser semelhante
 Basear em co-ocorrência é a forma mais robusta, as relações
gramaticais são mais precisas.
Por quê?
Sec. 9.2.3
Introduction to Information Retrieval
Tesauro de co-ocorrência
 Maneira mais simples para calcular um tesauro é se basear nas
similaridade termo-a-termo em C = AAT onde A é a matriz
termo-documento.
 wi,j = (normalizado) ponderação para (ti ,dj)
dj
ti
M
N
O que
contém C ,
se A é uma
matriz de
incidência
termodocumento
(0/1)?
 Para cada ti, escolher termos com valores elevados em C
Introduction to Information Retrieval
Exemplo de geração automática do
tesauro
Sec. 9.2.3
Introduction to Information Retrieval
Sec. 9.2.3
Discussão da geração automática do
tesauro


Qualidade das associações é geralmente um problema.
Ambigüidade do termo pode introduzir termos
irrelevantes mas que são estatisticamente
correlacionados.


Problemas:
Falsos positivos: Palavras consideradas como similares
mas que não são
 Falsos negativos: As palavras não consideradas como
similares, mas que são
Desde que os termos são de qualquer forma altamente
correlacionados, a expansão pode não recuperar muitos
documentos adicionais.


“Apple Computador”  “Apple fruta vermelha computador”
Introduction to Information Retrieval
Feedback de relevância indireto
 Na web, o DirectHit introduziu uma forma de feedback de
relevância indireta.
 DirectHit classificou os documentos que os usuários olharam
com mais freqüência.
 Clicar em links significa que o documento é provável de ser relevante
 Assumindo que os resumos apresentados são bons, etc
 Globalmente: não necessariamente específico de usuário ou de consulta.
 Esta é a área geral de mineração de clickstream (fluxo de cliques)
 Hoje - tratada como parte do rankeamento de aprendizado da máquina
Introduction to Information Retrieval
Resources
IIR Ch 9
MG Ch. 4.7
MIR Ch. 5.2 – 5.4