Traducão do Capítulo..
Download
Report
Transcript Traducão do Capítulo..
Introduction to Information Retrieval
Introduction to
Information Retrieval
CS276
Information Retrieval and Web Search
Christopher Manning and Prabhakar Raghavan
Lecture 9: Query expansion
Introduction to Information Retrieval
Recapitulando a última aula
Avaliando um motor de busca
Benchmarks
Precisão e Retorno
Resumo dos resultados
Sec. 8.3
Introduction to Information Retrieval
Recap: Avaliação de recuperação não
rankeada: Precisão ou Retorno
Precisão: fração de documentos recuperados que
são relevantes = P(relevante|recuperado)
Retorno: fração de documentos relevantes que são
recuperados = R(recuperado|relevante)
Relevante
Não-relevante
Recuperado
tp
fp
Não recuperado
fn
tn
Precisão P = tp/(tp + fp)
Retorno R = tp/(tp + fn)
3
Introduction to Information Retrieval
Recaptulando: Uma medida
combinada: F
Sec. 8.3
Medida combinada que avalia o intercâmbio
precisão/retorno é a medida F (modo de
ponderação harmônica):
2
F
1
1
1
(1 )
P
R
(
1) PR
2P R
Pessoas normalmente usam a medida balanceada
F1
i.e., com = 1 ou = ½
Modo harmônico é uma média conservadora
Veja CJ van Rijsbergen, Information Retrieval
4
Introduction to Information Retrieval
Nesta aula
Melhorando os resultados
Para alto retorno. Por exemplo, para pesquisar aeroplano
não corresponde a avião, nem termodinâmico com calor
Opções para melhorar resultados…
Métodos Globais
Expansão da consulta
Sinônimos
Geração automática de tesauro
Métodos Locais
Relevância do Feedback
Feedback de Pseudo relevância
Introduction to Information Retrieval
O que tem no Cap. 9
Conceito de Centróide
Rocchio
Otimização da Consulta
Feedback Positivo x Feedback Negativo
Pressupostos
Problemas
Estratégias de Feedback
Feedback Web
Peseudo Feedback
Expansão da Consulta
Introduction to Information Retrieval
Sec. 9.1
Feedback de Relevância
Feedback de Relevância: feedback dos usuários sobre a
relevância dos documentos em um conjunto inicial de
resultados.
Usuário cria uma consulta (curta, simples)
O usuário marca alguns resultados como relevantes ou nãorelevantes.
O sistema computa uma representação melhor da
necessidade de informação baseado no feedback.
O Feedback de relevância pode passar por uma ou mais
iterações.
Idéia:pode ser difícil de formular uma consulta boa quando
você não conhece a coleção bem
Introduction to Information Retrieval
Sec. 9.1
Feedback de Relevância
Usaremos recuperação ad hoc para se referir a uma
recuperação regular sem feedback de relevância.
Vamos ver agora quatro exemplos de feedback de
relevância que destacam aspectos diferentes.
Introduction to Information Retrieval
Páginas Similares
Introduction to Information Retrieval
Feedback de Relevância: Exemplo
Mecanismo de busca de imagem
http://nayana.ece.ucsb.edu/imsearch/imsearch.html
Sec. 9.1.1
Introduction to Information Retrieval
Sec. 9.1.1
Resultados para uma consulta inicial
Introduction to Information Retrieval
Feedback de Relevância
Sec. 9.1.1
Introduction to Information Retrieval
Resultados após Feedback de
Relevância
Sec. 9.1.1
Introduction to Information Retrieval
Resultados ad hoc para a consulta canina
source: Fernando Diaz
Introduction to Information Retrieval
Resultados ad hoc para a consulta canina
source: Fernando Diaz
Introduction to Information Retrieval
Feedback do do usuário: Selecione o que é
relevante
source: Fernando Diaz
Introduction to Information Retrieval
Resultados após o feedback de relevância
source: Fernando Diaz
Introduction to Information Retrieval
Sec. 9.1.1
Consulta inicial / resultados
Consulta Inicial: Novo satélite de aplicações espaciais
+1. 0.539, 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer
+ 2. 0.533, 07/09/91, NASA Scratches Environment Gear From Satellite Plan
3. 0.528, 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller
Probes
4. 0.526, 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within
Budget
5. 0.525, 07/24/90, Scientist Who Exposed Global Warming Proposes Satellites for Climate
Research
6. 0.524, 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study
Climate
7. 0.516, 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada
+ 8. 0.509, 12/02/87, Telecommunications Tale of Two Companies
Usuário então marca os documentos relevantes com
“+”.
Sec. 9.1.1
Introduction to Information Retrieval
Consulta expandida após feedback de
relevância
2,074 new
30,816 satellite
5,991 nasa
4,196 launch
3,516 instrument
3,004 bundespost
2,790 rocket
2,003 broadcast
0,836 oil
15,106 space
5,660 application
5,196 eos
3,972 aster
3,446 arianespace
2,806 ss
2,053 scientist
1,172 earth
0,646 measure
Introduction to Information Retrieval
Sec. 9.1.1
Resultados para a consulta expandida
2 1. 0.513, 07/09/91, NASA Scratches Environment Gear From Satellite Plan
1 2. 0.500, 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer
3. 0.493, 08/07/89, When the Pentagon Launches a Secret Satellite, Space Sleuths Do
Some Spy Work of Their Own
4. 0.493, 07/31/89, NASA Uses ‘Warm’ Superconductors For Fast Circuit
8 5. 0.492, 12/02/87, Telecommunications Tale of Two Companies
6. 0.491, 07/09/91, Soviets May Adapt Parts of SS-20 Missile For Commercial Use
7. 0.490, 07/12/88, Gaping Gap: Pentagon Lags in Race To Match the Soviets In Rocket
Launchers
8. 0.490, 06/14/90, Rescue of Satellite By Space Agency To Cost $90 Million
Sec. 9.1.1
Introduction to Information Retrieval
Conceito-chave: Centróide
O centróide é o centro de massa de um conjunto de
pontos.
Lembre-se que nós representamos documentos
como pontos em um espaço de alta dimensão
1
Definição: Centróide
(C )
d
|C |
dC
onde C é o conjunto de documentos.
Introduction to Information Retrieval
Sec. 9.1.1
Algoritmo Rocchio
O algoritmo Rocchio usa o modelo de espaço vetorial para
escolher uma consulta de feedback de relevância
Rocchio pede a consulta qopt que maximiza
qopt arg max [cos( q , (Cr )) cos( q , (Cnr ))]
q
Tenta separar documentos marcados como
relevantes ou não-relevantes
1
1
qopt
d
j
Cr d jCr
Cnr
d
j
d j Cr
Problema: não sabemos os documentos realmente relevantes
Sec. 9.1.1
Introduction to Information Retrieval
Teoricamente a melhor consulta
x
x
o
x
x
o
o
o o
o
x
Optimal
query
x
x
x
x
x
x x x
x x
x
x
x
x documentos não-relevante
o documentos relevantes
Sec. 9.1.1
Introduction to Information Retrieval
Rocchio 1971 Algorithm (SMART)
Utilizado na prática:
1
d
j
Dnr
d j Dr
1
qm q0
Dr
d
j
d j Dnr
Dr = conjunto de vetores de documentos relevantes
conhecidos
Dnr = conjunto de vetores de documentos irrelevantes
conhecidos
Diferente de Cr e Cnr
!
qm = vetor consulta modificado; q0 = vetor consulta original;
α,β,γ: pesos (escolhidos a mão ou definidos empiricamente)
A nova consulta se desloca para próximo dos documentos
relevantes e longe de documentos irrelevantes
Introduction to Information Retrieval
Sec. 9.1.1
Observando as sutilezas
Balanceando α vs. β/γ : Se temos um monte de
documentos julgados, queremos um maior β/γ.
Alguns pesos no vetor de consulta podem ser
negativos
Pesos negativos a longo prazo são ignoradas (definido para 0)
Sec. 9.1.1
Introduction to Information Retrieval
Relevância do Feedback sobre a consulta inicial
Initial
query
x
o
x
o
x
x
x
Revised
query
x
x
o
o o
x
x
x
x
x
x
x
x
x
o
x
x
x known non-relevant documents
o known relevant documents
Introduction to Information Retrieval
Sec. 9.1.1
Feedback de Relevância em espaços
vetoriais
Podemos modificar a consulta com base no
feedback de relevância e aplicar modelo de espaço
vetorial padrão.
Utiliza apenas os documentos que foram marcados.
feedback de relevância pode melhorar o retorno e
precisão
feedback de relevância é mais útil para o aumento
do retorno em situações nas quais o retorno é
importante
Os usuários podem esperar para analisar os resultados e ter tempo
para percorrer
Introduction to Information Retrieval
Sec. 9.1.1
Feedback Positivo vs Negativo
O feedback positivo é mais valioso do que o
feedback negativo (então, faça < ; ex. = 0.25,
= 0.75).
Muitos sistemas apenas permitem feedback
positivo (=0).
Introduction to Information Retrieval
Aparte: Espaço vetorial pode ser contraintuitivo.
Doc
x
x
“J. Snow
& Cholera”
x
x
x
o
q1
x
x
x
x
Query
“cholera”
x
x
x
x
x
x x x
x x
x
x
x
q1 query “cholera”
o www.ph.ucla.edu/epi/snow.html
x other documents
Introduction to Information Retrieval
Alto-dimencionamento do Espaço
vetorial
As consultas "cólera" e "John Snow" estão longe umas das
outras no espaço vetorial.
Como pode o documento "John Snow e Cólera“ estar perto
de ambos?
Nossas intuições para espaços bi- e tri-dimensional não
funcionam em > 10.000 dimensões.
3 dimensões: se um documento está perto de muitas
consultas, então, algumas dessas consultas devem estar
próximos umas das outros.
Não mantém para um espaço de alta dimensão.
Introduction to Information Retrieval
Sec. 9.1.3
Relevance Feedback: Pressupostos
A1: Usuário tem conhecimento suficiente para a consulta inicial.
A2: Protótipos de relevância são "bem-comportadso”.
A distribuição de termos em documentos relevantes serão
semelhantes
A distribuição de termos em documentos não relevantes
serão diferentes das dos documentos relevantes.
Ou: Todos os documentos relevantes estão fortemente agrupados em
torno de um único protótipo.
Ou: Há protótipos diferentes, mas eles têm sobreposição de
vocabulário significativa.
Semelhanças entre documentos relevantes e irrelevantes são
pequenas
Introduction to Information Retrieval
Sec. 9.1.3
Violação do A1
O usuário não tem conhecimento inicial suficiente.
Exemplos:
Erros ortográficos (Brittany Speers).
Recuperação da informação multilíngüe (hígado).
Incompatibilidade de vocabulário de pesquisa vs vocabulário
coleção
Cosmonauta / astronauta
Introduction to Information Retrieval
Violação do A2
Existem vários protótipos de relevância.
Exemplos:
Birmânia / Mianmar
Governo políticas contraditórias
Estrelas Pop que trabalharam no Burger King
Freqüentemente: instâncias de um conceito geral
Bom conteúdo editorial pode resolver problema
Relatório sobre as políticas governamentais
contraditórias.
Sec. 9.1.3
Introduction to Information Retrieval
Relevance Feedback: Problemas
Consultas longas são ineficientes para mecanismo de RI
típico.
Longos tempos de resposta para o usuário.
Alto custo para o sistema de recuperação.
Solução Parcial:
Apenas repondere certos termos proeminente
Talvez top 20 por freqüência do termo
Usuários são muitas vezes relutantes em fornecer feedback
explícito
É muitas vezes difícil de entender por que um determinado
documento foi recuperado após a aplicação do feedback de
relevância
Introduction to Information Retrieval
Sec. 9.1.5
Avaliação de estratégias de feedback de
relevância
Use q0 e calcular o gráfico de retorno e precisão
Use qm e calcular o gráfico de retorno e precisão
Avaliar em todos os documentos da coleção
Melhorias espetaculares, mas ... é trapaça!
Em parte devido à maior pontuação de documentos conhecidos julgados
como relevantes
Deve ser avaliada com relação aos documentos não visto pelo usuário
Use documentos na coleção residual (conjunto de documentos retirando aqueles
avaliados como relevante)
Medidas normalmente são menores do que na consulta original
Mas é uma avaliação mais realista
O desempenho relativo pode ser validamente comparado
Empiricamente, uma rodada de feedback de relevância é frequentemente
muito útil. Duas rodadas é marginalmente útil.
Introduction to Information Retrieval
Sec. 9.1.5
Avaliação dos Feedbacks de Relevância
Segundo método - avaliar apenas os docs não
avaliados pelo usuário no primeiro turno
Poderia fazer um feedback de relevância parecer pior do
que realmente é
Pode ainda avaliar o desempenho relativo de algoritmos
Mais satisfatório - use duas coleções cada uma com suas
próprias avaliações de pertinência
q0 e o feedback dos usuários na primeira coleção
qm é executado na segunda coleção e medido
Introduction to Information Retrieval
Sec. 9.1.3
Avaliação: Caveat
Verdadeira avaliação da usabilidade deve comparar
com outros métodos, tendo a mesma quantidade de
tempo.
Alternativa para o feedback de relevância: usuário
revê e reenvia consulta.
Usuários podem preferir revisão / re-submissão ao invés de
ter de julgar a relevância dos documentos.
Não há provas claras de que o feedback de relevância
é o “melhor uso” do tempo do usuário.
Introduction to Information Retrieval
Sec. 9.1.4
Feedback de relevância na Web
Alguns mecanismos de busca oferecem uma característica de
páginas similares / relacionadas (esta é uma forma trivial de
relevante feedback)
Google (link-based)
Altavista
Stanford WebBase
α/β/γ ??
Mas alguns não, porque é difícil de explicar para o usuário médio:
Alltheweb
bing
Yahoo
Excite inicialmente tinha feedback de relevância de verdade, mas
o abandonou por falta de uso.
Introduction to Information Retrieval
Sec. 9.1.4
Excite Relevance Feedback
Spink et al. 2000
Apenas cerca de 4% das sessões de consulta de usuário
utilizam a opção feedback de relevância
Expresso como o link "More like this“ ao lado de cada resultado
Mas cerca de 70% dos usuários apenas olhar para primeira
página de resultados e não buscam coisas novas
Portanto, 4% é cerca de 1 / 8 de pessoas que prorroga a pesquisa
O feedback de relevância melhora os resultados em
aproximadamente 2 / 3 das vezes
Introduction to Information Retrieval
Sec. 9.1.6
Feedback de pseudo relevância
O feedback de pseudo-relevância automatiza a parte manual
do feedback de relevância verdadeiro.
Algoritmo de pseudo-relevância:
Recupera uma lista ordenada de documentos (de maiores
acessos (hits)) para a consulta do usuário.
Presumir que os top k documentos são relevantes.
Faça o feedback de relevância (ex., Rocchio)
Funciona muito bem em média
Mas podem dar horrivelmente errado para algumas consultas.
Várias iterações podem causar desvio de consulta.
Por quê? (Minas de Cobre/Chile)
Introduction to Information Retrieval
Sec. 9.2.2
Expansão de consulta
No feedback de relevância, os usuários dão uma
entrada adicional (relevante / não relevante) em
documentos, que é usado para reponderar os
termos nos documentos
Na expansão da consulta, os usuários dão entrada
adicional (bom/mau termo de pesquisa) em
palavras ou frases
Introduction to Information Retrieval
Assistente de consulta
Você esperaria um recurso assim para aumentar
o volume da consulta em um mecanismo de busca?
Introduction to Information Retrieval
Sec. 9.2.2
Como podemos aumentar a consulta do
usuário?
Tesauro manual
Ex. MedLine: physician, sinônimo: doc, doctor, MD,
medico
Pode ser de consulta em vez de apenas sinônimos
Análise global: (estático; de todos os documentos na coleção)
Tesauro derivado Automaticamente
(estatísticas de co-ocorrência)
Refinamentos com base na mineração de logs de
consultas
Comum na Web
Análise local: (dinâmico)
Análise dos documentos no conjunto de resultado
Introduction to Information Retrieval
Tesauro (Thesaurus)
Tesauro, também conhecido como dicionário de
idéias afins, é uma lista de palavras com significados
semelhantes, dentro de um domínio específico de
conhecimento. Por definição, um tesauro é restrito.
Não deve ser encarado simplesmente como uma lista
de sinônimos, pois o objetivo do tesauro é
justamente mostrar as diferenças mínimas entre as
palavras e ajudar o escritor a escolher a palavra
exata.
Fonte: http://pt.wikipedia.org/wiki/Thesaurus
44
Introduction to Information Retrieval
Exemplo de tesauro manual
Sec. 9.2.2
Introduction to Information Retrieval
Sec. 9.2.2
Expansão da consulta baseada em tesauro
Para cada termo t, em uma consulta, expandir a consulta com
sinônimos e palavras relacionadas ao termo t do tesauro
felino → felino gato
Deve ponderar menos os termos adicionados do que os termos
originais da consulta.
Geralmente aumenta o retorno
Amplamente utilizado em muitos campos da ciência e engenharia
Pode diminuir significativamente a precisão, especialmente com
termos ambíguos.
“taxa de juros ” “taxa de juros fascinante avaliação”
Existe um alto custo da produção manual do tesauro
E, para atualizá-lo, quando ocorre mudança científica
Introduction to Information Retrieval
Sec. 9.2.3
Geração Automática do Tesauro
Tentativa de gerar um tesauro automaticamente, analisando
o conjunto de documentos
Noção fundamental: similaridade entre duas palavras
Definição 1: Duas palavras são semelhantes se elas coocorrem com palavras semelhantes.
Definição 2: Duas palavras são semelhantes se elas ocorrem
em uma dada relação gramatical com as mesmas palavras.
Você pode colher, descascar, comer, preparar, etc maçãs e peras,
então maçãs e peras devem ser semelhante
Basear em co-ocorrência é a forma mais robusta, as relações
gramaticais são mais precisas.
Por quê?
Sec. 9.2.3
Introduction to Information Retrieval
Tesauro de co-ocorrência
Maneira mais simples para calcular um tesauro é se basear nas
similaridade termo-a-termo em C = AAT onde A é a matriz
termo-documento.
wi,j = (normalizado) ponderação para (ti ,dj)
dj
ti
M
N
O que
contém C ,
se A é uma
matriz de
incidência
termodocumento
(0/1)?
Para cada ti, escolher termos com valores elevados em C
Introduction to Information Retrieval
Exemplo de geração automática do
tesauro
Sec. 9.2.3
Introduction to Information Retrieval
Sec. 9.2.3
Discussão da geração automática do
tesauro
Qualidade das associações é geralmente um problema.
Ambigüidade do termo pode introduzir termos
irrelevantes mas que são estatisticamente
correlacionados.
Problemas:
Falsos positivos: Palavras consideradas como similares
mas que não são
Falsos negativos: As palavras não consideradas como
similares, mas que são
Desde que os termos são de qualquer forma altamente
correlacionados, a expansão pode não recuperar muitos
documentos adicionais.
“Apple Computador” “Apple fruta vermelha computador”
Introduction to Information Retrieval
Feedback de relevância indireto
Na web, o DirectHit introduziu uma forma de feedback de
relevância indireta.
DirectHit classificou os documentos que os usuários olharam
com mais freqüência.
Clicar em links significa que o documento é provável de ser relevante
Assumindo que os resumos apresentados são bons, etc
Globalmente: não necessariamente específico de usuário ou de consulta.
Esta é a área geral de mineração de clickstream (fluxo de cliques)
Hoje - tratada como parte do rankeamento de aprendizado da máquina
Introduction to Information Retrieval
Resources
IIR Ch 9
MG Ch. 4.7
MIR Ch. 5.2 – 5.4