Chapter 2: Modeling 불리안 모델

Download Report

Transcript Chapter 2: Modeling 불리안 모델

Sogang University: Dept of Computer Science
Information Retrieval
(Chapter 2: Modeling)
서정연교수
Office: 공학관 816
Tel: 705-8488
Email: [email protected]
Chapter 2: Modeling
2.1소개 - 용어 정리





컬렉션 (Collection) : 문서의 모임
문서 (Document) : 자연어 문장의 나열
 색인어(index term) 집합(정보검색)
색인어: 의미(meaning)를 가지는 키워드 혹은 키워드 무리
 문서 내용의 요약
 대부분은 명사
 색인어 집합은 사용자의 정보요구나 문서의 의미적인 표현으로 간주함.
 문제점 1:
– 과잉단순화(oversimplification problem) : 정보요구나 문서의
일부를 잃어버린다.
– 부정확한 정합: 사용자 요구에 대한 문서를 정확하게 찾을 수
없다.
단어  문서  컬렉션
질의 (Query) : 문서를 찾기 위한 사용자의 요구
Information Retrieval
Page 2
Chapter 2: Modeling
소개 - 용어 정리(cont.)

정보검색의 문제

검색모델
: 색인어 공간의 한 점으로 표현된 문서와 질의가 어떻게
관련이 있는지를 결정하는가?

순위 결정 (Ranking) 알고리즘
: 검색된 문서가 질의에 가장 적합한지를 어떻게 결정할
것인가?
 검색된 문서들을 적절한 순서로 재정렬한다.
 가능하면 사용자의 요구(질의어)에 가장 적합한 순으로
정렬한다.
Information Retrieval
Page 3
Chapter 2: Modeling
2.2 IR 모델의 분류체계
집합론적 모델
전통모델
검색:
사 축적(Adhoc)
용 여과(filtering)
자
작
업
브라우징
불리안 모델
벡터 모델
확률 모델
구조적 모델
비중첩 리스트 모델
근접노드 모델
브라우징
퍼지집합모델
확장 불리안모델
대수론적 모델
일반 벡터 모델
잠재의미 색인모델
신경망 모델
확률론적 모델
추론망 모델
신념망 모델
평면(flat)
구조기반
하이퍼텍스트
Information Retrieval
Page 4
Chapter 2: Modeling
검색 모델 분류
문헌의 논리상
색인어
전문
용
전통(classic)
전통(classic)
자
집합론
집합론
대수론
대수론
확률론
확률론
사
검색
과
제
브라우징
Information Retrieval
평면(flat)
전문 + 구조
구조
평면(flat)
구조 기반
하이퍼텍스트
하이퍼텍스트
Page 5
Chapter 2: Modeling
2.3 검색의 종류

축적 검색(Ad hoc retrieval)
: 컬렉션 내의 문서는 변하지 않고 사용자가 그때 그때 원하는
질의를 하는 검색방법.
 일반적인 정보검색에서 많이 나타나는 검색 유형

여과 검색(Filtering)
: 새로운 문서가 검색시스템에 계속 들어오고 질의요구는 항상
고정되어 있는 검색 방법
 사용자 프로파일 (user profile)
 각 사용자가 원하는 정보를 기술해 놓은 것
 여과검색에서는 단순히 관련이 있다고 판단되는 문서를 전달
 라우팅 (Routing)
 여과된 문헌의 순위를 계산해서 제공하는 여과 검색
Information Retrieval
Page 6
Chapter 2: Modeling
사용자 프로파일 (user profile)

Static user profile


사용자가 자신이 원하는 정보에 해당하는 키워드를 결정하여
입력함으로써 자신의 profile을 제작
Dynamic user profile

처음에 몇 개의 키워드 입력

Filter에서 제공하는 결과 문서에 대해 feedback을 주면 시스템이
그 결과를 자동 분석하여 프로파일의 키워드를 변경

이러한 relevance feedback cycle의 계속
Information Retrieval
Page 7
Chapter 2: Modeling
2.4 IR 모델의 형식 특성(formal characterization)

IR 모델 [D, Q, F, R(qi, dj)]
D : 소장된 문헌을 대한 논리 상(logical view) 또는 표현의 집합
Q : 사용된 정보요구의 논리 상(또는 표현)의 집합인 질의
F : 문헌 표현, 질의와 이들의 관계를 모델링하기위한 골격 (framework)
불리안 모델 - 문헌 집합, 표준 집합 연산으로 구성
벡터 모델 - t차원의벡터 공간, 표준 선형대수 연산으로 구성
확률 모델 - 집합, 표준 확률 연산, 베이즈 정리로 구성
R (qi, dj ) : 질의 qi 와 문헌 dj를 연관도를 결정하는 순위결정 함수
Information Retrieval
Page 8
Chapter 2: Modeling
2.5 전통적인 정보검색 모델



불리안 (Boolean) 모델

집합 (Set) 모델

문헌과 질의가 색인어의 집합으로 표현

집합과 표준적인 집합 연산자로 구성
벡터 (Vector) 모델

대수 (Algebra) 모델

문헌과 질의가 t 차원 공간의 벡터로 표시

벡터 계산을 위한 표준 선형 대수 연산자로 구성
확률 (Probabilistic) 모델

문헌과 질의 표현이 확률론에 근거

집합, 확률 연산과 베이즈 정리 (Bayes’ theorem)로 구성
Information Retrieval
Page 9
Chapter 2: Modeling
기본 개념

색인어(index term)


문헌의 주제를 나타내는 의미를 지닌 단어
주로 명사


가중치 (Weight)


명사는 자신만의 의미를 지님
문헌을 기술하는 유용성의 차이를 나타냄
정의(Definition)
색인어집합 : K  {k 1,..., kt}
문헌 j : d j  ( w1 j , w2 j ,...wtj)
wij : 문헌 dj 에서색인어 ki 의가중치
g i : t - 차원벡터에서 색인어 ki 의가중치를반환하는 함수

(즉, g i(d j )  wij )
Information Retrieval
Page 10
Chapter 2: Modeling
기본 개념

색인어 상호 독립성 가정



(ki, dj) 의 가중치 wij 는 (ki+1, dj) 의 가중치 w(i+1)j 와 무관하다고 가정
색인어 가중치 계산을 단순화
 빠른 순위 계산 가능
색인어 상호 연관성




실제 문헌 내에서의 색인어 출현은 서로 연관
예)
 컴퓨터 네트워크 분야: ‘컴퓨터’와 ‘네트워크’
 두 단어는 상호 연관되어 가중치에 영향
실제 상황에서 색인어 연관성을 이용하여 순위화에 크게 도움이
되는 좋은 결과를 낸 적이 없음
따라서, 연관성이 확실히 도움이 되는 모델이 만들어지기 까지는
독립성 가정이 유효함
Information Retrieval
Page 11
Chapter 2: Modeling
불리안 모델

집합론과 불리안 대수학에 기반하는 간단한 모델

색인어 가중치 wi,j  {0, 1}

연관된 문서인지 아닌지만 예측

문서를 순위화할 수 없다.

질의


사용자가 자신의 요구를 Boolean expression으로 정확하게 표현하는
것은 그리 쉬운 일이 아니다

그럼에도 불구하고, 불리안 모델은 가장 오랫동안 사용되어 온
대표적인 초창기 검색모델이다.

연산자 : not, or, and
정의 (교과서 참조)
Information Retrieval
Page 12
Chapter 2: Modeling
불리안 모델

예제 1)

색인어 (역파일이라고 함)
 curve:{12, 25, 36, 89, 125, 128, 215}
 fitting:{11, 12, 17, 36, 78, 136, 215}
 interpolation: {11, 18, 36, 125, 132}

질의 : ((curve and fitting) or interpolation)
1. (curve and fitting) = {12, 36, 215}
2. ((curve and fitting) or interpolation)
= {12, 36, 215} or {11, 18, 36, 125, 132}
= {11, 12, 18, 36, 125, 132, 215}
Information Retrieval
Page 13
Chapter 2: Modeling
불리안 모델 (계속)

예제)
ka
kb
q  ka  (kb  kc)

qdnf  (1,1,1)  (1,1,0)  (1,0,0)
kc
Information Retrieval
Page 14
Chapter 2: Modeling
불리안 모델 (계속)
병렬
프로그램
q  병렬  (프로그램 시스템)

qdnf  (1,1,1)  (1,1,0)  (1,0,1)
색인어
문서
병렬
유사도
…
프로그램 시스템
시스템
001
1
0
1
…
1
002
0
0
1
…
0
003
0
1
1
…
0
004
1
1
0
…
1
Information Retrieval
Page 15
Chapter 2: Modeling
불리안 모델 (계속)


장점

직관적이고 이해하기 쉽다.

사용자 요구인 질의의 의미가 명확하다.
단점

순위화를 적용하기에 곤란하다.

사용자 요구를 불리안 표현으로 정확하게 표현하기 쉽지 않다.

부분정합(partial matching)이 불가능. (All or nothing systems)
 사용자 요구가 (A and B and C and D)라면 (A, B, and C but not D)
를 검색되지 않는다.
 사용자 요구에 표현된 모든 단어(term)의 중요도는 과연 동등한가?

검색 결과의 크기를 통제할 수 없다 (Too much or too little)
Information Retrieval
Page 16
Chapter 2: Modeling
벡터모델

동기

이진 가중치 {0, 1}은 너무 제한적이다.
 가중치로 실수(float-point)를 사용하자.

부분 정합이 가능하도록 하자.
 검색된 문서의 연관 유무뿐 아니라

Information Retrieval
– 질의와의 유사도에 따라 검색된 문헌을 순위화한다.
Cosine 유사도 예
Page 17
Chapter 2: Modeling
벡터모델(계속)
예 2)
D1 = 2T1 + 3T2 + 5T3
D2 = 3T1 + 7T2 + T3
Q = 0T1 + 0T2 + 2T3
T3
5
D1 = 2T1+ 3T2 + 5T3
Q = 0T1 + 0T2 + 2T3
2
3
T1
D2 = 3T1 + 7T2 + T3
T2
Information Retrieval
7
• D1 혹은 D2 중 어느 것이 Q에 더
유사한가?
• 어떻게 유사도(거리, 각도 등) 를
측정할 것인가?
Page 18
Chapter 2: Modeling
벡터모델(계속)


질의와 문헌을 t-차원으로 표현한다.

문헌 dj = (w1,j, w1,j, ..., wt,j)

질의 q = (w1,q, w1,q, ..., wt,q)

가중치 0  wi,j  1 : 색인어의 중요도
질의/문헌의 유사도 sim(dj, q)에 따라 검색된 문헌을 순위화한다.

유사도 sim(dj, q) = (dj  q) / (|dj|  |q|) =
 w w
 w 
t
i 1
t
i 1

i, j
2
i, j
i ,q
t
2
w
i
,q
i 1
질의가 부분적으로 정합될 경우도 검색할 수 있다. (sim(dj, q) > )
Information Retrieval
Page 19
Chapter 2: Modeling
벡터모델 - 유사도
t
Inner Product
|XY|
x y
i
i
i =1
t
Dice Coefficient
2| X  Y |
|X|+|Y|
2  xi yi
i =1
t
t
 xi   yi
2
i =1
2
i =1
t
Cosine Coefficient
x y
i
|XY|
| X |1/2| Y |1/2
i
i =1
t
 yi
2
t
 xi
2
i 1
i =1
t
Jaccard Coefficient
|XY|
|X|+|Y|-|XY|
x y
i i
t
i =1
t
i
i =1
Information Retrieval
t
x  y x y
2
2
i
i =1
i i
i =1
Page 20
Chapter 2: Modeling
벡터모델(계속)
용어-문헌 행렬(Term-Document Matrix)
ki
d1
d2
...
dn
q


1
0
0.2
2 … 17 …
0.3
0
0.6
0.3
456 … 693 … 5072
0.5
0
0
0
0.8
0.3
0
0.3
0.2
0.7
0
0
0
0
0.6
0.7
0
0
유사도가 내적(inner product)일 경우:

sim(d1, q) = 0.3*0 + 0.7*0.3 + 0.7*0 = 0.21

sim(d2, q) = 0.3*0.2 + 0.7*0.6 + 0.7*0.8 = 1.04

sim(dn, q) = 0.3*0 + 0.7*0.2 + 0.7*0.6 = 0.56
검색 결과 (if  = 0.5)

d 2 , dn
Information Retrieval
Page 21
Chapter 2: Modeling
벡터모델- 용어가중치


클러스터링 문제

클러스터내 유사도(intra-clustering similarity)
 어떤 객체를 잘 설명하는 특성이 무엇이냐?

클러스터간 비유사도(inter-cluster dissimilarity)
 어떤 객체를 다른 객체와 구분하는 특성이 무엇이냐?
정보검색 문제


클러스터내 유사도(intra-clustering similarity)

용어빈도수(term frequency): tf, freqi,j

문헌 dj 에서 용어 ki 의 순수 빈도수
클러스터간 비유사도(inter-cluster dissimilarity)
 역문헌빈도수(inverse document frequency): idf
 문헌 컬렉션에서 용어 ki의 빈도수의 역수
Information Retrieval
Page 22
Chapter 2: Modeling
벡터모델 (계속)

가중치 기법

용어 빈도수 (tf)
 문헌내 용어 빈도수가 높을 수록 연관이 큼
f ij 

freqij
max l freqlj
( freqij : Raw frequency of term ki in the document d j )
역문헌 빈도수 (idf)
 많은 문헌에 출현한 용어는 연관/비연관 문헌을 구분하기 어려움
N
idf i  log
ni
ni : Number of documents in which t he index term ki appears
N : Total number of documents
Information Retrieval
Page 23
Chapter 2: Modeling
벡터모델 (계속)

잘 알려진 색인어 가중치 기법
 tf 와 idf 의 균형 (tf-idf 기법)
N
wij  f ij  log
ni
 f ij  idfi

질의에서 용어 가중치 기법

0.5 freqiq 
N


wiq  0.5 
 log


max
freq
ni
l
lq


 (0.5  0.5 f iq )  idfi
Information Retrieval
Page 24
Chapter 2: Modeling
벡터모델 (계속)
Q : " gold silver tru ck"
D1 : " Shipment of gold damaged in a fire"
D2 : " Delivery of silver arrived in a silver tru ck"
D3 : " Shipment of gold arrived in a truck"
N
idf i  log
ni
wij  f ij  idf i
wiq  f iq  idf i
Term
a
arrived
damaged
delivery
fire
gold
in
of
silver
shipment
truck
idf
0
.176
.477
.477
.477
.176
0
0
.477
.176
.176
Information Retrieval
Page 25
Chapter 2: Modeling
벡터모델 (계속)
Document vectors
t1
t2
t3
t4
t5
t6
t7
t8
t9
t10
t11
D1
0
0
.477
0
.477
.176
0
0
0
.176
0
D2
0
.176
0
.477
0
0
0
0
.954
0
.176
D3
0
.176
0
0
0
.176
0
0
0
.176
.176
Q
0
0
0
0
0
.176
0
0
.477
0
.176
t
SC (Q, D j )   wiq  wij
Not normalized
i 1
SC (Q, D1 )  (0)(0)  (0)(0)  (0)(0.477)  (0)(0)  (0)(0.477)
 (0.176)(0.176)  (0)(0)  (0)(0)  (0.477)(0)  (0)(0.176)  (0.176)(0)
 (0.176) 2  0.031
SC (Q, D2 )  (0.954)(0.477)  (0.176) 2  0.486
SC (Q, D3 )  (0.176) 2  (0.176) 2  0.062
Hence, the ranking would be D2, D3, D1
Information Retrieval
Page 26
Chapter 2: Modeling
벡터 모델 (계속)


장점

용어 가중치는 검색성능을 향상시킨다.

부분정합이 가능하다.

검색된 문헌을 순위화할 수 있다.
단점

색인 용어들간의 연관성을 고려하지 않았다.
 용어간 상호독립 가정의 모순이다.
 용어들 사이의 의존성을 고려하지 않았다.

연관 피드백의 질의 확장 없이 성능 개선이 어렵다.
Information Retrieval
Page 27
Chapter 2: Modeling
확률모델- 기본

경주마 백두산은 통산 100번의 경주를 뛰었다.

그 중 20번의 경주에서 우승했다.
 P(백두산=Win) = 20/100 = .2

그 중 30번은 비가 왔고 나머지는 맑았다.
 P(Weather=Rain) = 30/100 = .3
 그 중 백두산은 15번을 이겼다.
– 조건 확률 P(백두산=Win|Weather=Rain) = 15/30 = .5
– P(Win|Rain)= P(Win, Rain)/P(Rain)
–
= 0.15/0.3 = .5

P(Rain|Win) =?

Bayes’ theorem
Information Retrieval
P(B|A)  P(A)
P(B)
P(W|R)  P(R) 0.5  0.3
P(R|W) 

 0.75
P(W)
0.2
P(A|B) 
Page 28
Chapter 2: Modeling
확률 모델


동기

IR 문제를 확률적으로 해석한다.

1976년에 Robertson과 Sparck Jones[677]가 제안했다.
가정 (확률 원칙)

연관 확률(Probability of relevance)은 문헌과 질의 표현에만
종속된다.

질의 q 의 이상적인 정답 집합 (R) 가정하자.

집합 R의 문헌만 질의 q에 연관(relevant)되고 다른 문헌은
연관되지 않는다.
Information Retrieval
Page 29
Chapter 2: Modeling
확률 모델

정의
Bayes’ rule
P( R), P( R ) 은 모든 문헌에 동일
wij {0,1}, wiq {0,1} : index term weight variables are all binary



P( R | d j ) P(d j | R)  P( R) P(d j | R)


 
~
sim(d j , q ) 
P( R | d j ) P(d j | R )  P( R ) P(d j | R )
R : Set of documents known to be relevant
색인어 독립성
가정
R : Set of documents known to be non - relevant

P ( R | d j ) : Probabilit y that the document d j is relevant to the query q


sim(d j , q ) ~ 



| R )   
 


)
R
|
k
(
P
 
i
g i ( d j ) 1
 



P (ki
g i ( d j ) 1


| R ) 



)
R
|
k
(
P

i
gi ( d j ) 0


P( ki
gi ( d j ) 0
Log를 취하고,
상수 무시
P ( ki | R )  P ( ki | R )  1

1  P (ki | R ) 
P( ki | R )

 log
wiq  wij   log
P (ki | R ) 
1  P(ki | R)

i 1
t
sim(d j , q ) ~
Information Retrieval

Page 30
Chapter 2: Modeling
확률 모델

초기 확률
P(ki | R)  0.5
P ( ki | R ) 

ni
N
ni : number of documents which contain th e index term ki
확률의 개선
V
P ( ki | R )  i
V
V  0.5
 i
V 1
ni
N

V 1
Vi 
ni
n  Vi ni  Vi  0.5
N
P ( ki | R )  i


N V
N V 1
N V 1
V : subset of documents initially retrieved
Vi : subset of V which contain th e index term ki
ni  Vi 
Information Retrieval
너무 작은 V 와 Vi
의 경우,
조정 요소를 더함
Page 31
Chapter 2: Modeling
확률 모델 (계속)

Advantage


연관 확률에 따라 문헌 순위화가 가능하다.
Disadvantage

초기 문헌이 연관/비연관으로 분리되었다는 가정이 필요하다.

색인어의 문헌내 빈도수를 고려하지 않는다.

색인어들 간의 독립성을 가정하고 있다.
 그러나, 독립성 가정이 문제가 되는 것인지는 아직 모름!!
Information Retrieval
Page 32
Chapter 2: Modeling
전통 모델의 비교


불리안 모델

가장 단순한 모델

부분 정합 인식 불가 -> 낮은 성능
벡터 모델


널리 사용되는 검색 모델
벡터 모델과 확률 모델

Croft


확률 모델이 더 좋은 검색 성능을 제공
Salton, Buckley

Information Retrieval
일반 컬렉션에서 벡터 모델이 더 좋은 성능을 보임
Page 33
Chapter 2: Modeling
퍼지 정보검색 모델

동기

일반적으로 문헌과 질의는 키워드 집합으로 표현한다.

문헌과 질의의 실제적인 의미의 부분적인 표현이다.

문헌과 질의의 정합(matching)은 근접, 또는 모호한 정합이
된다

각 용어는 퍼지 집합(fuzzy set)으로 정의한다.

각 문헌은 각 용어의 퍼지 집합에서 소속 정도(degree of
membership)를 가진다.
Information Retrieval
Page 34
Chapter 2: Modeling
퍼지 집합의 소개

퍼지 집합 A에 x의 소속 정도 m A(x) :


m A(x) : X  [0,1]
 X : 전체 집합(universal set)
 [0,1] : 0과 1 사이의 실수
예)

전체 집합
U = {4.5,
5, 5.5, 6, 6.5, 7, 7.5, 8}
 퍼지 집합 TALL={0/4.5, 0.2/5, .5/5.5, .7/6, 1/6.5, 1/7, 1/7.5, 1/8}

소속함수(membership function)
1.0
mTALL0.7
0.5
0
0
Information Retrieval
4.5
5.5
Height in feet
6
6.5
Page 35
Chapter 2: Modeling
퍼지 집합의 연산


퍼지 집합 연산의 매우 다양한 방법으로 정의되며 여기서 한 예를
보인다.
교집합 A B 의 소속함수 :


합집합 A  B의 소속함수 :


mAB(x)= min{mA(x), mB(x)} or mAB(x)= mA(x)mB(x) for all xX
mAB(x)= max{mA(x), mB(x)} or mAB(x)= mA(x)+mB(x)- mA(x)mB(x)
여집합 A’의 소속함수:

mA’(x)= 1-mA(x)
Information Retrieval
Page 36
Chapter 2: Modeling
퍼지 정보검색 모델


문헌 D의 표현: 가중치 벡터 (w1,…,wt),

wi = mTi(D)

용어 Ti의 퍼지 집합에서 문헌 D에 소속 정도
예:


POLITICS={mpolitics(D1)/ D1 , mpolitics(D2)/ D2 ,…, mpolitics(DN)/ DN}
질의에 대한 연관 정도:

문헌 D의 소속 정보에 대해

(Ti AND Tj): min(wi, wj)로 계산

(Ti OR Tj) : max(wi, wj) 로 계산

(NOT Ti) : 1-wi 로 계산
Information Retrieval
Page 37
Chapter 2: Modeling
퍼지 정보검색 모델 - 예제

예 1) - AND
 D1: elephant/1 + Asia/0.2 + ...
 D2: elephant/0.2 + Asia/0.2 + ...
 Q2= elephants AND Asia

예 3) - NOT

D1: mammals/0.5+Asia/0.2+...

D2:
mammals/0.51+Asia/0.49+...

Q4 = (mammals AND NOT
Asia)

D1 : min(0.5, 1-0.2) = 0.5

D2 : min(0.51, 1-0.49) = 0.51

D1 : min(1, 0.2) = 0.2.
 D2 : min(0.2,0.2) = 0.2
 D1 better
예 2) - OR
 D1:elephant/0.8 + hunting/0.1 + ...
 D2: elephant/0.7 + hunting/0.7 +
...
 Q3= elephants OR hunting
 D1 : max(0.8, 0.1)=0.8
 D2 : with max(0.7, 0.7)=0.7
 D2 better


Information Retrieval
Page 38
Chapter 2: Modeling
퍼지 정보검색 모델

소속함수를 어떻게 계산할까?
 용어-용어 연관 행렬 사용한다.

용어-용어 연관 행렬(Term-term correlation matrix) CNM
 두 용어 ki와 kl의 연관도 cij :
k1
k2
K1
C11
C12
K2
C12
C22
…
…
cil 
nil
ni  nl  nil
ni : Number of documents which contain th e term ki
nil : Number of documents which contain th e term ki and kl
 소속 함수(Degree of membership)
 문헌 dj가 용어 ki에 관련된 소속정보
mij  1   (1  cil )
kl d j
Information Retrieval
Page 39
Chapter 2: Modeling
확장 불리안 모델

동기



불리안 모델
 간단하다.
 용어 가중치를 사용할 수 없다.
 검색된 문헌를 순위화할 수 없다.
 검색된 문헌의 수가 너무 크거나 너무 작다.
벡터 모델
 간단하고 빠르다.
 검색 성능이 좋다.
불리안 모델의 질의 형식을 벡터 모델에 적용하여
 부분 정합이나 용어 가중치를 이용하자.

Information Retrieval
확장 불리안 모델
Page 40
Chapter 2: Modeling
확장 불리안 모델 (계속)

불리안 논리의 가정에 대한 문제


질의 용어의 불리안 합 : q = kx  ky
 용어 kx 혹은 ky를 포함하는 문헌은 두 용어 kx와 ky가
포함되지 않은 다른 문헌만큼 질의 q에 연관되지 않을 수
있다.
질의 용어의 불리안 곱 : q = kx  ky
 용어 kx와 ky를 포함하는 문헌은 두 용어 kx 혹은 ky가 포함된
문헌보다 질의 q에 연관되지 않을 수 있다.
Information Retrieval
Page 41
Chapter 2: Modeling
확장 불리안 모델 (계속)

예)

두 용어 kx과 ky에 대해서 생각해보자.

가중치 (normalized tf-idf factor)

wxj  f xj 
idf x
max i idf i
(0  wxj  1)
wyj  f yj 
idf y
(0  wyj  1)
max i idf i
2차원 공간에서 질의와 문헌의 유사도
ky
(0,1)
(1,1)
xy
가장 원치 않음
ky
(0,1)
(1,1)
가장 원함.
d
d
x y
(0,0)
Information Retrieval
(1,0) kx
(0,0)
(1,0) kx
Page 42
Chapter 2: Modeling
확장 불리안 모델 (계속)

논리합 질의 :

qor  k x  k y
유사도 : 좌표 (0,0)으로부터의 Normalized 된 거리이다.
sim (qor , d ) 

논리곱 질의 :

x2  y 2
2
qand  k x  k y
유사도 : 좌표 (1, 1)로부터의 거리의 역수
(1  x) 2  (1  y ) 2
sim (qand , d )  1 
2
Information Retrieval
Page 43
Chapter 2: Modeling
확장 불리안 모델 (계속)

P-norm 모델

거리 개념 일반화:
 유클리디안 거리뿐 아니라 p-거리의 개념으로 일반화한
모델이다.

p 값은 질의 시 준다.

일반화된 논리합 질의(Generalized disjunctive query)
qor  k1  p k 2  p ...  p k m

일반화된 논리곱 질의( Generalized conjunctive query)
qand  k1  p k 2  p ...  p k m
Information Retrieval
Page 44
Chapter 2: Modeling
확장 불리안 모델 (계속)

P-norm 모델에서 질의-문헌의 유사도(query-document
similarity)
 x  x  ...  x
sim (qor , d j )  
m

p
1
p
2
p
m



1
p
 (1  x1 )  (1  x2 )  ...  (1  xm )
sim (qand , d j )  1  
m

p

예)
q  (k1  p k 2 )  p k3
Information Retrieval
p
p



1
p

   (1  x ) p  (1  x ) p
1
2
 1  
2
 
sim (q, d j )   

2







1
p
p


p
  x3












1
p
Page 45
Chapter 2: Modeling
확장 불리안 모델 (계속)

P-norm 모델의 특성


p=1
 유사도 기반한 벡터 모델
x  ...  xm
sim (qor , d j )  sim (qand , d j )  1
m
p=
 유사도 기반 퍼지 집합 모델
sim (q , d )  max ( x )
or
j
i
i
sim (qand , d j )  min i ( xi )


1< p <  로 p값을 변화시키면 벡터모델과 퍼지집합모델의 중간
성질을 가진 검색모델이 되는 유연성이 장점이다
확장 불리안 모델은 1983년에 소개된 개념이지만 실제 많이
사용되지 않고 있다. 그러나 여러가지 이론적인 장점을 많이
가지고 있어서 미래의 검색모델로 사용될 가능성이 많다
Information Retrieval
Page 46
Chapter 2: Modeling
일반화된 벡터 모델 – 용어들 간의 의존성 고려

Ti : 색인어 i를 표현하는 벡터

dri : 문헌 Dr에서 색인어 i의 가중치

qsi : 질의 Qs에서 색인어 i의 가중치

질의와 문헌의 유사도 내적을 사용할 경우
Document D r and query Q s
are a linear combinatio n of the vectors T1 ,..., Tt
t
t
i 1
j 1
So Dr   d riTi and Qs   qrjT j
Using inner product we get :
t
t
i 1
j 1
D r Qs  ( d riTi )(  qsjT j )   d ri qsjTiT j
Information Retrieval
i, j
Page 47
Chapter 2: Modeling
일반화된 벡터 모델 - 예제
T1 T2 T3
D1=2T1+3T2+5T3
T1 1
D2=3T1+7T2+1T3
T2 .5 1
Q =0T1+0T2+2T3
T3 0 -.2 1
sim(D1, Q)
.5 0
-.2
= (2T1+ 3T2 + 5T3) * (0T1 + 0T2 + 2T3)
= 4T1T3 + 6T2T3 + 10T3T3
= 4*0-6*0.2+10*1= 8.8
sim(D2, Q)
= (3T1+ 7T2 + 1T3) * (0T1 + 0T2 + 2T3)
= 6T1T3 + 14T2T3 + 2T3T3
= 6*0-14*0.2+2*1= -.8
검색결과 (if  = 0.5): D1
Information Retrieval
Page 48
Chapter 2: Modeling
일반화된 벡터 모델 – 용어-용어 행렬(term-term matrix)



용어-문헌 행렬 : MNM
 N: 문헌 수, M: 용어(색인어) 수
용어-용어 행렬: TNN
 T = M M-t
예) (실제 계산에서는 정규화된 가중치를 사용한다.)

t
T  1
t 2

t 2


d1
2
3
5
d2 


3
d1

7
 d 2
1
t1
2
3
t2
3
7

t3  
t1


5 
t 2
1  
t 3
t1
13
27
13
t2 t3 
27 13 
58 22

22 26
용어간 상관성이 검색성능을 향상시킨다는 증거는 아직 없고, 계산량이
많아서 일반화된 벡터모델이 전통벡터모델보다 선호되지 못함
이론적인 관점에서 확장된 아이디어를 제공하는 기반이 됨
Information Retrieval
Page 49
Chapter 2: Modeling
잠재의미색인 모델(Latent Semantic Indexing Model)

동기

어휘적 정합의 문제점
 개념(concept)을 표현하는 방법은 다양하다.(synonymy)
– 색인되지 않았으나 연관 문헌은 검색되지 않는다.

대부분의 단어는 여러 가지 의미를 지닌다.(polysemy)
– 비연관 문헌이 검색 결과에 포함된다.

기본 개념



질의와 문헌의 정합 과정에 색인어 정합 대신에 개념
정합(concept matching)을 사용한다.
문헌 벡터와 질의 벡터의 차원을 개념 벡터로 대응시킨다.
일반적으로 개념 벡터의 차원은 색인어 벡터의 차원보다 작다.
 왜냐하면 하나의 개념은 여러 개의 색인어(용어)를 포함한다.
Information Retrieval
Page 50
Chapter 2: Modeling
잠재의미색인 모델(계속)

용어-문헌 행렬(term-document matrix) MtN =(Mij)
 Mij = wi,j : 문헌 dj와 용어 ki의 관련도

단일 값 분해(singular value decomposition, SVD)를 사용해서
 M을 KSD으로 분해한다.
 K : 용어-용어 상관 행렬(term-to-term correlation matrix) MMt로 구할 수 있는
고유벡터 행렬(matrix of eigenvectors)
 Dt : 문헌-문헌 행렬(document-document matrix) MtM를 전치하여(transpose)
구할 수 있는 고유벡터 행렬
 S : 단일값(singular values)의 대각행렬(diagonal matrix) r  r,
여기서 r = min(t, N)은 M의 차수(rank).
원래 행렬 M에 가장 가까운 Ms를 구한다.
 Ms의 차수 s < r
 Ms = KsSsDs

Information Retrieval
Page 51
Chapter 2: Modeling
잠재의미색인 모델(계속)

단일값분해(Singular Value Decomposition)
A  UV T
U T U  V T V  I n : orthogonal
U : left singular v ector
V : right singular v ector
  diag ( 1 ,  ,  n ) : singular v alue
 1   2       r   r 1       n  0
A
m x n
Information Retrieval
=
U
m x n

n x n
VT
n x n
Page 52
Chapter 2: Modeling
잠재의미색인 모델(계속)

잠재의미색인
용어-문헌 행렬
tf-idf 가중치 방법을적용
Information Retrieval
Page 53
Chapter 2: Modeling
잠재의미색인 모델(계속)

잠재의미색인


검색



k: 줄여진 개념 공간의 차원
 용어와 문헌 사이의 상관관계를 충분히 찾을 수 있을 정도로 커야
한다.
 단어 사용에서 여러 가지 변형에 의한 잡음을 제거할 수 있을
정도로 작아야 한다.
qˆ  q T U k  k 1
질의
유사도 : 코사인 유사도
문서의 순위화


질의를 첫번째 문서 D0로 모델링한다.
MstMs에서 첫번째 줄은 질의에 대한 모든 문서의 순위를 제공한다.
Information Retrieval
Page 54
Chapter 2: Modeling
잠재의미색인 모델(계속)

장점



효율적이고 개념적인 색인 모델이다.
색인어의 잡음과 색인어 벡터의 차원을 줄일 수 있다.
 색인어의 정합이 없을 경우에도 검색될 수 있다.
다의어 문제를 부분적으로 해결할 수 있다.
 한 단어가 여러 가지의 의미를 가지고 있다면
– 그 단어는 여러 의미의 평균 가중치로 표현한다.

단점



검색 속도가 늦다.
 역색인 파일이 없다.
 질의 벡터와 각 문헌 벡터를 곱해야 한다.
SVD 계산은 늦고 많은 메모리를 요구한다.
다의어 때문에 한 단어는 여러 개의 벡터로 표현될 수도 있다.
Information Retrieval
Page 55
Chapter 2: Modeling
신경망 모델


동기

정보검색 시스템
 문헌 벡터와 질의벡터의 유사도를 계산하여 순위화하는 것이다.
 문헌과 질의에 포함된 색인은 정합되어야 하고 적절한 가중치를
가지고 있어야 순위화를 할 수 있다.

신경망이 이와 같은 일을 잘 수행할 수 있는 패턴 정합기이다.
신경망 모델

3층으로 구성
 질의 용어, 문헌 용어, 문헌
Information Retrieval
Page 56
Chapter 2: Modeling
신경망 모델(계속)

자료표현 :



국부표현 (local representation)
 입력층 : 색인어 당 하나의 노드
 출력층 : 문서 당 하나의 노드
학습 :

모든 가중치가 학습 알고리즘에
의해서 결정된다.

학습 데이터 : term vector
 dj [k1, k2, ..., kt]
 1 [1, 0, ..., 1]
입력층
출력층
실행 :

입력 : query vector

출력 : query vector에 대한 출력층의
각 노드에 활성화된 값에 따라서
문서의 순위가 결정된다.
Information Retrieval
Page 57
Chapter 2: Modeling
신경망 모델(계속)

예제)

D1


D2


The dog has a mouse
D3


Cats and dogs eat.
Mice eat anything
D4

Cats play with mice and rats

D5

Cats play with rats
질의
 Do cats play with mice?

Information Retrieval
Page 58
Chapter 2: Modeling
신경망 모델(계속)

질의 용어(query term) 노드

질의 용어 (query term) 노드의 가중치 : 1.0

아래와 같은 연결 가중치(connection weight)를 통해서 문헌용어
(document term) 노드에 신호를 보낸다.
wiq 

wiq

t
2
w
iq
i 1

0.5 freqiq 

  log N
wiq  0.5 

max l freqlq 
ni

문헌 용어(document term) 노드

아래와 같은 연결 가중치(connection weight)를 통해서 문헌
노드에 신호를 보낸다
wij 
Information Retrieval
wij

t
2
w
ij
i 1
wij  f ij  log
N
ni
Page 59
Chapter 2: Modeling
신경망 모델(계속)

문헌 노드

아래와 같은 방법으로 입력 신호들을 합한다.
Cosine measure
w
i 1
Information Retrieval

t
t
iq
wij 
i 1
wiq wij
i 1 w 
t
2
iq
2
w
i 1 ij
t
Page 60