LSA와 축회전에 기반한 문서 분류 (1/2)

Transcript LSA와 축회전에 기반한 문서 분류 (1/2)

뇌신경정보학 연구사업
중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습
기술 개발
정보탐색팀
장병탁
김청택
오경환
변영태
(서울대학교
(서울대학교
(서강대학교
(홍익대학교
컴퓨터공학부)
심리학과)
컴퓨터학과)
정보/컴퓨터공학부)
2002년 11월 15일 (金)
정보탐색기술 연구 체계도
정보 추출
웹 마이닝
Web
컨텐츠 정보분석
정보 여과
정보 분류
문서 인덱싱



고성능 정보
검색 시스템



신경망 기반 정보 추출 및
분류 시스템
대규모 텍스트 분석
대용량 DB
모델의 자동 학습
PLSA
텍스트 처리
인지 기제
정보분류체계의
행동,수리적 모형
LSA, PCA, MDS
Factor Analysis
NMF
제품 정보 DB
구축
…
인간의 정보 분류
/범주화 체계
..
주제어 추출
ICA
Multiple-cause model
은닉변수 기반 텍스트 마이닝 시스템
인지심리분석시스템
개인차 이용
시스템
2차년도 연구목표

은닉변수 신경망 학습 기반의 정보 검색 기술 개발



인간에게 적합한 시스템의 구축 방식과 구축시 제한
점 해결 방안 연구



정보검색 신경망 모델의 자동학습 기법 연구
텍스트 문서의 자동 분석, 분류, 여과를 위한 기술 연구 개발
개인차를 이용하는 시스템의 구현 방법에 대한 연구
제안된 모형의 구현 가능성과 구현 방법에 관한 기법 연구
신경망 모델 기반의 웹 정보 마이닝 기술 개발


특정 영역의 웹 정보의 분석, 분류, 여과 방법 연구
사용자의 요구 혹은 성향에 맞게 분석된 웹 정보를 추출할 수
있는 기술에 관한 연구
특정영역 정보의 웹 문서 분류 및 정보 추출
시스템 구성

특정 영역 서비스 시스템의
성능 향상

양질의 많은 웹 문서의 보유


지식베이스(KB)의 확장



term(텀) 위주
→ 문서형태(HTML tag) 및
WordNet 계층정보 이용
한글 영역 데이터
패턴(tag + symbol)을 통한 정
보추출
영역 전문 사이트 효율적 처리



http://www.animalinfo.org
http://animaldiversity.ummz.u
mich.edu
http://www.nature21.com
웹 문서 분류 (1/2)

SVD(Singular Value Decomposition)를 통해 문서 간의
상관관계를 구함


HTML tag, term, WordNet data의 문서 정보 matrix를 이용
K-means 알고리즘을 수정한 Clustering 방법으로 문서를
분류
웹 문서 분류 (2/2)

실험

< Entropy 1 >
“Animal Info” site
http://www.animalinfo.org

Site 구성




www.animalinfo.org/ : 86개
www.animalinfo.org/species/ :
210개 ← 전문문서
www.animalinfo.org/country/ :
174개
성능 평가
0.7
0.6
0.5
0.4
E1
0.3
0.2
0.1
0
Tag
Term
W ordNet Tag+Term Tag+W N Term+W N
< Entropy 2 >
1.2
1
0.8
0.6
E2
0.4
0.2
0
Tag
Term
WordNet Tag+Term Tag+WN Term+WN
웹 문서로부터의 정보 추출
“ … </td> </tr> <tr>
<td> 수 명 </td>
<td> 5 ~ 10년 
</td> </tr> <tr> <td> 먹
이 섭취량 </td> <td>
…”
Preprocessing
“ … </td> </tr> <tr> <td>
 # </td> <td>
 5 ~ 10# </td>
</tr> <tr> <td> # 
</td> <td> … ”
PatternSelect
Ptn1: “<tr> <td> # 
</td>”
Ptn2: “<tr> <td> # 
</td>”
InfoExtract
<1> 토끼
<2> +--A:토끼의 먹이
<3> 양질의 펠렛, 건초(알팔파, 큰조아
재비, 귀리), 물, 신선한 야채로 먹
이를 구성해야 한다. 그밖에는 간
식으로 주고 그 양을 제한해서 줘
야 한다. 토끼의 평균 먹이섭취량
은 체중의 약 4%이다. 성숙한 뉴
질랜드화이트는….
<1> 토끼
<2> +--P:잎이 많이 붙어 있다
<3> 잡초, 풀뿌리, 나무토막 같은 이물
이 적다.
<1> 토끼
<2> +--A:수 명
<3> 5 ~ 10년 …
토픽기반 정보 분류
토픽기반 문서검색/분류

latent semantic features
bike
ride
motorcycle
helmet
bmw
bikes
road
ama
game
baseball
pitcher
play
games
league
catcher
season
z1
z2
team
hockey
season
nhl
game
pittsburgh
puck
play
…
car
engine
cars
drive
speed
ford
make
mph
z3
…
zm

은닉변수모델에 기반한 텍스트 문서
분석  추출된 주제어 집합에 기반
한 문서 검색/분류
문서 검색/분류에서 Basic VSM의 문
제점

z: latent variable

w1 w2 w3 w4 w5 w6
.....
document
wn
w: word
… Peter Gammons is more knowledgable about baseball … actually
had the gall to say that one out of every six pitchers in the NL …
The Braves have two catchers who have demonstrated solid
abilities to call games, to work with the pitchers, to throw out
runners...

IR에서 기본적인 BOW 접근법은 단
어들간의 의미관계를 파악하지 못함.
 유사어를 포함한 단어들간의 유사
도 측정에서 문제점 발생.
극단적인 경우, 문서간 공통 단어가
존재하지 않더라도 두 문서가 유사한
토픽일 수 있음.
가능한 해결책


문서내 단어들의 유사어들을 포함하
도록 문서 표현의 확장
Thesaurus나 코퍼스에 기반한 단어
간 유사도를 계산하거나, 토픽공간
상으로 문서 매핑
다중요인 모델 학습에 기반한 문서 유사도 측정

벡터공간상에서의 문서
간 유사도 측정
sim (d1 , d 2 )  (PT d1 )  (PT d 2 )

다중 요인 모델 학습에 의
한 문서 유사도 측정
SIM(d1, d2) = K1(d1, d2) + (1-)K2(t1, t2)
 d1 PP T d 2
T
VSM
GVSM
+
PI
PD
LSI
P  Uk
WordNet-based
PW
t1  d1T R, t2  d 2T R
…
R
LVM
BVSM
d1
d2
문서검색에의 적용 및 성능 평가 (1/2)

4 standard dataset




MEDLINE: 1033 documents, 30 query
CACM: 3204 documents, 51 query
CISI: 1460 documents, 76 query
CRANFIELD: 1398 documents, 225 query
문서검색에의 적용 및 성능 평가 (2/2)

11-point average precision
MEDLINE
CACM
CISI
CRAN
Word-space
52.7 %
16.9 %
17.5 %
33.9 %
Doc-index
59.8 %
15.2 %
15.8 %
36.6 %
60.9 ± 1.11 %
13.3 ± 0.54 %
16.5 ± 0.45 %
36.9 ± 0.25 %
61.5 %
17.4 %
17.8 %
36.7 %
65.3 ± 0.77 %
21.2 ± 0.64 %
18.8 ±
0.32 %
38.9 ±
0.50 %
K-Means
LSI
HM

Statistical significance (p-value) : paired-t test
Word-space
MEDLINE (30)
Doc-index
K-Means
LSI
2.4E-07
0.0012
0.0091
0.0101
CACM (51)
0.0012
0.0003
6.7E-05
0.0008
CISI (76)
0.0058
0.0001
0.0008
0.1269
1.1E-15
6.4E-07
1.6E-0.5
1.3E-05
CRANFIELD (225)
LSA와 축회전에 기반한 문서 분류 (1/2)

텍스트 문서에서의 LSA 활용



Idea from Psychometrics


단어들로 구성된 축 상에 텍스트 문서 표현.
데이터 차원 감소.
요인분석(factor analysis)에서 데이터의 분석을 보다 더 용이하
게 하기 위해서는 축의 회전이 필요.
수학적 재해석

LSA: Projection-Based
1
Xˆ  U r U r 'U r  U r X

Ours: Feature – Attribute


Xˆ  U r DrVr '  U r A  U rT  T 1 A  U * A*
LSA와 축회전에 기반한 문서 분류 (2/2)

Hierarchical Cluster Analysis
1.
Obesity surgery surging in popularity
2.
Asia falls foul to fat
3.
Obesity almost as bad as smoking
4.
Misconceptions about weight problems
5.
Obesity drugs alone won't do it
6.
Ancient Apocalypse: The fall of the Egyptian
Old Kingdom
7.
From warrior women to female pharaohs:
8.
A royal feud?
9.
Mummy
10.
Akhenaten and the Amarna period
11.
First gene therapy experiment for Alzheimer's
12.
The fall and rise of gene therapy
13.
Gene therapy hope for cancer patients
14.
Gene therapy hope for cancer patients
15.
Gene therapy shows promise against cancer
기본 LSA
LSA 후 축 회전
LSA와 축회전에 기반한 키워드 추출 (1/2)


파스칼 전자 백과사전에서 심리학, 경제학, 물리학,
언어학,진화론,컴퓨터,고고학,종교,해부학,바이러스
의 Keywords로 검색하여 300개의 문서를 무선적으로
선택
SVD 실행 후 oblique rotation을 사용함


A gradient projection algorithm (Jennrich, 2001, 2002)

(a)Compute G=df/dT

(b)Replace T by þ(T-aG) and go to (a) or stop ( þ(X) =Xdg(X’X) )
LSA와 축회전에 기반한 키워드 추출 (2/2)
연합심리학
컴퓨터
물리학
홍역
종교의자유
유전학
언어학
불교고고학
피코르나바이러스
생산
연합
하드웨어
물리학
수두
종교인류학
유전자
국어학
비교해부학
폭스바이러스
국민소득
행동주의
퍼스널컴퓨터
원자물리학
코감기
종교민속학
진화론
고고학
개별과학
엔테로바이러스
경제학
실험심리학
외부기억장치
물성물리학
뇌염
종교학
진화
구조언어학
실험고고학
오르토믹소바이러스
가격
작용심리학
주기억장치
고전물리학
폐렴
종교철학
분자생물학
성
역사고고학
에코바이러스
분배
하틀리
마이크로프로세서
상대성이론
폴리오
불교고고학
생물학
의미론
화학물리학
바이러스
생산양식
의식
제어장치
우주물리학
인플루엔자
종교
생물학
신석기시대
상사
아데노바이러스
재
심리학
소프트웨어
화학물리학
감염증
종교교육
생명
사회언어학
명문
핵단백질
사회과학
헐
자기드럼
광자
광견병
종교사회학
핵산
선사시대
결정학
인터페론
통계
수리심리학
인터페이스
과학
수막염
종교정당
변이
구석기시대
지구과학
핵산
체제
종교심리학
연산장치
천체물리학
백신
문헌학
염색체
문화인류학
상
컴파일러
교환
환경심리학
입출력장치
장
풍진
문헌학
유전
형태론
고인류학
어원
구조
관념연합
코볼
전자기학
인두염
종교도시
상동
음성학
고체물리학
유전자
구조
민족심리학
프로그램
에너지
항바이러스제
종교합일사상
생물물리학
음운론
적자생존
항체
공간
인지심리학
미니컴퓨터
힘
약
종교미술
획득형질
문헌학
동물철학
성
마르크스
심리언어학
에드박
열
항생물질
종교문학
분류학
문헌학
응용과학
알골
도덕
베르트하이머
마이크로컴퓨터
질량
바이러스
종교사학파
생물
어원
선사시대
오퍼레이터
밀
교육심리학
램
열학
비염
종교개혁
핵단백질
변형생성문법
열학
형태론
적자생존
형태심리학
어셈블러
빛
구내염
종교전쟁
자연선택
역사고고학
성서고고학
항바이러스제
구조주의
보링
자연언어처리
소립자론
리케차
성서고고학
동물학
청동기
산업고고학
게슈탈트
물질
Usage Mining
사용자 모델링

User Modeling - 웹 추천 시스템



인터넷 정보 검색시 불필요한 작업을 최소화
하고 사용자에게 가장 필요한 정보 제공.
사용자의 프로파일과 행동을 분석
Dynamic Web Contents
Recommendation System


동적으로 사용자의 행위를 예측하여 최적의
웹 정보를 제공하는 웹 추천 시스템
적용되는 제안 알고리즘


Support Vector Regression(SVR), Multiple
Missing Value Imputation based on MCMC,
SOM
KDD Cup 데이터를 통한 성능 평가


예측의 정확성 향상
예측을 위한 학습 시간의 단축 - 동적인 웹
정보의 추천을 가능케 함
SVR을 통한 웹 페이지 접속 시간 추정

SVR 모델은 각 페이지에 대하여 구축되며, 해당 페이지를 제외한 나머지 페이지들에 대한
선호도를 축으로 하는 예측 모형으로 작성됨

그림에서 각 점은 사용자 한 명을 나타내며, 초평면에 있는 축들은 이미 사용자가 지나온 페
이지 브라우징 시간, 세로축은 해당 페이지에 대한 브라우징 시간이다. 따라서 그림은 해당
페이지를 제외한 다른 페이지의 시간에 따라 해당 사용자의
해당 페이지에 관한 브라우징 시간을 예측

Example
앞의 Web page data 구조에서 Id1의 page2에
대한 선호도 예측 모형은 다음과 같다.
선호도page2 = f(page1, page3,…,pageM)
이 모형을 통해 page2에 대한 선호도를 예측할
수 있다. Id1 사용자에 대해서 나머지가 선호도
가 없는 페이지(cell이 missing인 페이지)에 대한
선호도를 계산하여 가장 큰 값을 갖는 페이지를
Id1 사용자에게 추천하게 됨
Bayesian Learning for SOM

본 연구에서 적용되는 변형된 Self Organizing feature Maps

Self Organizing feature Maps의 비 수렴성 문제를 확률적 분포를 이용하여 해결함

Hybrid SOM: 신경망의 가중치 갱신이 Gaussian 확률 분포를 통하여 이루어짐
 SOM의 입력 벡터가 정규화 되어 있고, 승자 노드의 결정에 유클리디안 거리를
사용하기 때문에 Gaussian 확률 분포 이론을 적용하였음
군집수에 대한 수렴성
학습 결과수
50
40
30
SOM
HSOM
20
10
0
3
4
5
6
군집수
7
8
KDD Cup 2000 data에 대한 실험


인터넷 쇼핑몰 Gazelle.com 의 2
개월 간의 클릭 스트림만을 모아
놓은1.2GB의 텍스트 데이터.

Pearso
n
SVR
ESVM
MSE(전체)
1.37
1.29
0.89
MSE
(상위 50%)
1.01
0.97
0.64
웹 로그 데이터
예측 성능

앙상블 Support Vector
Regression을 이용한 웹 페이지
추천 결과가 기존에 사용되는 알
고리즘에 비해 성능 향상을 보임

MSE(mean squared error)는 실
제값과 예측값의 차이를 평가하
는 측도로서 작을수록 모형에 대
한 예측의 정확성이 높아짐
연구 지속 방향


효과적 데이터 수집을 위한 Web Crawling 알고리
즘 개발
텍스트 분석을 위한 은닉변수 모델의 핵심 엔진
통합 및 대용량 문서 데이터에 대한 검증


TREC 데이터, 한글 백과 사전
효율적인 정보서비스 시스템을 위한 각 모듈의 적
용 및 통합



사용자에 대한 효과적 정보 제공을 위한 usage mining 기술 연구
웹 검색을 위한 인지모델 개발
 웹에서 사용자들의 검색 특성을 파악하고 어떤 종류의 모델이
검색의 효율성을 향상시킬 수 있는지 연구.
은닉변수모델 및 잠재의미 분석에 기반한 웹 문서의 분석 및 분류

LSA와 축회전에 기반한 문서 분류 (1/2)

Transcript LSA와 축회전에 기반한 문서 분류 (1/2)

Directory