AI 양식 하얀색 바탕

Download Report

Transcript AI 양식 하얀색 바탕

Foundations of Statistical NLP
Chapter 4. Corpus-Based Work
홍정아
개
요
 Getting Set Up
– Computers, Corpora, Software
 Looking at Text
–
–
–
–
Low-level formatting issues
Tokenization : What is a word?
Morphology
Sentences
 Mark-up Data
– Markup schemes
– Grammatical tagging
2
Getting Set up(1/2)
 Text corpora are usually big.
– Corpora사용의 중요한 한계점으로 작용
– 대용량 Computer의 발전으로 극복
 Corpora
– Corpus는 main organization에서 제공하는 웹에 공개
된 것을 사용하면 된다.
– corpus : 언어자료들을 모아놓은 사전
– general issue is representative sample of the population
of interest.
3
Getting Set up(2/2)
 Software
–
–
–
–
Text editors : 글자 그대로를 보여준다.
Regular expressions : 정확한 pattern을 찾게 한다.
Programming languages : C, C++, Perl
Programming techniques
4
Looking at Text
 Text come a row format or marked up.
 Markup
– a term is used for putting code of some sort into
a computer file.
– commercial word processing : WYSIWYG
 Features of text in human languages
– 자연언어처리의 어려운 점
5
Low-level formatting issues
 Junk formatting/content
– junk : document header, separator, table, diagram, etc.
– OCR : If your program is meant to deal with only connected
Englisg text ▷ junk : 다른 나라 언어, table, 숫자
 Uppercase and lowercase
– The original Brown corpus : * was used to capital letter
– Should we treat brown in Richard Brown and brown paint as
the same?
– proper name detection : difficult problem
6
Tokenization : What is a word?(1)
 Tokenization
– To divide the input text into unit called token
– what is a word?
• graphic word (Kucera and Francis. 1967)
“a string of contiguous alphanumeric characters with
space on either side;may include hyphens and apostrophes, but no other punctuation marks”
-> 정의되는 경우 : $22.50, Micro$oft, C|net, :-)
7
Tokenization : What is a word?(2)
 Period
– 문자의 끝을 나타내는 의미가 있다.
– 약어를 나타낸다. : as in etc. or Wash.
 Single apostrophes
– 영어의 축약 : I’ll or isn’t
– dog’s : dog is or dog has or 소유격
 Hyphenation
– 일반적으로 인쇄상 다음 줄로 넘어가는 한 단어를 표시.
– e-mail, 26-year-old, co-operate
8
Tokenization : What is a word?(3)
 The same form representing multiple “words”
– 동형이의어 : seal「 바다표범」과 seal「인장」등
(chap 7)
 Word segmentation in other languages
– Word와 Word 사이에 space를 넣지 않는 경우가 많다
 White space not indicating a word break
– the New York - New Haven railroad : 한 단어 안에 space
가 들어간다.
 명확한 의미의 정보가 다양한 형태로 존재한다
– 다양한 punctuation이 사용된 전화번호
9
Phone number
Country
Phone number
Country
0171 378 0647
UK
+45 43 60 60
Denmark
(44.171) 830 1007
UK
95-51-279648
Pakistan
+44 (0) 1225 753678
UK
+411/284 3797
Switzerland
01256 468551
UK
(94-1) 866854
Sri Lanka
(202) 522-2330
USA
+49 69 136-2 98 05
Germany
1-925-225-3000
USA
33 1 34 43 32 26
France
212.995.5402
USA
++31-20-5200161
The Nerherlands
Table 4.2 Different formats for telephone numbers appearing in an issue of
the Economist
10
Morphology
 Stemming processing
– 접두사, 접미사 등을 제거하여 어간을 얻어낸다
 lemmatization
– 변형된 form에서 lemma(표제어)와 lexeme(어휘소)등을
찾아내는 방법
 IR community has shown that doing stemming does
not help the performance
 Morphological analysis를 구현하기 위한 추가비용
에 비해 효능이 안 좋다
11
Sentences
 What is a sentence?
– something ending with a ‘.’, ‘?’ or ‘!.’
– colon, semicolon, dash 도 문장으로 여겨질 수 있다.
 recent research sentence boundary detection
– Riley(1989) : statistical classification tree
– Palmer and Hearst (1994; 1997) : a neural network to
predict sentence boundaries
– Mikheev(1998) : Maximum Entropy approaches to the
problem
12
Mark-up Schemes
 초기의 markup schemes
– 단순히 내용정보만을 위해 header에 삽입
(giving author, date, title, etc.)
 SGML
– 문서의 구조와 문법을 표준화하는 grammer language
 XML
– SGML을 web에 응용하기 위해 만든 SGML의 축소
판
13
Grammatical tagging
 first step of analysis
– 일반적인 문법적 category로 구별하는 것
– 최상급, 비교급, 명사의 단수, 복수 등의 구별
 Tag sets (Table 4.5)
– morphological distinction 을 통합한다.
 The design of a tag set
– 분류의 관점
• Word의 문법정보가 얼마나 유용한 요소인가 하는 관점
– 예상의 관점
• 문맥에서 다른 word에 어떠한 영향을 미치는지 예상하는 관점
14
15