Transcript Map

6장 텍스트와 멀티미디어 언어 및 특성
목 차
6.1 소개
6.2 메타데이터
6.3 텍스트
6.4 마크업 언어
6.5 멀티미디어
6.6 연구 동향 및 쟁점
최신정보검색론
Chapter 6
1
6.1 소 개
• 텍스트
- 지식 전달의 주된 형태
- 다양한 형식과 언어로 작성
• 문헌(document)
- 정보의 한 단위
-
주로 디지털 형태의 텍스트
다른 미디어도 포함
논리적 단위: 논문, 단락, 사전 항목, …
물리적 단위: 파일, 전자 메일, 웹 페이지, …
최신정보검색론
Chapter 6
2
6.1 소 개(계속)
• 문헌의 구성
-
작성자가 기술한 일정 형태의 구문, 구조
저자가 명시한 의미
스타일: 프린터나 화면에 출력될 문헌의 외양
메타데이터(metadata): 문헌 자신에 관한 정보
최신정보검색론
Chapter 6
3
6.1 소 개(계속)
• 문헌의 구문(syntax)
– 구조, 스타일, 의미, 외부 기능 등을 표현
– 많은 경우 암시적으로 주어짐
– 선언적 언어나 프로그래밍 언어로 표현하기도 함
• 문헌 편집기: 서술적 형태
• TeX: 식자용 언어
• SGML: 개방적 언어 -- 호환성과 융통성 제공
– 문헌의 의미는 용도와도 관련이 있음
• 포스트스크립트(postscript) 지시자: 출력 목적
최신정보검색론
Chapter 6
4
6.1 소 개(계속)
• 문헌의 스타일(style)
–
–
–
–
대부분의 문헌은 특정 포맷 스타일을 지님
정보와 스타일간의 독립성 추구
TeX, RTF(Rich Text Format): 스타일이 문헌에 내재
스타일은 매크로로 보완 가능
• 예) TeX에서 LaTeX
– 스타일은 보통 저자에 의해 정의됨
– 독자가 스타일의 일부 결정 가능
• 예) 웹 브라우저의 옵션
– 오디오, 비디오 같은 다른 미디어의 처리도 포함
최신정보검색론
Chapter 6
5
6.2 메타데이터
• 메타데이터
– 데이터의 구성 및 정의역과 이들간의 관계에 대한
정보
– 데이터에 대한 데이터
– 예) DBMS: 스키마, 관계의 명칭/필드/속성,
속성의 정의역
• 메타데이터의 유형[Marchionini]
– 서술적 메타데이터(Descriptive Metadata)
• 의미 외적인 메타데이터
• 문헌 작성 방법에 관한 정보
• 저자, 출판일, 출처, 길이, 장르 등을 포함
• 예) Dublin Core Metadata Element Set: 15개 필드
최신정보검색론
Chapter 6
6
6.2 메타데이터(계속)
• 메타데이터의 유형(계속)
– 의미적 메타데이터(Semantic Metadata)
• 문헌의 내용/주제에 대한 정보
• 예) 미국 국회 도서관 주제 코드
• 예) MEDLINE 시스템의 생체 임상 의학 논문
– 질병, 해부학, 약품 등에 관련된 주제 항목 부여
• 용어 체계(ontology)
– 주제 기술을 위한 용어의 계층 분류(taxonomy)
– 의미적 용어를 표준화화기 위해 사용
• 메타데이터 포맷
– MARC(Machine Readable Cataloging Record)
• 도서관 레코드 포맷, 제목/저자 등 서지 항목 필드 존재
– USMARC: MARC의 미국 버전
• 서지 정보 교환용 미국 국가 표준
최신정보검색론
Chapter 6
7
6.2 메타데이터(계속)
• 웹 메타데이터
– 용도
• 목록 작성(예: BibTeX), 내용 등급 부여, 지적 재산권,
디지털 서명, 프라이버시 수준, 전자상거래 응용 등
– RDF(Resource Description Framework)
• 웹 메타데이터 표준
• 노드와 부가적인 속성/값(attribute/value) 쌍으로
구성
• 노드
– URL(Uniform Resource Locator)
– URI(Uniform Resource Identifier)
– 비텍스트 객체의 메타 서술에도 유용
• 예) 이미지 서술용 키워드 집합
최신정보검색론
Chapter 6
8
6.3 텍스트
• 텍스트 코딩 체계
– 초기: 7비트 사용
• EBCDIC, ASCII
– ISO-Latin: 8비트 ASCII
• 악센트, 발음 구분 기호 포함
– Unicode(ISO 10616): 16비트 코드
• 한글, 한자 등 동양 언어 표현 가능
최신정보검색론
Chapter 6
9
6.3.1 포맷
• 텍스트 포맷의 유형
– ASCII 형태: 높은 호환성, 정보의 추출/수정이 용이
• 예) TeX
– 이진 형태: 필터 필요
• 예) Word, HWP 같은 워드프로세서로 작성된 문헌
• 주요 텍스트 포맷
–
–
–
–
RTF: 워드프로세서용, ASCII 구문
PDF(Portable Document Format) : 인쇄용
포스트스크립트: 인쇄용
MIME(Multipurpose Internet Mail Exchange)
• 전자 메일용
• 다중 문자 집합, 다중 언어, 다중 미디어 지원
최신정보검색론
Chapter 6
10
6.3.1 포맷(계속)
• 대표적인 압축 소프트웨어/포맷
–
–
–
–
Compress: Unix
ARJ: PC
ZIP: gzip, Winzip
uuencode/uudecode, binhex
• 이진 파일과 7비트 ASCII 텍스트 사이의 변환
최신정보검색론
Chapter 6
11
6.3.2 정보 이론(information theory)
• 엔트로피(entropy)
– 정보의 내용(content)/불확실성(uncertainty)을
포착하기 위한 개념
– 텍스트의 정보량을 정량화
– 정의

E   pi log 2 pi
i 1
• : 알파벳의 심볼 수, pi: 심볼의 출현 확률
• 심볼의 확률에 따라 다름
– 예) =2일 때, 확률이 같으면 1,
한 심볼만 나타나면 0
– 심볼의 확률을 구하기 위한 텍스트 모델 필요
– 텍스트 압축의 한계
최신정보검색론
Chapter 6
12
6.3.3 자연언어 모델링
• 자연언어 모델
– 이항(binomial) 모델
• 심볼의 출현 확률이 독립적인 것으로 간주
– 유한 문맥(finite-context) 모델, 마코프(Markov)
모델
• 현재 심볼의 출현 확률을 구할 때, 이전 k개의
심볼을 고려
 k차 모델 (이항 모델은 0차 모델로 간주됨)
– 유한 상태(finite-state) 모델: 정규 언어 정의
– 문법 모델: 문맥 자유(context free) 언어등을 정의
최신정보검색론
Chapter 6
13
6.3.3 자연언어 모델링(계속)
• Zipf의 법칙
– 문헌 내에서 단어의 분포에 대한 모델
– 빈도가 i번째인 단어의 빈도는 최고 빈도 단어의
1/i배
– n/(iHV()): 빈도가 i번째인 단어의 출현 횟수 F
• V: 어휘(서로 구분되는 단어) 수, n: 텍스트의 단어 수
• HV(): 전체 출현 빈도의 합이 n이 되도록 다음과 같이
정의되는 V의  차 조화수(harmonic number)
V
HV ( )  
j 1
1
j
• 간단한 공식에서는 =1을 사용: HV() = O(log n),
부정확함
• >0인 경우: HV() = O(1), 실제 데이터에 잘 맞음
– 보통 는 1.5 ~ 2.0을 사용
최신정보검색론
Chapter 6
14
6.3.3 자연언어 모델링(계속)
• Zipf의 법칙(계속)
– Mandelbrot 분포
H ( )  k / (c  i )
• c: 추가된 매개 변수
• k: 모든 빈도의 합이 n이 되도록 하는 값
• 데이터 실험 결과 더 좋은 모델로 제안됨
V
최신정보검색론
Chapter 6
15
6.3.3 자연언어 모델링(계속)
• 불용어(stopword)
– 의미를 전달하지 않는 단어  무시 가능
– 텍스트의 약 50%를 차지하는 고빈도 단어는 대부분
불용어
– 예) TREC-2 컬렉션에서 가장 빈도가 높은 단어
the, of, and, a, to, in
• 음의 이항 분포(negative binomial
distribution)
– 문헌 컬렉션에서 단어의 분포에 대한 모델
– 어떤 단어를 k번 포함하는 문헌의 수
  k  1 k
  k
F (k )  


k

 p (1  p)

• p, : 단어와 문헌 컬렉션에 종속적인 매개 변수
– 예) Brown Corpus에서 ‘said’의 경우
» p=9.24,  =0.42
최신정보검색론
Chapter 6
16
6.3.3 자연언어 모델링(계속)
• Heaps의 법칙
– 어휘의 크기 증가를 예측하는 매우 정확한 법칙
– 단어 수가 n인 텍스트의 어휘 수
V = Kn = O(n )
• k,  : 특정 텍스트에 종속적인 값
– 보통 k는 10 ~ 100, 는 0 ~ 1; 의 일반적인 값은
0.4 ~ 0.6
– 문헌 컬렉션에도 적용
• 단어의 평균 길이
– 전체 텍스트에서 평균적인 단어의 길이는 일정
• 짧은 단어가 충분히 반복하여 출현하기 때문
– 예) TREC-2 컬렉션의 경우
• 평균 단어 길이: 5문자
– 변동 범위는 4.8 ~ 5.3 , 불용어 제외시: 6 ~ 7 문자
• 어휘 집합 단어의 평균 길이: 8 ~ 9 문자
어휘 저장 공간 결정
최신정보검색론
Chapter 6
17
6.3.4 유사도 모델
• 유사도(similarity)
– 문자열이나 문헌 사이의 구문적 유사도
– 거리 함수(distance function)를 사용하여 측정
• 대칭적이어야 함: 인자의 순서에 무관
• 삼각 부등식 관계를 만족해야 함
– distance(a,c)  distance(a,b) + distance(b,c)
• 해밍 거리(Hamming distance)
– 길이가 같은 경우, 문자가 서로 다른 위치의 수
• 편집 거리(edit distance): Levenshtein 거리
– 동일한 문자열이 되도록 연산을 적용할 최소 문자 수
• 연산: 삽입(insertion), 삭제(deletion), 치환(substitution)
• 예) color ~ colour: 1, survey ~ surgery: 2
– 편집 거리 개념의 확장
• 가중치 부여, 전치(transposition) 연산 추가
최신정보검색론
Chapter 6
18
6.3.4 유사도 모델(계속)
• 최장 공통 부분열(LCS : Longest Common Subsequence)
– 공통이 아닌 문자를 삭제하고 남은 문자열
• 연속할 필요는 없지만 원래 문자열 순서는 유지
– 예) survey ~ surgery: surey
• 문헌의 유사도
– 행을 심볼로 간주하고 최장 공통 행을 구하는 방법
• 유닉스의 diff
• 많은 시간이 걸리고 유사한 행들이 고려되지 않음
• 유사한 행들을 고려하는 방법
– 행들 사이에 가중치를 부여한 편집 거리
– 모든 문자에 대해 LCS 계산
– 문헌의 특징을 추출하여 비교하는 방법
– Dotplot: 문헌의 유사도를 가시적으로 보여주는 도구
최신정보검색론
Chapter 6
19
6.4 마크업 언어
• 마크업(markup)
– 텍스트의 포맷 방식, 구조 정보, 의미, 속성 등을
기술하는 데 사용될 수 있는 부가적인 텍스트 구문
– 예) TeX의 포맷 명령어
– 마크(mark): 태그(tag)
• <시작 태그> 마크된 부분 <종료 태그>
– SGML: 마크업용 표준 메타언어
– XML: 웹용 메타언어
• SGML의 부분 집합
– HTML: 웹용 마크업 언어
• SGML의 실례(instance)
최신정보검색론
Chapter 6
20
6.4.1 SGML
• SGML(표준 일반 마크업 언어, Standard Generalized
Markup Language – ISO 8879)
– 텍스트 마크업용 메타언어
• Goldfab 주도 그룹이 개발
• 태그에 기초하여 마크업 언어를 정의하는 규칙 제공
– 문헌 형식 정의(document type definition)
• 문헌 구조를 기술
• 문헌의 구성 부분을 기술하고 명명
• 문헌의 구성 부분 사이의 관련성 정의
– SGML 문헌의 구성
• 문헌 구조 기술
• 태그로 마크된 텍스트 자체
최신정보검색론
Chapter 6
21
6.4.1 SGML(계속)
• DTD(문헌 형식 선언: Document Type Declaration)
– 문헌 형식 정의 부분을 명시
– 구성 요소나 속성의 의미, 응용 관례
• 형식적으로 표현 못하지만,
• 주석(comment)을 사용하여 비공식적으로 표현 가능
– 의미적 정보는 주석이나 별도의 문서로 주어짐
• 태그
–
–
–
–
시작 태그: <tagname>
종료 태그: </tagname>
동일한 태그가 응용에 따라 다른 의미를 지닐 수 있음
태그의 속성(attribute)
• 시작 태그 부분에 ‘attname=value’ 형식으로 주어짐
최신정보검색론
Chapter 6
22
6.4.1 SGML(계속)
최신정보검색론
Chapter 6
23
6.4.1 SGML(계속)
• SGML 포맷
– SGML은 포맷과 내용을 분리
• 포맷을 기술할 장치가 없음
• SGML 문헌에는 종종 출력 명세(포맷 방법)가 추가됨
– 출력 명세 표준
• DSSSL(Document Style Semantic Specification
Language)
• FOSI(Formatted Output Specification Instance)
• 문헌과 스타일 정보를 연관짓는 방식을 정의
• SGML의 이용 예: TEI(Text Encoding Initiative)
– 목적: 전자 텍스트 작성 및 교환에 대한 지침 제공
– SGML DTD를 통해 여러 문헌 포맷 제공
– TEI Lite가 많이 사용됨
최신정보검색론
Chapter 6
24
6.4.2 HTML
• HTML(Hyper Text Markup Language)
– SGML의 한 실례
• SGML의 관례를 준수
– 1992년에 개발, 1997년에 4.0 발표
– 대부분의 웹 문서는 HTML로 작성됨
– 하이퍼텍스트, 멀티미디어, 작고 단순한 문헌에 적합
– HTML DTD가 있으나 보통 명시적으로 참조하지는 않음
– 이미지, 오디오 같은 다른 미디어도 포함 가능
– 메타데이터 필드 제공: 특정 응용에 사용 가능
– 동적 HTML(DHTML, Dynamic HTML)
• 자바 스크립트 같은 프로그램이 포함된 경우
최신정보검색론
Chapter 6
25
6.4.2 HTML(계속)
최신정보검색론
Chapter 6
26
6.4.2 HTML(계속)
• 단계식 스타일 시트(CSS: Cascade Style
Sheets)
– HTML은 문헌의 표현 스타일을 고정시키지 않음
– 저자, 예술가, 식자공이 HTML 페이지에 대해 미적 감각을
향상시키는 가시적 효과를 생성할 수 있는 강력하고도
조작하기 쉬운 방법을 제공
– 서로 다른 구성 요소의 표현 스타일을 정의하기 위해
차례로(단계적으로) 사용 가능
– 문헌의 표현 정보와 내용을 분리
• 웹 사이트 유지 단순화
• 웹의 접근성 증가
– 문제점: 스타일 시트간의 일관성 부재, 불완전성
최신정보검색론
Chapter 6
27
6.4.2 HTML(계속)
• HTML 4.0의 기능 및 용도
– 스타일 시트, 국제화, 프레임, 풍부한 테이블과 폼(form),
장애인을 위한 접근 연산 등을 지원
– 순수(strict) HTML
• 모든 표시 정보를 CSS에 맡기고 단지 표시 방법과는
무관한 마크업에만 관심을 둠
– 과도기적(transitional) HTML
• CSS를 이해하지 못하는 과거의 브라우저가 페이지를
판독할 경우를 위해 모든 표시 자질을 사용
– 프레임셋(frameset) HTML
• 브라우저의 윈도우를 프레임으로 분할할 때 사용
최신정보검색론
Chapter 6
28
6.4.2 HTML(계속)
• HTML의 제약
– 데이터를 매개 변수화하거나(parameterize) 의미 자질을
부여하기 위해 사용자가 자신의 태그나 속성을 명시하는
것을 허용 못함
– 데이터베이스 스키마나 객체지향 계층 구조를 표현하기
위한 중첩 구조의 명시를 지원 못함
– 데이터를 소비하는 응용 프로그램이 데이터를 삽입할 때,
그 구조적 유효성 검사를 허용하는 유형의 언어 명세를
지원 못함
• SGML, HTML, XML
– SGML은 HTML에서 결여된 확장성, 구조화, 유효성 처리 가능
– SGML은 웹 응용에서 불필요한 선택 자질 포함
• 비용/이득 비율이 나쁨
• 보다 단순한 메타 언어인 XML 개발
최신정보검색론
Chapter 6
29
6.4.3 XML
• XML(eXtensible Markup Language)
– SGML을 단순화한 부분 집합: 일종의 메타 언어
– HTML의 제약을 많이 제거
• 의미 마크업 허용
• 새로운 태그 정의 가능
• 복잡한 구조 정의 허용 – 예) 제한이 없는 중첩 구조
• 데이터의 유효성 검사 기능
• 자바 스크립트나 프로그램 인터페이스를 통한 작업 대체
가능
– 보다 엄격한 마크업 구문 요구
• 종결 태그 생략 불가
• 대소문자 구분
• 모든 속성 값은 인용 부호로 싸야 함
최신정보검색론
Chapter 6
30
6.4.3 XML(계속)
최신정보검색론
Chapter 6
31
6.4.3 XML(계속)
• XML의 DTD
– DTD의 사용이 선택적
– DTD가 없으면, 분석 중에 태그 수집
– 태그 이름에 중의성이 있으면, 이름 공간(namespace)을 사용하여 해결
가능
• 확장 스타일 시트 언어(XSL: Extensible Style sheet
Language)
– CSS에 대응
– 고도로 구조적임
– XML 문서 변환 및 스타일 부여 기능
• 예) 표 내용의 자동 추출
• 확장 링크 언어(XLL:
Extensible Linking Language)
– 외부/내부 링크등 여러 유형의 링크 정의
최신정보검색론
Chapter 6
32
6.4.3 XML(계속)
• XML의 활용
– 수학 마크업 언어(MathML: Mathematical Markup Language)
• 수식 표현과 수학적 표현의 의미를 나타내기 위한 두 가지
태그 집합
– 동기화 멀티미디어 통합 언어(SMIL: Synchronized Multimedia
Integration Language)
• 웹에서 다양한 유형의 객체에 대해 위치와 활성 시간을
명시할 수 있는 멀티미디어 표현의 스케줄을 나타낼 수 있는
선언적 언어
– 자원 기술 형식(Resource Description Format)
• RDF를 사용하여 기술해야 하는 XML용 메타데이터 정보
최신정보검색론
Chapter 6
33
6.5 멀티미디어
• 멀티미디어
– 여러 유형의 매체에서 기원한 다양한 디지털 데이터
취급
– 매체 유형: 텍스트, 오디오, 이미지, 비디오
• 용량, 포맷, 처리 제약 등에서 차이가 있음
• 예) 오디오, 비디오는 실시간 제약 조건 요구
• 매체 유형에 따라 서로 다른 이진 포맷 필요
최신정보검색론
Chapter 6
34
6.5.1 포맷
• 이미지 포맷
– XBM, BMP, PCX: 단순한 비트맵 포맷
• 많은 기억 공간 요구
– GIF(Graphic Interchange Format): Compuserve
• 압축 저장 형식
– JPEG(Joint Photographic Experts Group) 포맷
• 손실 압축
– TIFF(Tagged Image File Format)
• 문서 교환용
– TGA(Truevision Targa image file)
• 비디오 게임 보드와 관련
– PNG(Portable Network Graphics)
• 1996년에 인터넷용의 비트맵 이미지 포맷으로 제안
최신정보검색론
Chapter 6
35
6.5.1 포맷(계속)
• 오디오 포맷
– AU, WAVE
– MIDI: 전자 악기와 컴퓨터 사이의 음악 교환용 표준
– Real Audio, CD 포맷: 오디오 도서관용으로 활용
• 애니메이션/동영상 포맷
– MPEG(Moving Pictures Expert Group) 포맷
• 기본 이미지를 기준으로 변화를 코딩
• 압축 지원, 관련 오디오 포함
– AVI, FLI
– QuickTime: Apple
• 압축 지원, 관련 오디오 포함
최신정보검색론
Chapter 6
36
6.5.2 텍스트 이미지
• 텍스트 이미지(textual image)
– 텍스트를 포함하는 문헌의 이미지
– 보통 스캔하여 만듬
– 많은 부분이 텍스트이므로 검색 및 효율적인 압축이 가능
• 텍스트 심볼을 추출하여 검색 및 압축 향상 가능
• 텍스트 이미지 검색
– 이미지를 서술하는 키워드 집합 사용
– OCR을 사용하여 텍스트 인식
• 오인식 문제로 인해 근사 탐색이 적합, 하지만 이 경우
속도 저하
– 추출된 심볼을 통해 이미지 검색이나 순차 검색 기법 적용
최신정보검색론
Chapter 6
37
6.5.3 그래픽과 가상 현실
• 컴퓨터 그래픽 메타파일 (CGM: Computer Graphic Metafile)
–
–
–
–
그래픽 객체와 관련 속성을 개방적으로 교환하기 위해 제정
장치 독립적인 방법으로 그래픽 데이터 저장
벡터 그래픽, 래스터(raster) 그래픽, 텍스트 표현 가능
메타파일: 그래픽 성분의 집합
• 가상 현실 모델 언어(VRML: Virtual Reality Modeling
Language)
–
–
–
–
3D 객체 세계 기술을 위한 파일 포맷
Silicon Graphics OpenInventor 파일 포맷의 한 부분
3D 그래픽과 멀티미디어가 통합된 경우까지 고려
응용 영역
• 공학, 과학의 시각화, 멀티미디어 프리젠테이션, 오락
• 교육용 타이틀, 웹 페이지, 공유 가상 세계
– 사실상 웹의 표준 모델링 언어
최신정보검색론
Chapter 6
38
6.5.4 HyTime
• HyTime(Hypermedia/Time-based Structuring Language)
– 멀티미디어 문헌 마크업을 위해 정의된 표준(ISO/IEC 10744)
– SGML 구조
• 코딩된 문헌의 표현에 독립적인 구조
– HyTime 구성체를 사용하는 개별 문헌 모델에 대해 DTD 작성 허용
– 몇몇 메타 DTD를 제공
• 새로운 멀티미디어 마크업 언어의 설계가 용이
– 그래픽 인터페이스, 사용자의 항해(navigation) 상호작용,
시간대와 화면상의 미디어 배치를 직접 명시하지는 않음
– 하이퍼미디어 개념
• 문헌 객체의 복잡한 위치 표현
• 문헌 객체 사이의 관계(하이퍼링크)
• 문헌 객체 사이의 수치적 조정 관계
최신정보검색론
Chapter 6
39
6.5.4 HyTime(계속)
• HyTime 구조
– 링크 및 주소 설정 기본 구조
• 하이퍼링크의 구문과 의미를 담당
– 스케줄 구조
• 기본 구조에서 유도
• 임의의 복잡한 하이퍼미디어 구조에 대한 추상적 프리젠테이션
정의
– 음악과 대화식 프리젠테이션을 포함
– 표현 변환(rendition) 구조
• 스케줄 구조의 응용
• 표현 변환 규칙을 적용하여 새로운 스케줄의 생성을 정의
최신정보검색론
Chapter 6
40
6.5.4 HyTime(계속)
• HyTime의 응용
– 표준 음악 기술 언어(SMDL: Standard Music Description Language)
• 음악 정보를 단독으로 혹은 다른 매체와 함께 표현하는 구조
• 멀티미디어의 시간적 순차화 정보 지원
– 대화 문헌용 메타파일(MID: Metafile for Interactive Documents)
• SGML과 HyTime에 기반을 둔 공통 교환 구조
• 다양한 저작 시스템으로부터 데이터를 취함
• 사람의 개입이 최소인 형태로 상이한 프리젠테이션 시스템에서
보여주기 위해 구조화함
최신정보검색론
Chapter 6
41
6.6 연구 동향 및 쟁점
• 웹 언어의 분류
최신정보검색론
Chapter 6
42
6.6 연구 동향 및 쟁점(계속)
• 주요 동향
– 주로 웹을 중심으로 적용
– 다른 작업 결과들의 통합과 집중
• 개방 문헌 구조(ODA: Open Document Architecture)
–
–
–
–
SGML의 유럽 대안 표준 (ISO 8613)
전자적으로 문헌을 공유하기 위해 설계
논리적 구조, 배치, 내용(벡터와 래스터 그래픽 포함)을 정의
ODA 파일의 형태
• 포맷된(formatted) 형태: 편집 불가
– 내용이나 배치에 관한 정보를 지닐 수 없음
• 처리 가능(processable) 형태: 편집 가능
– 논리적 정보를 지닐 수 있음
• 포맷된 처리 가능(formatted processable) 형태: 편집 가능
– 모든 정보를 지닐 수 있음
– 요즘은 ODA를 많이 사용하지 않음
최신정보검색론
Chapter 6
43
6.6 연구 동향 및 쟁점(계속)
• 최근 개발 동향
– 문헌 객체 모델(DOM: Document Object Model)에 대한 정의
• DOM은 자바 같은 프로그래밍 언어로부터 HTML과 XML 객체를
조작하기 위해 상호 운영 가능한 클래스와 메소드의 집합을
제공
– VRML과 DHTML의 통합
• HTML과 웹 브라우저에 대해 단계식 스타일 시트와 문헌 객체
모델을 포함하는 개선된 자질과 구조 확장을 제공
– STEP(Standard Exchange for Product Data format)과 SGML의 통합
• STEP은 상품 데이터 포맷을 다룸
– MARC
• MARC를 XML로 변환
• DTD 정의를 통해 MARC를 SGML로 변환
– CGM: XML로 분석 가능한 새로운 코딩 방법 개발
• 웹 연구자와 상업적 판매자에게 주목을 받고 있음
최신정보검색론
Chapter 6
44
6.6 연구 동향 및 쟁점(계속)
• 최근 개발 동향(계속)
– 기타 새로운 제안
• DML(Signed Document Markup Language)
• VML(Vector Markup Language)
• PGML(Precision Graphics Markup Language)
– 포스트스크립트와 PDF의 2D 이미지 모델에 기반
최신정보검색론
Chapter 6
45