Europeana와 BBC 2014.5.12. 박진호(성균관대학교 DataLab, jino

Download Report

Transcript Europeana와 BBC 2014.5.12. 박진호(성균관대학교 DataLab, jino

2014 LOD를 말하다.
우리도 배워야 한다. - Europeana와 BBC
2014.5.12. 박진호(성균관대학교 DataLab, [email protected])
대표 브랜드
…
유럽 디지털문화유산 검색 서비스
데이터 API
2014.6.27. MARU 180 - THINK룸.
1 | 31
Europeana의 모든 프로젝트와 관련 정보 검색
http://pro.europeana.eu
2014.6.27. MARU 180 - THINK룸.
2 | 31
•
•
유로피아나는 유럽 전역에 유럽의 문화유산에 대한 자유롭고 신뢰할 수 있는 접근 제공
유로피아나 문화 유산 컨텐츠에 대한 광범위한 접근은 물론 창의, 혁신 촉진 지원
–
–
유로피아나 API : 서비스 개발자, 외부의 웹사이트, 응용프로그램이 유로피아나 컬렉션 검색
링크드 오픈 데이터 : 컨텐츠를 재사용하기 위한 방법. 웹에서 유로피아나에서 수집한 메타데이
터에 접근하고 더 풍부하게 할 수 있도록 함
2014.6.27. MARU 180 - THINK룸.
3 | 31
1. Europeana - History
• 2005: 유럽연합집행위원회(European Commission)의 유럽 디지털도서관 프로
젝트 제안(i2010의 중요 전략 중 하나인 디지털도서관)
• 2007: i2010 자금지원으로 EDLnet(European Digital Library Network 프로토타입
시작
• 2008: 유로피아나 프로토타입 서비스 시작(11월 20일)
• 2009: 5백만 건 수집 달성
• 2010
– 유로피아나 자금, 컨텐츠 추가 승인 요청 통과(2월).
– 유로피아나 컬렉션 1,000만건 달성
– 유럽연합집행위원회의 경쟁력 혁신 프레임워크 프로그램 (CIP CIP ICT-PSP)의
자
• 2012 : CC0 기준에 준해서 자유롭게 재사용이 가능하도록 유로피아나의 모
든 메타데이터 공개. 유로피아나 켈렉션 2,500백만 달성
• 2013 : 유럽2020 의 중요한 전략 중 하나로 유럽의 Digital Agenda를 지원하는
중요한 프로젝트로 계속 진행
2014.6.27. MARU 180 - THINK룸.
4 | 31
2. Europeana - APIs
• 유로피아나 APIs를 통해서 유로피아나의 데이터베이스를 새로운 응용서비
스 개발 등에 직접 활용 가능
– REST-API: 유로피아나 웹사이트에서 이용자들이 볼 수 있는 데이터와 동일한 데
이터의 검색과 탐색활동이 가능하도록 함
– LOD: SPARQL을 통해서 보다 진보적인 시맨틱 검색, 탐색활동 지원이 가능한 완
전한 데이터셋 다운로드 지원(현재 전체 약 3,100백만 레코드 중 2,000만 데이터
셋을 제공)
2014.6.27. MARU 180 - THINK룸.
5 | 31
3. Europeana - LOD
• LOD 구조화된 데이터를 발행하는 방법으로 메타데이터가 서로 연결되고
풍부해지도록 함으로써 동일한 컨텐츠에 서로 다른 표현들이 발견될 수 있
도록하고 연관된 자원간의 연결을 만들어냄
• 유로피아나 포털 안에 존재하는 모든 객체에 대한 메타데이터는 개방되어
있고, CC0 Public Domain Dedication과 유럽의 Data Exchange Agreement(DEA) 규
정에 따라 자유롭게 API를 통해서 다운로드가 가능함
http://creativecommons.org/publicdomain/zero/1.0/
http://pro.europeana.eu/support-for-open-data
• 데이터는 EDM(Europeana Data Model)에 따라 모델링
2014.6.27. MARU 180 - THINK룸.
6 | 31
EMD
• EDM은 초기에 Europeana Semantic Elements(ESE) 모델에서 출발
– 표현하고자 하는 대상객체를 나타내는 메타데이터의 공통 요소 발굴
– 상호운용성 강화
– 원본 데이터의 손실을 최소화
– 객체와 메타데이터 레코드 분리
– 동일 객체에 대한 다양한 레코드 정보 연결 허용
– 다른 객체를 하나의 요소로 포함해서 표현되는 객체(예, 그림책)의 표현 지원
– 통제어휘에 기반해서 개념간의 관계를 반영할 수 있는 구조
• 메타데이터 상호운용성 확보
– 서로 다른 데이터 모델간의 조화
– 특정 도메인별 요구사항들의 조화
– 데이터 손실을 줄이고 원본 데이터와 함께 운용할 수 있는 방식 고려
2014.6.27. MARU 180 - THINK룸.
7 | 31
3. Europeana Apps
•
•
실제 유로피아나의 OpenAPI와 Linked Data를 활용한 응용시스템 개발 사례
현재 약 100개의 사례 존재
2014.6.27. MARU 180 - THINK룸.
8 | 31
2014.6.27. MARU 180 - THINK룸.
9 | 50
4. Europeana Creative Challenge
•
•
2013년 2월부터 30개월간 진행
유로피아나가 구축한 콘텐츠를 산업계에서 창의적으로 활용할 수 있도록 지원
2014.6.27. MARU 180 - THINK룸.
10 | 31
5. Europeana - Cloud
• 유로피아나의 메타데이터를 보다 풍부하게 하고 이용자들에게 메타데이터
는 물론 관련된 콘텐츠 제공
• 현재의 메타데이터 수집 방식
– 일방적 커뮤니케이션 구조로
풍부한 메타데이터 확장과
다양한 관점의 반영이 어려움
2014.6.27. MARU 180 - THINK룸.
11 | 31
5. Europeana - Cloud
• 유로피아나 회원기관들이 공통의 시스템을 통해서 메타데이터를 업로드하
고 메타데이터를 관리(메타데이터 요소명 정의, 편집, 삭제, 주석 달기 등)
수행
• 3 Party들이 메타데이터를 관리(다운로드, 편집, 삭제, 주석 달기 등) 허용
• 연구자 집단의 참여 허용
2014.6.27. MARU 180 - THINK룸.
12 | 31
6. Europeana Business Plan
유로피아나 참여 기관은 하나의 생태계로써 유기적으로
움직여야 함
데이터 모델링, 관련 지적재산권 등 모두가 유로피아나의
켄텐츠를 이익창출이 가능한 구조 구축
네트워크의 효과를 통해 일반이용자(최종이용자)도 새로
운 서비스 개발이 가능한 도구와 인프라 제공
개방과 공유에 더욱 집중
지식정보에 접근하기 위한 가자 기본은 메타데이터로 이
런 데이터들이 제대로 충분히 개방되고 있는지 점검
향후에는 개방된 데이터들이 어떻게 활용되고 있는지를
증명할 것임
2014.6.27. MARU 180 - THINK룸.
13 | 31
1. BBC의 문제
• 온라인으로 텍스트, 비디오, 오디오 등 많은 컨텐츠를 게시함
• 대부분의 데이터가 방송별 브랜드와 특정 지식분야를 위한 것임
– 특정 지식분야: 음식, 음악, 뉴스 등
• 특정 지식분야 상호간의 인터링킹은 존재하지 않았으며, 데이터를 충분히
활용하고 있지 못함
2014.6.27. MARU 180 - THINK룸.
15 | 31
2. 해결방향
• DBPedia는 통제어휘집으로써의 역할과 서비스를 제공
• 새로운 시스템으로 구 시스템을 부드럽고 유연하게 전환
– BBC의 라디오, TV채널, 프로그램 브랜드를 지원할 수 있는 서비스 개발
(bbc.co.uk/programmes)
– 기존에 개방형 웹 표준(LOD)을 준수하는 서비스와 통합된 새로운 음악 서비스
제공(bbc.co.uk/music)
– 아주 간단한 탐색 요소(네비게이션 요소)로 상황적, 의미적 탐색 지원
– 모든 BBC 온라인 컨텐츠를 분류하고 여러 어휘집 사이에 동등성을 확보하기 위
해 웹 식별자 활용
2014.6.27. MARU 180 - THINK룸.
16 | 31
2. 해결방향
• BBC 도메인 간에 연결 지행: 프로그램, 사람, 장소, 주제 간의 관계설정
• CIS(자동 분류 시스템)로 데이터는 자동으로 분류됨
– CIS는 5개의 주요 상위 Class로 구성(Proper names, Subjects, Brands, Time periods, Places)
• 객체는 다양한 도메인에서(프로그램, 음악 등) 사용될 수 있고 동일명칭의
경우 매핑을 통해서 구분하고 식별함
• CIS의 개념을 Dbpedia와 연결
2014.6.27. MARU 180 - THINK룸.
17 | 31
2. 해결방향
공유(공통) 모델링
+
공유(공통) 언어(표현방식)
+
공유(공통)의 이해
=
지속적인 이용자 경험
2014.6.27. MARU 180 - THINK룸.
주제별, 도메인별 공유(공통)된 기본 요소(장소, 사람 등)
에 의한 온톨로지 모델링과 누구나 이해가능한 구조의 모
델링(properties 구성)
RDF/OWL 등 표준 준수
DBPedia 등 동일 개념에 대한 연결
결국에는 이용자에게 혜택 제공
18 | 31
3. DSP(Dynamic Semantic Publishing) Framework
• BBC 링크드 데이터의 핵심
– BBC 스포츠 사이트, BBC 2012 올림픽 콘텐츠 작성에 직접 활용
• DSP는 향상된 이용자 경험과 참여 수준을 높이기 위해 자동적으로 통합, 출
판, 게시, 컨텐츠 객체의 목적변경 등을 온톨로지 모델에 기반한 정보 설계
로 해결하고 있으면 핵심으로 링크드 데이터 기술을 활용하고 있음
• DSP는 HTML과 RDF로 데이터를 출판하고 또한 내부적으로 관리함
• DSP의 RDF 활용은 RDF가 의미 탐색, 콘텐츠 재사용, 검색엔진 순위 등에 있
어서 자동화된 처리가 가능하여 효율적이며, 다차원적인 접근점과 풍부한
정보 탐색을 가능하게 함에 기인
• DSP는 관련자(기사작성자 등)들의 최소한의 관리만을 요구하며, 대부분의
출판 자료는 자동으로 메타데이터와 콘텐츠 상태를 수집하고 관련된 이야
기나 BBC 정보자산과 링크를 관계를 설정함
2014.6.27. MARU 180 - THINK룸.
19 | 31
2010년 월드컵에 적용된 BBC내 정보자산, 태그, 도메인 온톨로지 관계도
2014.6.27. MARU 180 - THINK룸.
20 | 31
4. BBC Linked Data Platform
• DSP가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여
한 것과 같이 BBC의 모든 컨텐츠에 태깅을 허용한다는 생각에 기초
– BBC가 관심을 갖는 모든 유형의 주제(스포츠, 정치, 자연, 음악 등)에 대해서 링
크드 데이터 질의와 저장이 가능한 과정과 도구 제공
– 현재 BBC 링크드 데이터의 대표적인 사례로 거론되는 BBC Programmes과 Music을
포함해서 BBC는 매일 엄청난 양의 기사를 생산, 저장
– 기존의 BBC 콘텐츠 관리 시스템은 개방되고 연결된 구조의 웹에서 재활용되고
서비스되는데 부적합
– 링크드 데이터 플랫폼은 의미태깅에 따라 출판되는 각각의 저작물에 일반적인
메타데이터 모델을 적용하여 저장하는데 이 모델은 모든 유형의 컨텐츠에 적용
가능한 유용한 속성들을 포함하고 있어 서로 다른 시스템과의 컨텐츠 조합을 쉽
게함
2014.6.27. MARU 180 - THINK룸.
21 | 31
4. BBC Linked Data Platform
• DSP가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여
한 것과 같이 BBC의 모든 콘텐츠에 태깅을 허용한다는 생각에 기초
– 링크드 데이터 플랫폼의 주 목적은 모든 BBC 저작물이 데이터 뒤에 숨겨져 있는
의미를 이해할 수 있도록 하고 “things”에 대한 검색이 가능하도록 하는 API를 제
공하는 것임
– 이는 해당 객체(things)가 갖는 미래의 모습을 예측하는 것이 아니고 현재 존재하
는 이 객체와 관련된 사실들과의 연결을 가능하게 하는 것임
– 현재 BBC는 음악, 스포츠(축구와 올림픽), 정치, 학습 분야를 플랫폼에서 출판하
고 있으며 향후 다양하게 발전할 것임
2014.6.27. MARU 180 - THINK룸.
22 | 31
5. BBC News Juicer
• 모든 BBC의 뉴스와 스포츠 기사에 대해서 개념(사람, 장소, 시간, 사건 등)을
추출하고 외부 데이터셋(DBpedia, GeoNames 등)과 동일 개념으로 matching
• 시맨틱 프로토타이핑 플랫폼으로 개념 추출(Concept extraction) - DBPedia로
의미적 개념 매칭(Semantic concept matching to DBPedia) - 의미적 주석(Semantic
Annotation) - RDF 저장 등의 과정을 지원
2014.6.27. MARU 180 - THINK룸.
23 | 31
6. 실제 웹사이트를 구축하는 방식
개념적 모델링: 도메인별 전문가와 실제 이용자 참여. 중요 요소 리스트화 및 관계설정
구축될 웹 페이지가 아니라 모델링 대상에만 집중
데이터모델링
URI 디자인: 사람중심의 가독성, hackable, 지속적인 접근성, 각각의 객체를 구분할 수
있는 하나의 식별자, 향후 변화가 가능한 명칭-구조는 제외
웹 페이지 디자인: 모든 객체를 표현할 수 있는 각각의 페이지 구성
레이아웃 적용
테스트: 시스템적 기능, 성능 외에 개념적 모델링이 반영되었는가 등 확인
2014.6.27. MARU 180 - THINK룸.
24 | 31
• 유럽연합의 프로젝트: 2012년 11월 ~ 2014년 11월
• FP7의 지원 프로젝트: 교육관련 기관이 웹에서 활용 가능한 공공, 개방형 데이터
의 채택과 개발을 지원
• Linked Education Cloud는 교육적 애플리케이션과 관련된 웹 데이터셋의 저장소
이자 목록
• Web of Data 즉, Linked Data 원칙(표준)에 맞추어 데이터를 제공하고 Linked Up
Community로부터 입력된 데이터에 기초하여 구축
• 3competitions: Veni, Vidi, Vici(왔노라, 보았노라, 이겼노라)
• 교육을 목적으로 하는 개방형 웹 데이터의 통합과 분석을 위한 툴 디자인 및 개
발
• Veni Competition: 2013년 6월 - 2013년 9월
• Vidi Competition: 2013년 11월 – 2014년 5월
• Vici Competition: 2014년 6월 – 2014년 10월
• Open Education은 가장 일반적이고 광범위하게 활용되고 있는 Open Educational
Resources(OER: 자유롭게 접근이 가능하고 교수, 학습, 연구 등 교육관련 활동에 있어서
개방형 라이센스로 자유롭게 활용 가능한 자원)의 개념으로 생각하지만,
• Open Education은 교육적 데이터와 관련된 것들을 개방하는 측면을 포함하는 보다 OER
보다 광범위한 개념
• Open Education 작업반은 Open Education에 관심이 있는 사람이나 조직 모두를 위해 설립
• Europeana
 유럽 문화유산에 대한 통합적 접근점 제공 노력
 디지털 documents 서비스에서 자연스럽게 data 중심 서비스 강화로 변화
(이용자와 제공 컨텐츠의 활성화 측면에서 고려)
 단순 데이터 서비스 강화가 아니라 명확한 비전-목표-실행계획-단위과제 아래에
필요한 연구, 기술인프라, 개발, 장기적 이용자 참여 수행
• BBC
 LOD로 공개된 데이터의 적극적 채용과 활용
 LOD는 BBC의 문제점 해결하고 보다 나은 서비스 제공을 위한 방법으로 선택
(받아들여야하는 기술 트렌드로 선택한 방법이 아님)
• LinkedUp
 LOD 데이터는 더 많아져야 하지만 내가 필요한 (특정 도메인) 데이터를 찾기는 여
전히 어려움
 특정 도메인이나 목적(Open Education)/용도/필요성이 명확한 또 다른 노력이 LOD
에 필요함
2014.6.27. MARU 180 - THINK룸.
30 | 31
[참고자료]
• Atherton, M. (2011), Beyond the Polar Bear [PowerPoint slides]. Retrieved from
http://www.slideshare.net/reduxd/beyond-the-polar-bear
• http://linkedup-challenge.org/
• http://www.bbc.co.uk/blogs/internet
• http://www.europeana.eu
• http://linkedup-project.eu/
2014.6.27. MARU 180 - THINK룸.
31 | 31