1 - 닥치고 Linked Data

download report

Transcript 1 - 닥치고 Linked Data

Linked Open Data Annual Conference
NDSL과 Linked Open Data
1
사업개요
2
DB 객체화
3
콘텐츠 구축
4
맺음말
정보서비스센터 NDSL서비스실 김완종
1.1 사업 개요 및 추진 배경
서비스 요
구
고부가 콘텐츠화
(객체형 DB 설계)
데이터의 개방 및 공유
(샘플 LOD 구축)
• Legacy DB 구조의 제약
• NDSL 데이터 공유 필요
• 고품질 데이터 객체화, 마
• Linked Open Data 자동
이크로화 필요
• 마이크로 DB 스키마 구축
차세대
분석형 정보 서비스
• 객체형 DB를 근간으로 한
차세대 분석형 정보서비
스 모델 필요
변환기술 개발
• 분석형 정보서비스 시범
• 콘텐츠별 공개ㆍ공유가능
사이트 개발
범위 설정 및 지침 마련
2
최적의 검색 서비스
• 객체형 DB 검색 최적화
필요
• 검색 최적화 알고리즘 연
구 수행을 통한 검색 서비
스 시범 개발
1.2 개발 사업의 목표
지능화
공유화
3
2.1 시스템 개념도
연구환경 선진화를 위한 스마트 정보유통체제 구현
객체화 ,개방화
개방형 서비스
(Linked Open Data)
분석형 서비스
4
고성능
검색 서비스
3
5
동시발생, 유사도, Linked Open Data
객체화 DB
개방형 고부가
콘텐츠
개방형 콘텐츠 (RDF Triple)
1
2
NDSL DB & 이용 통계
객체화,
마이크로화
국내
국외
객체화 DB 스키마
4
Linked Open
Data
개방형 데이터화
개방형 고부가 콘텐츠 생성
알고리즘
(트리플 변환 규칙)
2.2 DB 객체화
DB 객체화 프로세스
개별 분석
• SCOPUS, XML FullText,
OAK Central, NDSL 분석
• 엔티티 및 관계 생성 방향
성 설정에 활용
통합 분석
객체DB 스키마 설계
• SCOPUS, XML FullText,
• 객체DB 테이블 설계 및
OAK Central, NDSL을 대
컬럼 속성 정의
마이그레이션 수행
• 데이터 대상 선정
• 식별체계 정의
상으로 개별 분석한 내용
• 논리ERD 정의
• 개체를 식별하고 대상 데
을 통합하여 분석
• 물리ERD 정의
이터를 객체DB 데이터로
• 개념데이터 추출
• 개념 데이터 통합
• 객체 대상 선정
• 개념모델 추출
생성
• 객체DB 생성
• 세부 속성 정의
5
2.3 DB 객체화 – 통합 구조도
본문식별자 (PK)
논문식별자 (PK)
순서
섹션타입
본문
본문
본문식별자 (PK)
논문식별자 (PK)
참고문헌식별자 (PK)
1
0/1
0/n
논문식별자 (PK)
언어타입 (PK)
초록
그림/표
0/1
초록
권호식별자 : 저널id_권_호
1/n
저널식별자 (PK)
저널명
저널국문명
저널명대표언어
DDC
P_ISSN
E_ISSN
과학기술표준분류
무료전자저널여부
코직넘버
ISSN
ISBN
발행국
0/n
1
1
권호정보
저널
1
1
권호식별자 (PK)
저널식별자 (FK)
권
호
권호명
대등권호
발행논문
0/n
저널-기관
0/n
논문식별자 (PK)
저널식별자 (PK)
0/n
0/n
1
1
기관
1
논문소속
1
1
1
1
0/1
심사정보
1
논문식별자 (PK)
참고문헌식별자 (PK)
참고문헌순서
1
0/n
참고
0/n
1
1
1/n
논문저자
논문식별자 (PK)
저자식별자 (PK)
1
0/n
저자소속
6
0/n
0/n
본문참고
문헌
0/n
참고문헌식별자 (PK)
참고문헌타입
참고문헌명
참고문헌국문명
참고문헌명대표언어
시작페이지
종료페이지
권
호
DOI
참고문헌저널영문명
참고문헌저널국문명
참고문헌저자명
참고문헌저자국문명
참고문헌저자명대표언어
발행연도
논문식별자
저자식별자 (PK)
저자국문명
저자영문명
1
저자영문전체명
이메일
팩스
연락처
학위구분
전공연도
저자전공
출생일
사망일
참고문헌
1/n
기관id 획득 필요
기관전거 사용
입수처
1
논문
논문식별자 (PK) 1
논문제어번호
논문국문명
논문명
논문명대표언어
논문발행연도
논문출판일
DOI
KOI
주제분야
권호식별자 (FK)
시작페이지
종료페이지
국문키워드
영문키워드
0/n
학회코드
저작권
저작원연도
라이선스
0/1
1
1
그림표식별자 (PK)
논문식별자 (PK)
그림표제목
그림표링크
그림표구분
순서 (PK)
논문식별자 (PK)
입수출처
상태
상태날짜
순서 (PK)
논문식별자 (PK)
심사구분
심사날짜
저자
저자전거 사용
2.4 객체화 DB 논리 스키마 설계
7
2.5 객체화 DB 물리 스키마 설계
8
2.6 객체화 DB 마이그레이션 프로세스
준비
단계
NDSL
XML
실행
단계
KIS11 (u-Gate)
KIS09 (OCEAN)
KIS08 (e-Gate)
전거데이터
XML FullText 1852건
객체DB
9
2.7 DB 마이그레이션 대상 선정
마이그레이션 대상
- 국내 논문 중 초록이 존재하는 최근 3년
- 국내 논문 중 초록이 존재하지 않는 최근 1년
- 논문번호가 ‘JAKO’로 시작하는 논문
필터링 조건
- 논문 데이터
: KIS11 (u-Gate) DB의 FAST_ARTICLE_NEW 테이블
- 국내 논문
: FAST_ARTICLE_NEW 테이블의 dbt2 컬럼값이 JAKO인 것
- 초록 존재 여부 : FAST_ARTICLE_NEW 테이블의 korabstract와 engabstract 컬럼값
- 최근 3년
: FAST_ARTICLE_NEW 테이블의 pubyear 컬럼값이 2010 이상
- 최근 1년
: FAST_ARTICLE_NEW 테이블의 pubyear 컬럼값이 2012 이상
- 논문번호 시작 : 논문번호 처음시작이 ‘JAKO’로 시작하는 논문
10
2.7 DB 마이그레이션 대상 선정
최종 마이그레이션 수행 대상 논문수
1차
전체 논문수
건수
55,854,058
2차
1차 결과
건수
145,894
국내논문 중 최근 3년간
국내논문 중 최근 1년간
초록 보유 논문수
초록 미보유 논문수
131,203
14,691
145,894
JAKO로 시작하는 논문
NART로 시작하는 논문
115,773
30,121
대상논문
11
3.1 콘텐츠 구축 – 트리플 변환 프로세스
데이터 분석
• 변환 대상이 되는 데이터
온톨로지 스키마 생성
트리플 변환
• 온톨로지에 사용할 prefix
• 변환 대상이 되는 데이터
에 대하여 데이터 구조 및
를 정의하고 데이터의 특
를 변환하기 위해 수집하
데이터 현황을 파악하고
성을 고려하여 많이 사용
는 규칙을 생성
데이터 간의 관계를 분석
하고 있는 vocabulary를
하는 단계
적용할 것인지 고려
• 일반적으로 중심이 되는
데이터를 파악하고 그 데
의
• 중심이 되는 데이터를 바
• 중심이 되는 데이터 이외
탕으로 온톨로지 클래스
석하고 정리
• 대상 데이터의 특성을 파
악하여 변환에 고려
스키마 간의 변환 매핑이
• 인스턴스의 식별체계를 정
이터들의 관계를 파악함
에 세부적인 데이터를 분
• 수집된 데이터와 온톨로지
를 통해 온톨로지 프로퍼
티 생성
12
12
저장소로 적재
• 필요에 따라 추론규칙을
적용하기도 함
• 추론규칙은 기본적인
axiom에 따라 추론을 하는
생성
것과 사용자가 정의한 규
톨로지 인스턴스)을 생성
• 분석된 데이터 간의 관계
• 생성된 트리플을 트리플
이루어지도록 매핑 규칙을
• 변환기를 통해 트리플(온
생성
트리플 적재
칙에 따라 추론을 하는 방
법이 가능
3.2 콘텐츠 구축 – R2RML을 활용한 변환 규칙 활용
@prefix
@prefix
@prefix
@prefix
@prefix
@prefix
@prefix
@prefix
@prefix
rr: <http://www.w3.org/ns/r2rml#>.
bibtex: <http://data.bibbase.org/ontology/#>.
dc: <http://purl.org/dc/elements/1.1/>.
dct: <http://purl.org/dc/terms/>.
foaf: <http://xmlns.com/foaf/0.1/>.
prism: <http://prismstandard.org/namespaces/basic/3.0/>.
pur: <http://prismstandard.org/namespages/pur/3.0/>.
schema: <http://schema.org/>.
kisti: <http://lod.ndsl.kr/ontology/>.
Prefix 영역
<#JournalTableView1> rr:sqlQuery """
select journal.JOURNAL_ID, KOR_NAME, FOREIGN_NAME, COUNTRY, KOJIC, P_ISSN, E_ISSN, ISBN, MAIN_LANG, FREE_FLAG,
ELEC_FLAG, VALUE from ndml_journal journal, ndml_classification_code classcode
where journal.JOURNAL_ID=classcode.JOURNAL_ID and TYPE='1'
""".
<#TriplesMap1>
a rr:TriplesMap;
rr:logicalTable <#JournalTableView1>;
rr:subjectMap [
rr:template "http://lod.ndsl.kr/ontology/journal/{JOURNAL_ID}";
rr:class kisti:Journal;
];
rr:predicateObjectMap [
rr:predicate foaf:name;
rr:objectMap [ rr:column "KOR_NAME"; rr:language "ko"];
];
rr:predicateObjectMap [
rr:predicate foaf:name;
rr:objectMap [ rr:column "FOREIGN_NAME"; rr:language "en"];
];
rr:predicateObjectMap [
rr:predicate prism:location;
rr:objectMap [ rr:column "COUNTRY" ];
];
rr:predicateObjectMap [
rr:predicate kisti:kojic;
rr:objectMap [ rr:column "KOJIC" ];
];
rr:predicateObjectMap [
rr:predicate prism:isbn;
rr:objectMap [ rr:column "ISBN" ];
].
TableView 영역
TriplesMap 영역
13
3.3 콘텐츠 구축 – 변환기 실행 및 결과
•
Setting 폴더안의 setting.properties을 통해 변환하고자 하는 변환규칙과 형식,
데이터베이스 접속 정보를 입력
•
Start.bat 파일을 실행하면 변환기 실행이 시작
구분
건수
논문
115,773
저널
775
객체
저자
39,865
DB
기관
47,678
생성
본문이 있는 논문
참고문헌이 있는 논문
출판사(학회)
트리플 변환
1,706
88,476
608
10,365,313
트리플 적재
14
(추론된 트리플 포함)
30,485,729
3.4 LOD 기반 기술 구현 – Linked Data 발행 구조도
15
3.5 LOD 기반 기술 구현 – 트리플 적재
 트리플을 적재하기 위한 트리플 저
장소의 구조도
 R2RML 트리플 변환기를 통해 생성한 개
방형 고부가 콘텐츠를 OntoBase2.0에 적
재하는 과정을 수행
 owl_low 단계의 추론규칙을 적용하여 데
이터를 적재
16
3.6 LOD 기반 기술 구현 – Linked Data 발행
Linked Data 발행 메인 페이지
17
3.6 LOD 기반 기술 구현 – Linked Data 발행
Linked Data 발행 소개 페이지
18
3.6 LOD 기반 기술 구현 – Linked Data 발행
SPARQL Endpoint 화면
19
3.6 LOD 기반 기술 구현 – Linked Data 발행
SPARQL 결과화면
- [SPARQL 질의]
• NDSL LOD 트리플에
질의 수행
- [SPARQL Endpoint]
• SPARQL Endpoint를
활용하여 KISTI
NDSL LOD 시범서비
스에 SPARQL 질의
수행
20
3.7 LOD 기반 기술 구현 – 검색 결과 화면의 LOD
검색서비스 예)
21
4 맺음말
성과활용계획
차세대 과학기술정보
서비스 모형 개발
• 국내 LOD 확산 계기 마련
• NDSL 콘텐츠의 품질 혁신으로 다양한 고부가 서비스 개발 기반 마련
• 연구자 간 정보개방 및 공유 활성화 기반으로 활용
• 국가 R&D 생산성 향상에 기여하는 국가과학기술정보센터 역할 수행
22