[140429_KTH]2014멀티미디어학회 춘계학술대회

Download Report

Transcript [140429_KTH]2014멀티미디어학회 춘계학술대회

2014 한국 멀티미디어학회 춘계 학술대회
클라우드 환경에서 그리드기반 생성기법
및 암호화 질의처리 알고리즘
김태훈* 장미영 장재우
전북대학교 데이터베이스 연구실
2014.5.30
2014 한국 멀티미디어학회 춘계 학술대회
목차
 서론
 관련 연구
 연구 동기
 클라우드 환경에서 그리드 기반 색인 키 생성기법 및 암호화 알고리즘
 성능 평가
 결론 및 향후 연구
2/20
2014 한국 멀티미디어학회 춘계 학술대회
서론
 데이터베이스 아웃소싱의 관심 고조
 개인 및 소규모의 데이터 소유자가 증가하는 사용자 및 데이터를 효율적으로
관리하고, 사용자에게 개선된 질의 처리 환경을 제공
 사용자 개인 정보, 이동 궤적, 증권, 또는 의료 정보 등 민감한 정보를 포함
 데이터베이스 아웃소싱의 장점
1. 서비스 요청자(업체, 개인)의 서버관리 비용 절감
2. 전문가에 의한 데이터베이스 관리
3. 핵심역량 재투자가 가능
 아웃소싱된 데이터베이스의 악용
 데이터 암호화 없이 아웃소싱할 경우, 제 3자에게 매도, 다른 용도로 악용될 가능
성 존재
 대용량 센시티브 데이터에 대한 아웃소싱 수행 시, 원본 데이터 유출 방지를 위
한 효율적인 데이터 보호기법 요구
3/20
2014 한국 멀티미디어학회 춘계 학술대회
서론
 기존 클라우드 컴퓨팅 환경의 데이터 보호 기법
 데이터 보호 기법을 통해 대용량 데이터를 암호화  서비스 제공자에게 아웃소
싱
 질의 처리시, 데이터 복호화로 인해 서비스 제공자에게 원본 데이터가 노출되는
문제점
 전체 데이터베이스를 복호화 하기 때문에 질의 수행비용이 증가
 데이터 보호를 지원하는 질의 처리 기법
 데이터 복호화 없이 정확 매칭, 범위 질의 처리 수행  보안 취약점 문제 해결
 문제점
 암호화된 데이터 상에서 다중 컬럼 미지원
 데이터 분석 및 마이닝 수행이 불가
 다중 컬럼을 지원하여 데이터 분석 및 마이닝을 수행할 수 있는 암호화 기
법이 필요
4/20
2014 한국 멀티미디어학회 춘계 학술대회
관련 연구
 Order-Preserving Encryption Scheme(OPE)
 타깃 분포를 미리 임의로 정하고, 원본 데이터의 분포를 타깃 분포로 변환하여
실제 값을 변형시키는 기법
 Step1 Model 단계
 타깃 데이터를 버킷팅하여 각각 버킷 분포를 piece wise linear splines로 모델화
 Step2 Flatten 단계
 각각 모델링한 버킷 내의 값을 균일한 분포가 되도록 변환
 Step3 Transform 단계
 원본 데이터 분포화 타깃 분포로부터 flatten 한 결과의 스케일을 같게 하여 변환
함으로써, 원본 데이터 분포의 데이터가 타깃 분포를 따르는 데이터로 변환
 장점
 암호화된 상태에서 검색이 용이하며 원본 데이터 유추가 어려워 안정성이 높음
 단점
 숫자데이터만 적용 가능하며, 순서 통계량에 의해 원본 데이터 정보 노출 위험이
존재
5/20
2014 한국 멀티미디어학회 춘계 학술대회
관련 연구
 CryptDB
 암호화된 데이터 상에서 SQL-Like 질의 처리를 수행하는 대표적인 기법
 컬럼별로 독립적으로 암호화 수행
Application
SELECT * FROM emp WHERE salary = 100
table1 (emp)
Proxy
60
100
800
100
SELECT * FROM table1 WH col1/rank col2/name col3/salary
ERE col3 = x5a8c34
x934bc1
x95c623
x5a8c34
?
x2ea887
x5a8c34
x5a8c34
x2ea887
x84cec1
x4be219
x17cea7
x5a8c34
6/20
2014 한국 멀티미디어학회 춘계 학술대회
관련 연구
 CryptDB에 적용된 암호화 기법 및 지원 질의 유형
 Deterministic 기법 : 입력 값 x에 대해 하나의 암호화 값 Encx 생성
• 처리 가능한 질의 : GROUP BY, COUNT, DISTINCT
 Order-Preserving 기법 : 암호화 데이터가 원본 데이터의 순서 및 빈도 유지
• 처리 가능한 질의 : ORDER BY, MIN, MAX, SORT
 Homomorphic 기법 : 지수/로그 등의 함수를 이용하여 평문 공간과 암호문 공간
에 정의된 연산을 보존
• ADD
7/20
2014 한국 멀티미디어학회 춘계 학술대회
연구 동기
 기존 연구의 문제점
 1. 대용량의 데이터를 단일 서버에서 처리하기 때문에, 질의 처리 효율이 떨어지
는 단점 존재
 2. 암호화된 데이터 상의 다중 컬럼 질의 미지원
• 데이터 분석 및 마이닝 질의처리 불가
암호화된 데이터에 대해 다중 컬럼을 지원하는
암호화 질의처리 알고리즘에 대한 연구가 필수적
8/20
2014 한국 멀티미디어학회 춘계 학술대회
연구 동기
다중 컬럼 질의 지원을
위한 인덱스 설계
정보 보호를 위한
암호화 인덱스
질의 처리 성능 보장
그리드 기반
다중컬럼 질의
색인키 생성
힐버트 커브 적용
데이터 보호
Prefix-Tree,Hash를
적용한 데이터
검색 속도 향상
클라우드 환경에서 암호화 질의처리를 위한
그리드 기반 색인키 생성 기법
9/20
2014 한국 멀티미디어학회 춘계 학술대회
제안 기법 질의 처리 시나리오
3 데이터
아웃소싱
데이터 소유자
서비스 제공자
부동산
데이터베이스
2
원본
데이터베이스
Hash, Prefix
데이터 저장
색인키 생성
암호화
데이터베이스
1
4
아웃소싱된
데이터베이스
6
데이터
반환
5
질의 요청
질의 요청자
10/20
2014 한국 멀티미디어학회 춘계 학술대회
그리드기반 생성기법 및 암호화 질의처리 알고리즘
Step1
Step2
Step3
Step
1. Customizing
the
data
from기
the source•nodes
creation
• 컬럼
유사도
측
• sensed
힐버트
커브
암호화
색인키
정을 통한 그리
반 그리드 매칭
기반 인덱스 생
드 조합 선정
및 색인 키 생성
성
11/20
2014 한국 멀티미디어학회 춘계 학술대회
그리드기반 생성기법 및 암호화 질의처리 알고리즘
 Step1 컬럼 유사도 측정을 통한 그리드 조합 선정
1. 각 컬럼을 OPE로 암호화 수행
2. 각 컬럼 간 상관 분석을 수행 하여 연관성이 낮은 컬럼 조합 선정
•
상관계수 측정 기법인 피어슨 상관 계수(Pearson Correlation coeffecient) 이용
3. 센시티브 데이터에서 모집단을 통해 상관계수 측정 시 매우 높은 비용 요구
• 식(1)을 통해 표본 집단을 통해 모집단의 상관계수 측정
(1)
12/20
2014 한국 멀티미디어학회 춘계 학술대회
그리드기반 생성기법 및 암호화 질의처리 알고리즘
 Step2 힐버트 커브 기반 그리드 매칭 및 색인키 생성
 1. Step1에서 선정된 컬럼 조합에 대해 k개의 그리드 인덱스 생성
 2. 힐버트 커브(Hilbert curve)를 이용하여 그리드id변환
 3. 변환된 id를 조합하여 색인 키 생성
컬럼0
컬럼1
컬럼3
컬럼5
1
1
4
1
1
2
3
8
3
3
3
5
12
5
5
4
7
16
7
7
5
10
20
10
10
컬럼조합
{0, 3}
컬럼조합
{1, 3}
컬럼조합
{3, 5}
6
7
10
11
6
7
10
11
6
7
10
11
5
8
9
12
5
8
9
12
5
8
9
12
4
3
14
13
4
3
14
13
4
3
14
13
1
2
15
16
1
2
15
16
1
2
15
16
그림1
그림2
OPE를 적용한
암호화 데이터베이스
2번 레코드 데이터 삽입
및 색인키 생성
0011 1110 0011 색인키 생성
13/20
2014 한국 멀티미디어학회 춘계 학술대회
그리드기반 생성기법 및 암호화 질의처리 알고리즘
 Step3 암호화 색인키 기반 인덱스 생성
 1. 색인키의 비트열 길이 및 트리의 깊이(depth = 4)를 고려하여 Prefix-Tree생성
 2. 질의 수행 시
1.
Prefix-Tree의 범위 시작점 선정
2.
연결 리스트를 이용한 최종점까지의 데이터 탐색
001111100011 색인키 탐색 예
000
001
010
011
100
101
110
111
111
100
011
Data
14/20
2014 한국 멀티미디어학회 춘계 학술대회
성능 평가
 성능평가 환경
 Intel®Core i3-2100 CPU 3.10Ghz
 Memory 2GB
 Windows 7 64bit
 Visual Studio 2010 C++
 비교 대상
 CryptDB
 제안하는 기법
 평가 항목
 정확 매칭 질의
 범위 매칭 질의
15/20
2014 한국 멀티미디어학회 춘계 학술대회
성능 평가
 실험 데이터
 UC Irvine대학의 US Census Database
• 이름, 결혼여부, 자녀수, 성별, 나이 학력, 직업 및 전문분야, 직업별 소득, 재산 및 지출
 4개의 컬럼을 이용, 100회의 질의 수행 결과 평균 측정
 파라메터
 데이터 크기
: 0.5G, 1G, 1.5G 2G
 범위 질의 영역 : 0.0001, 0.0002, 0.0005, 0.0007, 0.001
16/20
2014 한국 멀티미디어학회 춘계 학술대회
성능 평가
 정확 매칭
 데이터 크기가 2G인 경우 CryptDB는 약 0.4초의 정확 매칭 질의 처리 시간 소요
 제안 기법의 경우 약 0.12초로 약 4배 향상된 질의 처리 성능 지원
질의 처리 시간 (초)
 제안하는 기법은 분산 암호화 색인 키를 이용하여 복호화 없이 Prefix-Tree 탐색
을 통해 빠르게 접근하여 데이터를 반환하기 때문
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
CryptDB
제안기법
0.5
1G
1.5G
2G
데이터 크기
17/20
2014 한국 멀티미디어학회 춘계 학술대회
성능 평가
 범위 매칭
 0.001%의 질의 영역에 대한 데이터 탐색의 경우 제안하는 기법의 질의 처리 시
간은 약 0.02초로 기존 기법에 비해 성능이 약 15배 향상됨
질의 처리 시간 (초)
1
0.1
0.01
0.001
CryptDB
0.0001
0.254494
0.0002
0.262194
0.0005
0.292324
0.0007
0.308084
0.001
0.330644
제안기법
0.00166
0.00369
0.00872
0.01435
0.01953
질의 영역 크기(% of the whole area)
18/20
2014 한국 멀티미디어학회 춘계 학술대회
결론
 클라우드 환경에서 데이터 보호 및 분석 질의를 위한 그리드 기반 색인 키
생성 기법 및 암호화 알고리즘
 다중 컬럼 질의를 위해 그리드 기반 다중 컬럼 질의 색인키 생성
 색인 키 정보 보호를 위해 힐버트 커브 적용, 전송 오버헤드 및 데이터 유출 위험
을 감소
 분산된 환경에서 질의 처리 성능 보장을 위해 Prefix-Tree 사용
 성능평가
 기존기법 대비 제안 기법 정확 매칭 약4배 향상
 범위 매칭은 약 15배 향상되어 기존 기법에 비해 제안 기법이 우수함을 검증
 향후 연구
 제안 기법을 top-k 및 집계 질의를 지원하는 알고리즘으로 확장하여 연구
19/20
감사합니다.
Q&A
2014 한국 멀티미디어학회 춘계 학술대회
참고문헌
 [1]Digital Signature Standard(DSS): NIST-Federal Information Processing
Standards Publication 186-3, 2009.
 [2]Advanced Encryption Standard(AES) : NISTFederal Information
Processing Standards Publication 197, 2001.
 [3]RSA Laboratories, “RSAREF: A Cryptographic Toolkit,” Version 2.0, 1994,
available via FTP from rsa.com.
 [4]A. Desai., “New paradigms for constructing symmetric encryption
schemes secure against chosen-ciphertext attack”, 2000.
 [5]O. Goldreich., “Foundations of Cryptography: Volume I Basic Tools”,
2003
 [6]T. Ge and S. Zdonik, “Answering Aggregation Queries in a Secure
System Model”, VLDB, 2007.
 [7]A. Boldyreva et al., “Order-Preserving Encryption Revisited: Improved
Security Analysis and Alternative Solutions“, 2010.
 [8]R. A. Popa, C. M. S. Redfield, N. Zeldovich, and H. Balakrish-nan.
"CryptDB: Protecting confidentiality with encrypted query processing"
InProc. of the ACM Symposium on Operating Systems Principles (SOSP),
2011
21/20
2014 한국 멀티미디어학회 춘계 학술대회
Piecewise linear splines
 Piecewise linear splines(조각 별 선형 자유 곡선)로 모델화의 예
22/20
2014 한국 멀티미디어학회 춘계 학술대회
OPES flatten, Tranform 단계
• Step1 Model 단계
• 타깃 데이터를 버킷팅하여 각
각 버킷 분포를 piece wise
linear splines로 모델화
• Step2 Flatten 단계
• 각각 모델링한 버킷 내의 값을
균일한 분포가 되도록 변환
• Step3 Transform 단계
• 원본 데이터 분포화 타깃 분포
로부터 flatten 한 결과의 스케
일을 같게 하여 변환함으로써,
원본 데이터 분포의 데이터가
타깃 분포를 따르는 데이터로
변환
23/20
2014 한국 멀티미디어학회 춘계 학술대회
피어슨 표본 상관 계수 계산 예
 질의에 사용되는 센시티브 컬럼이 {0, 1, 3, 5}이라 가정했을 때, 해당 컬럼들
의 모든 조합에 따른 피어슨 상관 계수 측정한 결과 가장 작은 값을 지니는
컬럼 조합을 결과로 선정
 계산된 피어슨 상관 계수는 선정된 컬럼 조합이 가지는 모든 데이터에 대해
샘플링 하여 계산된 값
컬럼 조합
피어슨 상관계수
0
3
0.663843
1
3
0.666327
3
5
0.677279
24/20