7_빅데이터시대의 보안이슈, 이동우, 지티원, 2012.10.30

Download Report

Transcript 7_빅데이터시대의 보안이슈, 이동우, 지티원, 2012.10.30

빅데이터 시대의
보안이슈
2012.10.31
이동우
지티원
Data Explosion
Excellence in Application & Data Governance
2
빅데이터 시대의
보안이슈
Excellence in Application & Data Governance
3
빅데이터 시대 보안의 필요성
 빅데이터 구축 시작부터 보안 아키텍처에 대한 고민이 필요

시스템 아키텍처와 설계, 심지어는 개발을 마치고 나서야 보안을 생각하는 일이
보안과 관련되어
빈번하게 발생되는 큰 실수임
 빅데이터 시스템에도 전자적인 보안 프레임워크 적용이 필요

현재의 시스템은 빅데이터를 저장하고 처리하는 데만 관심이 있음
 빅데이터는 기업의 큰 가치를 창출할 수도 있지만, 또한 기업의 큰
위협을 줄 수
있는 데이터라는 가정을 하고 다루어야 함


빅데이터를 수집하는 기업들은 얼마 지나지 않아 자신들이 ‘독소 데이터(Toxic
Data)’를
손에 쥐고 있다는 사실을 깨닫게 될 것임
내부 수집 데이터가 외부에 유출될 경우 해당 고객 개인은 물론 기업에도 재앙으로
다가올 수 있음
 하지만 이런 위험을 감수해야 빅데이터 환경을 구축할 수 있음
Excellence in Application & Data Governance
4
빅데이터와 연계된 보안이슈
NoSQL 등의 빅데이터
NoSQL 등의
시스템과 관련된 보안이슈
빅데이터 시스템과
-Hadoop보안이슈
Security
관련된
(접근 제어 및 사용자 인증 기술)
빅데이터 저장과
빅데이터
저장과
관련된 보안이슈
관련된 보안이슈
- PPDM
(Privacy Preserving Data Mining)
Big
Data
빅데이터 분석기술을
빅데이터
분석기술을
이용한 응용보안
이슈
이용한 응용보안 이슈
- 빅데이터 통합보안 2.0
Excellence in Application & Data Governance
5
시스템
PPDM (Privacy Preserving Data Mining)
저장
Big
Data
응용
 목적
 Privacy를 보호할 수 있도록 변환하거나 이를 보호할 수 있는 방법을 사용하여
데이터마이닝을 수행하고 그 결과를 얻어내는 것
 Privacy 침해의 예
 회원정보, 고객정보 등의 개인정보를 이용한 데이터 분석 수행시 개인정보 유출 및
다른 용도로 사용되는 경우
 온라인 쇼핑몰의 고객정보 및 구매 정보 분석을 위해 컨설팅 회사에 분석 의뢰를
했을 경우 유통과정에서 개인정보가 유출되는 경우
Excellence in Application & Data Governance
6
시스템
PPDM (Privacy Preserving Data Mining)
저장
Big
Data
응용
 확장된 Privacy의 개념
• 개인정보 이외에도 많은 Sensitive data가 존재함
• 기업, 정부기관, 군사기관 등의 대외비 자료
• 대외비 이외도 외부 공개 불가의 민감한 데이터 상존
- 생산공정 데이터, 마케팅 및 판매 실적 데이터
 PPDM의 주요 방법
• 랜덤화(Randomization) 혹은 데이터 섭동(Data Perturbation)
- 민감한 정보에 대한 보호를 할 수 있도록 원본 데이터에 노이즈를 더해주거나 다른 종류의
랜덤화를
적용하는 등의 데이터 변환 및 은폐
- 높은 안전성을 요하는 응용에는 적절하지 못하다는 단점이 있지만 매우 효율적이어서
실용화 되어 있음
→ 하지만 오리지널 데이터의 변형으로 인한 결과의 정확성(accuracy)은 해결해야 할 문제
• 다주체 보안 연산 (Secure Multiparty Computation : SMC)
- 데이터 제공 주체 간 데이터 유출을 방지하며, 통합 연산 수행
→ 계산 효율성이 매우 낮기 때문에 아직 실용적이지 못하다는 한계를 지니고 있음
Excellence in Application & Data Governance
7
시스템
PPDM (Privacy Preserving Data Mining)
저장
Big
Data
응용
 PPDM 적용상의 특성
• 다양한 상황에 두루 적용할 수 있는 기법이 존재하지 않음
• 구체적인 특정 상황에 가장 적합하게 사용할 수 있는 기법을 선정하고, 세부
조정하여 적용
Excellence in Application & Data Governance
8
시스템
PPDM (Privacy Preserving Data Mining)
저장
Big
Data
응용
기존의 데이터마이닝 방법
오리지널 데이터의 분포 추정 과정
Excellence in Application & Data Governance
9
시스템
PPDM (Privacy Preserving Data Mining)
저장
Big
Data
응용
 최근 개발된 중요한 데이터 마이닝 기술
 연관규칙 (Association Rules)
- 데이터 마이닝의 대표적인 기술로써 여러 데이터 사이의 연관성을 찾아내는 것
 분류 (Classification)
- 주어진 데이터와 각각의 데이터에 대한 클래스가 주어진 경우, 그것을 이용하여 각각의
클래스를 갖는
데이터들은 어떤 특징이 있는지 분류 모델을 만들고, 새로운 데이터가 주어졌을 때, 그
데이터가 어느
클래스에 속하는지를 예측하는 방법
 순차 패턴 (Sequential Patterns)
- 연관규칙은 물건을 한 번에 살때 같이 구매한 것들을 이용해 규칙을 찾는 것인 반면에
순차패턴은 순서대로 일어난 데이터를 분석해 빈도수가 높은 순차 패턴을 찾아내는 기술
 군집화 (Clustering)
- 주어진 데이터를 몇몇 그룹으로 나누는 것을 말함. 분류와 다른 점은 각 클래스에 해당되는
정보를 제공하지
않고 단지 주어진 데이터들 사이의 유사성만을 바탕으로 여러 그룹으로 나누어 그룹의 특성
을 연구한다는 점
에 있음
 아웃라이어 판별(Outlier Discovery)
Excellence in Application & Data Governance
10
시스템
PPDM (Privacy Preserving Data Mining)
저장
Big
Data
응용
 시사점
• 최근 개발된 주요한 데이터 마이닝 기술과 연계한 PPDM 연구가 진행됨
-Ex) 랜덤화를 이용한 연관규칙 마이닝 적용
-Ex) Privacy-Preserving Indexing for e-Health Information Networks
• 개인의 프라이버시 문제는 정보의 제공자와 사용자 모두에게 중요한 이슈이며
특히 정부에서는
데이터 개방 및 활용에 관한 많은 정책들을 발의 중인데 적정한 수준(good
enough)의
기술적, 제도적(법에 근거하는) 보완장치 마련이 필요
 출처
• 강정현, 조성준, “아웃소싱 데이터마이닝 환경에서 데이터 보안을 위한 무작위
추출 기반
사영변환”, 2010.12
• 강주성, 조성훈, 이옥연, 홍도원, “연관규칙 마이닝에서 랜덤화를 이용한
프라이버시
보호기법에 관한 연구”, 2007
• Yuzhe Tang, Ting Wang, Ling Liu, Shicong Meng, Balaji Palanisamy,
Excellence in Application & Data Governance
11
시스템
Conceptual Hadoop Architecture
Excellence in Application & Data Governance
저장
Big
Data
응용
12
(Open Source based)
Hadoop Realization Architecture
Excellence in Application & Data Governance
시스템
저장
Big
Data
응용
13
시스템
Hadoop Security
저장
Big
Data
응용
 하둡의 보안 관련 상황
 하둡의 초기버전에는 사용자 인증을 위한 보안을 제공하지 않았음
 최근 Hadoop 1.0을 발표하면서 GSSAPI(Generic Services Application Program
Interface) 를 통하여 SASL (Simple Authentication and Security Layer)을
제공하면서 Kerberos 인증, RPC Digest 방식 등을 제공하기 시작하였음
 하지만 ACL(Access Control Lists)와 Kerberos 인증과 같은 하둡 분산파일
시스템 (HDFS)에 장착된 보안 기능들은 기업의 요구수준에 부합하는 수준은 안됨
 알려진 하둡 보안 취약점
 하나의 대칭키 암호 키(블록 접근 토큰) 사용 문제
 Hadoop Echo System 중 Hadoop Security를 지원하지 않는 객체 문제
Excellence in Application & Data Governance
14
시스템
하둡 보안 취약점 1
저장
Big
Data
응용
 하나의 대칭키 암호 키(블록 접근 토큰) 사용 문제
 보안이 강화되지 이전의 하둡은 네임노드에서 클라이언트에 대한 인증을 수행하지
않았고, 데이터 노드에게 데이터 요청시 데이터 블록에 대한 권한 제어를 하지
않았음
→ 악의적인 공격자가 어떤 클라이언트든지 가장할 수 있는 취약 사항과 악의적인
공격자가
데이터 블록 아이디만 알면 해당 블록에 접근할 수 있는 취약점등이 존재
 최근 하둡 1.0 버전에서 보안 부분이 추가 됨 (Kerberos 인증 방식)
- 하둡은 퍼포먼스 강조의 이유로 공개키 기반 시스템보다는 대칭키 기반 시스템을
선택
- 클라이언트가 네임노드에 최초 접근할 시
우선 커버로스 인증을 받고 그 증거로 서비스 티켓을 받음
해당 서비스 티켓을 이용하여 네임노드로부터
인증을 받음
네임노드 재 방문시 재인증 받을 필요 없는
위임 토큰을 받음
→ 추가적으로 데이터 노드에서 데이터 블록에
대한 접근 권한을 확인하기 위한 블록 접근 토큰을 Format of Block access Token
획득
Excellence in Application & Data Governance
15
시스템
하둡 보안 취약점 1
저장
Big
Data
응용
 하나의 대칭키 암호 키(블록 접근 토큰) 사용 문제
 취약점 :
- 하둡은 블록 접근 토큰을 생성하기 위해 네임노드와 모든 데이터 노드 간에
하나의 비밀키를 공유함
됨
만약 한 데이터 노드가 공격을 당해서 키가 노출이 되거나 전송 중에 키가
노출된다면 모든 데이터 노드에 저장되어 있는 데이터 블록은 공격자에 노출
- 하둡에서는 블록 접근 토큰을 사용할 때 다른 사용자에게 양도 가능하지 않게
하기 위해 토큰 아이디에 소유자 아이디(OwnerID)를 삽입
현재 하둡 구현체는 데이터노드에서 소유자 아이디에 대한 검증방식을
적용하지 않고 있음.
즉 네트워크로 블록 접근 토큰을 얻은
공격자는 데이터 노드에 재전송 함으로써
네임노드와 데이터 노드가 공유하고 있는
비밀키가 갱신되기까지 해당 블록에
접근 가능함
Excellence in Application & Data Governance
Read Operation Sequence of Block
16
시스템
하둡 보안 취약점 2
저장
Big
Data
응용
 Hadoop Echo System 중 Hadoop Security를 지원하지 않는 객체
존재
 Hadoop (CDH4 기준) 에서 지원하는 보안 체계
- MIT Kerberos 5 (krb5-1.6.1, 1.6.3, 1.8.1, 1.8.2, 1.9)
- Hadoop Security with Active Directory
- AES-256 Encryption with JCE Policy File
- HMAC-SHA1
- Plug-in : integrate with existing enterprise web SSO
 Flume, Hue, Hbase (with a Secure ZooKeeper), ZooKeeper – support Kerberos
 Oozie, HttpFS - support Kerberos with HTTP SPNEGO
 Sqoop, Pig – support security with no configuration required
 Whirr – does not support security
→ Hadoop (CDH3 기준) 일 경우에는 ZooKeeper 및 HttpFS는 인증 지원하지 않음
또한 Job Tracker, Task Tracker, Node 와 Oozie 를 위한 몇몇 웹 도구들은
Excellence in Application & Data Governance
17
시스템
하둡 보안 취약점 2
저장
Big
Data
응용
 하둡 보안 도입시 검토 대상
 Job Control – Dose nothing to prevent malicious users from causing harm
(weak authentication)
 Is not support encryption on the wire and encryption on disk
 Is not protect DOS attacks
 Is not support edge authentication (eg, PKI, SAML)
 Is not easy to setting up Hadoop Security System
 새로운 하둡 컴포넌트 도입시 하둡 보안을 지원하는 컴포넌트로 구성해야 함
Excellence in Application & Data Governance
18
시스템
하둡 보안 취약점 – 해결 솔루션 예제
저장
Big
Data
응용
 Solution Ex) Gazzang zNcrypt for Big Data

Transparent, unified data encryption to protect data at rest and in motion with minimal
performance impact

Advanced key management that stores keys separately from the encrypted data to ensure
ongoing data privacy compliance and minimize the risk of a potential data breach

Process-based access control lists to restrict access based on specific processes rather than
job function, and ensure encrypted data is accessible only to those who absolutely need it

Platform independence to protect your investment – and your big data – no matter which
cloud provider you choose or which cloud model you deploy
 출처
•
박승제, 김희열, “해쉬 체인을 이용한 하둡 보안의 향상”, 2012.06
•
Owen O’Malley, Kan Zhang, Sanjay Radia, Ram Marti, and Christopher Harrell, “Hadoop Security
Design”, 2009.10
•
Andrew Beeherer, “Hadoop Security Design Just Add Kerberos? Really?”, 2010
•
Cloudera, “CDH4 Security Guide 4.0”, 2012.06
•
Cloudera, “CDH3 Security Guide 3.0”, 2012.02
•
Gazzng, “Gazzang zNcrypt for Big Data - data sheet”, 2012
Excellence in Application & Data Governance
19
시스템
빅데이터 통합 보안 2.0
저장
Big
Data
응용
 빅 보안 데이터의 분석 필요성
 스마트 기기와 인터넷 환경의 변화로 트래픽 증가와 다양한 보안위협이 확산
 이와 관련하여 보안솔루션도 증가하고 있고, 관련 로그 및 이벤트의 증가는
빅 보안 데이터 시대로 넘어가고 있음
- 분석 데이터가 증가하고, 보안 위협 요소가 빅데이터에 잠복할 수 있는
가능성이 있음
 APT (Advanced Persistent Threat)
: 최대 수개월에서 수년에 걸쳐 타겟을 정하고 공격을 발생시킴
- 실시간으로 완벽하게 탐지하기 위해 정보보안 분야에서도 빅데이터 분석 및
처리기술에 대한 연구가 필요
 기존 네트워크 계층 중심의 시그너처 탐지가 아닌 어플리케이션 계층 중심의
이상행위 기반 분석방법을 이용한 빅 보안 데이터를 처리해야 함
Excellence in Application & Data Governance
20
시스템
빅데이터 통합 보안 2.0
저장
Big
Data
응용
 APT 위협

지능형 지속 위협은 단발성 공격이 아니며 공격 대상 네트워크에 침투하여 목적이 달성될
때가지 지속적으로 공격하는 고도화된 보안 위협을 의미

외부에 공개된 정보나 이전의 공격에서 얻은 데이터를 바탕으로 진행되기 때문에 공격대상에
대해 더 자세히 알면 알수록 공격은 정교해짐

많은 조직이 APT 공격과 싸우고 있으며, 네트워크의 백그라운드 노이즈로부터 위협을 초래할
수 있는 데이터를 걸러내는 것은 어려운 일이 되고 있음
 BYOD 위협

BYOD(Bring Your Own Device)는 개인소유의 IT 단말기를 업무에 활용하는 현상을 의미함

PC 위주의 주요업무와 개인 태블릿 PC, 스마트폰을 보조적 수단으로 업무에 활용하는 최신
유행

이러한 현상으로 하드웨어와 소프트웨어의 발전이 더욱 가속화되고 있으며 이로 인하여
BYOD를 이용한 업무생산성, 편의성과 같은 긍정적인 요소 외에 각종 Device 에 대한 잠재적
보안 위협이 존재

대표적인 보안 위협으로는 기업의 IT 통제권 상실, 단말기 취약점 및 악성코드로 인한 기업
내부정보 유출 위협, 악성코드에 감염된 개인용 기기의 내부 접속으로 인한 기업 IT 자산 위협,
단말기 도난 또는 분실로 인한 데이터 유출 등이 있음
Excellence in Application & Data Governance
21
시스템
빅데이터 통합 보안 2.0
저장
Big
Data
응용
[로그데이터를 수집하는 이유]
[로그데이터 수집이유 중 달성하기 어려운 것]
Excellence in Application & Data Governance
22
시스템
빅데이터 통합 보안 2.0
Excellence in Application & Data Governance
저장
Big
Data
응용
23
시스템
빅데이터 통합 보안 2.0
저장
Big
Data
응용
 통합보안 2.0 요구사항
* 빅데이터 이전의 통합보안을 ‘통합보안 1.0’ 이라 정의

단편적인 단위 보안시스템 (침입탐지/침입차단 시스템 등)의 처리방식으로는 위협대응에
한계가 있음
빅 보안 데이터에 대한 총체적으로 통합분석을 수행함으로써 효과적으로 대응해야 함

통합보안 1.0에서는 네트워크 보안 시스템 중심으로 데이터를 단일 장비에서 수집하여
DBMS에 저장하여 처리하는 구조
수집성능과 분석성능을 고려하여 병렬처리가 가능하도록 구성

통합보안 1.0에서는 네트워크 계층의 규칙기반 연관분석 방법을 이용하여 알려진 공격과 IP,
포트 임계치 위주로 위협을 탐지
고도화되고 지능적으로 잠복해 있는 위협을 탐지하기 위하여 사용자 ID,
어플리케이션에서 전후 관계를
분석한 어플리케이션 계층 중심의 사이버 상황인지 방법으로 위협을 탐지할 수 있음

통합보안 1.0에서는 성능 측면의 한계 때문에 수개월에서 년간 단위의 데이터를 실시간
분석하기 어려웠음
→ 분산 병렬처리로 인하여 수개월 이상의 장기 데이터를 이용하여 실시간 분석이 가능
Excellence in Application & Data Governance
24
시스템
빅데이터 통합 보안 2.0
Excellence in Application & Data Governance
저장
Big
Data
응용
25
시스템
빅데이터 통합 보안 2.0
저장
Big
Data
응용
 시사점
• 이기종 보안시스템 및 업무용 어플리케이션의 로그들을 다양한 방법으로 통합하여
대량의
데이터를 대상으로 실시간 분석이 가능한 인프라 기술 적용
네트워크 및 어플리케이션 계층에서의 사용자의 행위에 대한 지속적
모니터링을
통한 비정상 행위를 탐지
콘텐츠 중심의 전후관계를 분석한 컨텍스트 중심 분석 연구를 통한 갈수록
지능화되는 보안위협 탐지
• 통합보안에 대한 보안관제 관점의 기술적 보안에 대한 연구가 주로 진행되고 있음
필요함
관리적 관점의 컴플라이언스 이슈와 위험관리에 대한 연구도
• 또한 빅데이터에 대한 표준 처리기준이 없으므로 표준화된 빅데이터 저장방식, 처리
기준에
대한 연구가 필요
 출처
• 최대수, 김용민, “빅데이터와 통합보안 2.0”, 2012.06
Excellence in Application & Data Governance
26
빅데이터 보안 동향
 CSA, 빅데이터 워킹그룹 발족 (BDWG – Big Data Working Group)
 CSA(Cloud Security Alliance)가 빅데이터 워킹그룹 발족 (2012.08.29)
 빅데이터 워킹그룹은 데이터 중심적인 보안과 개인정보보호 문제 해결을 목표로 함
1. 빅데이터 보안과 개인정보보호를 위한 베스트 프랙티스 수립이 제일 큰 목표
2. 업계와 정부가 이들 베스트 프랙티스를 적용할 수 있도록 지원
3. 빅데이터 보안과 개인정보보호 표준들에 영향을 끼칠 수 있도록 표준 개발조직들과 협력 관계
구축
4. 보안과 개인정보보호 이슈에 초점을 맞춘 새로운 연구 적용을 가속화하는 것을 목표로 함
 2012년 말까지 업계와 정부 이니셔티브를 위한 펀딩을 모색
https://cloudsecurityalliance.org/csa-news/fujitsu-ebay-and-verizon-big-data-grour/
Excellence in Application & Data Governance
27
빅데이터 활성화를 위해 해결해야 할 과제
 개인정보 익명성 보장체계 확립
 전문인력 문제는 지속적인 투자만이 해결책
Excellence in Application & Data Governance
28
결론
 빅데이터 시대는 Low-level 데이터 수집부터 시작하는 구조임
•
이런 Low-level 데이터 일체를 수집해야 모집단 전체에 대한 분석이 가능
 그러므로 빅데이터 수집 시부터 데이터 암호화를 철저하게 해야 함
• 포착하고 저장하는 모든 데이터에 대해 암호화하는 것이 필요함
• 이전에는 비용이 많이 들기 때문에 수집하는 모든 데이터를 암호화하는 것을
꺼려하였으나
오픈소스 기반의 툴을 사용하면 비용이 많이 떨어짐
• 또한 성능 감소도 Application 계층 별 3~5%에 불과
 분산환경처리에 맞는 자동 키 관리 솔루션을 활용하는 것이 필요
•
전체 암호화 프로세스에서도 취약한 부분이 키 관리이기도 하고, 분산환경처리에 맞는
자동 키 관리 솔루션의 적용이 필요함
 또한 빅데이터 분석 시 개인정보 보호에 대한 방법도 같이 고민 해야 함
•
국가의 개인정보 보호법에 저촉되지 않도록 분석하고자 하는 데이터에 대한 보호
수준 및
알고리즘 선택 등에 대한 고민을 같이 해야 함
Excellence in Application & Data Governance
29
감사합니다.
이동우
지티원
데이터거버넌스 사업부
Tel : 010-4801-6609
email : [email protected]
Excellence in Application & Data Governance
30