Verilerin Genel Faydaya Dönü*türülmesi ve Mahremiyeti

Download Report

Transcript Verilerin Genel Faydaya Dönü*türülmesi ve Mahremiyeti

Verilerin Mahremiyeti ve
Faydaya Dönüştürülmesi
Teknolojik Bakış Açısı Denemesi
Erkay Savaş, Yücel Saygın
Sabancı Üniversitesi
Konuşma Planı










Mahremiyetin Tanımı
Mahremiyet ve Sistemlerin Güvenilirliği
Mahremiyetin Önemi ve Güncelliği
Mahremiyeti Ortadan Kaldıran Örnekler
Fayda ve Mahremiyet İkilemi
Mahremiyeti Koruyucu Teknik ve Yöntemler
Yasal Düzenlemeler ve Mahremiyet
Bir Tasarım Parametresi olarak Mahremiyet
MODAP Projesi Tanıtımı
Sonuç
Mahremiyet Nedir?

İnsanların temel (anayasal) haklarından biri

Yalnız bırakılma hakkı

Kişisel veriler açısından mahremiyet:

Veri sahiplerine bu verilerle ilgili ne yapılacağı konusunda
inisiyatif vermek.

İnisiyatif: karar verme yetkisi

Veri sahibi kimdir?
Büyük Resimde Mahremiyet
GÜVENİLİRLİK
(DEPENDABILITY)
EMNİYET
(SAFETY)
GÜVENLİK
(SECURITY)
SALDIRILAR
(THREATS)
MAHREMİYET
(PRIVACY)
KİŞİSEL
MAHREMİYET
KURUMSAL
MAHREMİYET
Neden Bu Kadar Önemli ve Güncel?

Teknoloji günlük hayatımızın ayrılmaz bir
parçası oldu



Telsiz ve Telli Bilgisayar Ağları
Akıllı Telefonlar, RFID Etiketleri, Bilgisayarlar, Güvenlik
Kameraları
Kişisel veriler 10 yıl öncesine göre çok daha hızlı, kolay
ve ucuza toplanabiliyor.





İnternette ziyaret ettiğimiz siteler, aramalarda kullandığımız
anahtar sözcükler
Yer (lokasyon) bilgisi (akıllı telefonlar, RFID etiketler)
İşlemler (e-ticaret, POS…)
E-postalarınız (reklam için gmail tarafından taranıyor)
Sosyal Ağlar (isteyerek ya da istemeden kişisel bilgilerin
kontrolsüz yayılması)
Casus ve Tarihçi


Casus (ya da dedektif/paparazzi) kem bakışları

Tek bir bireyin – ya da küçük bir grubun –
davranışları/alışkanlıkları/zafiyetleri hakkında bilgi edinmeye
çalışır

İstismara açık bir pozisyondur
Tarihçi, arkeolog, ya da bilim insanının hüsnü nazarı

Daha büyük insan topluluklarının davranışları hakkında bilgi
toplamaktır

Böyle bir çalışmanın amacı, bu toplulukların dinamiklerini
keşfetmek ve yaşama biçimlerini anlamaya çalışmaktır

Genel bir fayda yaratmak için çalışır.
Naif Bir Yaklaşım

Kişisel verilerin analizi için bireylerin kimlik
bilgilerinin bilinmesine gerek yoktur

Kimlik bilgilerinin rasgele seçilmiş sayılarla
değiştirilerek gizlenmesi

Ancak kişiler hakkında toplanan birçok veri bir araya
getirildiğinde kimlik belirlenmiş olur

Örneğin yaş, cinsiyet, semt kişileri ayırt etmede kullanılabilir.
Thelma Arnold Vakası

Ağustos 2006, AOL kullanıcı loglarını yayınladı

3 aylık süre

20 million web sorgusu

650.000 AOL kullanıcısı

AOL hatasını fark etti ve logları kaldırdı

Veri kişilere ait kimlik bilgilerini içermiyordu.

Ama insanlar genelde kendileri, arkadaşları ve aileleri
hakkında araştırma yaparlar.
Thelma Arnold Vakası

Kimlik no’su 4417749 olan anonim bir kullanıcı
aşağıdaki sorgu kelimelerini kullanmış






“numb fingers”
“60 single men”
“dog that urinates on everything”
“landscapers in Lilburn, Ga”
“Arnold” isimli bir kaç kişi
Bir muhabir bu sorguları yapan kişinin

Thelma Arnold adında 62 yaşında, dul bir kadın olduğunu,
Georgia eyaletinin Lilburn şehrinde yaşadığını, köpekleri
sevdiğini ve arkadaşlarının hastalıkları konusunda İnternet’te
araştırma yaptığını ortaya çıkartıyor.
Veritabanlarındaki Kayıtların
İlintilendirilmesi





Cambridge Massachusetts seçmen
kayıt bilgileri
 54,805 kişi
Posta kodu ve doğum tarihi
birleştirildiğinde veri kayıtlarının
%69’u tek kişiye bağlanabilir (ABD)
Yine ABD, posta kodu, doğum tarihi
ve cinsiyet birleştirildiğinde bu oran
%87’e çıkar.
Massachusetts bölgesi verileri
kullanıldığına: Vali’nin sağlık
bilgilerine ulaşıldı (posta kodu,
doğum tarihi ve cinsiyet bilgileri
kullanılarak)
Bu durum kimlik bilgilerini
saklayarak veri yayınlama
metotlarının gözden geçirilmesini
gerektirdi ve bu konuda
araştırmalar çoğaldı
Yarı Kimlik Bilgileri
Örnek Önlemler
Mobil Teknolojiler


GPS, GSM ve RFID teknolojileri ile yer bilgisi
hassas bir şekilde tespit edilebilmekte
Yeni fırsatlar




Google Latitude, foursquare, vb. lokasyon bilgisini kullanan
yeni mobil uygulamalar
Türkiye’de Turkcell pusula, tamnerede.com
….
Tehlikeler

Gezdiğimiz yerler,
Yaşadığımız ya da çalıştığımız yer
Buluştuğumuz kişiler

….


Fırsatları değerlendirirken
mahremiyetin korunması



Verileri ekonomik ya da araştırma amacıyla
yayınlamak
Veri toplarken yapacağımız analiz doğrultusunda
yeteri kadar toplamak, gereksiz detayda veri
toplamaktan kaçınmak.
İlk yapmamız gereken, kimlik bilgilerini gizlemek

Ama bu yeterli değil
Konum bilgisi

Kullanıcıların konum bilgileri, onlar hakkında
birçok şey ele verir

O yüzden kimlik bilgilerini gizlesek bile


Her gün sabah belli yerden başlayıp bir saat sonra belli bir
yerde duran birisi ve aynı kişi akşam başladığı yere
dönüyorsa

Bu kişinin nerede yaşadığı ve nerede çalıştığından yola
çıkarak diğer zamanlarda nerede olduğu bilgisine
erişebiliriz
O yüzden konum bilgisi kişileri rahatlıkla belirlemek
için kullanılabilir
Mahremiyeti Koruyan Teknikler


Veri yayınlamak için bir mahremiyet standardı gerekiyor
Verilerin istatistiksel özelliklerinin bozulmadan
karıştırılması, yer değiştirilmesi ve gürültü eklenmesi


K. dereceden anonimleştirme



Bilgi ve/veya hassasiyet kaybı,
Bir veri tabanında aynı bilgilere sahip en az k kişi olmasının
sağlanması için “genelleştirme” ve “silme” işlemlerinin
uygulanması
K-anonimliği sağlayan algoritmalar ve sistemler geliştirmek
gerekir, tabi bunu yaparken veri kalitesinin de korunması
gereklidir.
Şifreleme teknikleri

Şifrelenmiş veri üzerinden analiz yapabilme
İkilem (Dichotomy)

Mahremiyet mi?

Genel Fayda mı?

Her ikisi bir arada var olabilir.

Farklı bilimsel disiplinlerin doğuşu

Mahremiyeti koruyan veri madenciliği (“Privacy Preserving
Data Mining”)

Mahremiyeti koruyan veri yönetimi (“Privacy Preserving
Data Management”)
Veri Madenciliği ve Yönetimi

Veri tabanları ve veri madenciliği çoğunlukla
bireyler hakkındaki verilerle ilgilidir



Veri madenciliği için kişisel verilerin uygulanacak
yöntemler için kullanıma açılması gerekir
Veri yönetimi



Ham veri  bilgi
Verilerin ne kadarının, kime, ne zaman, hangi şartlarda
açılacağı konusundadır.
Bilimsel çalışmalar veri madenciliği ve yönetiminin
mahremiyeti koruyacak şekilde yapılmasının yolunu
bulabilir
Hukuksal ve diğer boyutlar (sosyal, ahlaki vb.) hariç
Hukuksal Düzenlemeler

Birçok firma, kurum ve kuruluş kişisel veriler toplar




Yasal düzenlemeler


Büyük hacim  yüksek hesaplama ve saklama kapasitesi
Korunması  güvenlik
Kullanımı, faydaya dönüştürülmesi  veri madenciliği ve
yönetimi
Firmalar, kurum ve kuruluşlar veriler üzerindeki hak ve
bunların mahremiyeti ile ilgili yükümlülüklerini bilmek
isterler
Bağımsız bir otorite

Uygulanan koruma yöntemlerinin yasal düzenlemeyle
uyumlu olup olmadığını kontrol eder.
Büyük Resim
Bilimsel/Teknik
Uzmanlık
Veri
Yasal Düzenlemeler
Veri işleme
Veri Koruma
Otorite
Fayda
Tasarım Parametresi olarak Mahremiyet

Privacy by Design
1.
2.
3.
4.
5.
6.
7.
Önleyici olmak (Tepkisel ya da düzeltici değil)
Mahremiyet standart (default) bir özellik olmalı
Mahremiyet tasarım sürecinin ayrılmaz bir parçası olmalı
Kazan-Kazan yaklaşımı
 Yasal ve makul tüm talepler karşılanmaya çalışılmalı
Baştan sona koruma
 Verinin sisteme girişinden, çıkışına/yok edilmesine kadar
koruma
Görünürlük ve açıklık
 Kullanılan teknikler, yöntemler verilen taahhütlere uygun,
denetime açık olmalı
Kullanıcı odaklı
 İstendiğinde en kuvvetli koruma yöntemlerini kullanabilme
MODAP: Kısa Tanıtım


1 Eylül 2009 tarihinde başladı
Süre: 36 Ay
MODAP
Projeye Genel Bakış

CA yani yeni bir oluşum için koordinasyon aktiviteleri

Amaç mobil veri madenciliği ve mahremiyet
konularındaki araştırmaları koordine etmek

Bu amaçla bilişimcilerin yanı sıra sosyal bilimciler ve
endüstride de geniş kitlelere ulaşmak.
MODAP
Projenin Amaçları

Farkındalığın arttırılması,

Mahremiyeti koruyarak mobil veri madenciliği
yapılmasına imkan tanıyacak teknik altyapının
sağlanması

Gerekli yasal düzenlemelere temel olabilecek
tartışmaların yapılabileceği bir platform oluşturmak.
MODAP Paydaşları











Sabanci Universitesi (Koordinatör)
Fraunhofer IAIS
CNR - Area Della Ricerca di Pisa
Wind Telecomunicazioni SpA
Hasselt University
EPFL - Ecole Polytechnique Fédérale de Lausanne
Université de Lausanne
University of Piraeus Research Centre
Alterra B.V.
National & Kapodistrian University of Athens
University of Milan
Teknoloji ve Veri Toplama
MODAP
Projeye Genel Bakış


GPS ve GSM verileri uzun zamandır toplanmakta
Mobil davranış izlenebilmekte
MODAP First Review
Meeting,
Yapılmak İstenenler


Mobil Veri Madenciliği : Olanaklar
Mobil Veri Madenciliği : Riskler




Veri daha çok insanla ilgilidir (nerede, kiminle, ne zaman,
hangi sıklıkla oldukları, vb).
Mobil Veri Madenciliği tam anlamda kullanılmadan
önce mahremiyet konusu çözümlenmelidir.
İnsanların mobil davranışlarıyla ilgili mahremiyet
riskleri henüz tam olarak tartışılmamıştır.
Mobil veri madenciliğinde ilerlerken veri toplama ve
yayınlamada mahremiyet ölçümleri ve standartları
oluşturulmalıdır
MODAP
Öncesi

MODAP projesi, daha önceki GeoPKDD (Geographic
Privacy-aware Knowledge Discovery and Delivery) adlı
AB 6. Çerçeve Projesinin başarısı üzerine kurulmuştur
MODAP
GeoPKDD
MODAP: Hedef

Teknik ve teknik olmayan kişiler arasındaki boşluğu
ortadan kaldırmak
MODAP
Sonuç


Mahremiyeti koruyan yöntemler sistemin
genel güvenilirliğini artırıcı bir yaklaşımdır.
Teknik uzmanlar


Veri koruma otoritesi



Var olan yasal düzenlemelerle uyumlu teknik
isterlerin/gereksinimlerin belirlenmesi
Denetim
Danışma
Bilimsel/teknik bilgi birikimi



Sakıncalı durumların belirlenmesi
Yeni koruma yöntemlerin bulunması
Farkındalık yaratılması