Verilerin Genel Faydaya Dönü*türülmesi ve Mahremiyeti
Download
Report
Transcript Verilerin Genel Faydaya Dönü*türülmesi ve Mahremiyeti
Verilerin Mahremiyeti ve
Faydaya Dönüştürülmesi
Teknolojik Bakış Açısı Denemesi
Erkay Savaş, Yücel Saygın
Sabancı Üniversitesi
Konuşma Planı
Mahremiyetin Tanımı
Mahremiyet ve Sistemlerin Güvenilirliği
Mahremiyetin Önemi ve Güncelliği
Mahremiyeti Ortadan Kaldıran Örnekler
Fayda ve Mahremiyet İkilemi
Mahremiyeti Koruyucu Teknik ve Yöntemler
Yasal Düzenlemeler ve Mahremiyet
Bir Tasarım Parametresi olarak Mahremiyet
MODAP Projesi Tanıtımı
Sonuç
Mahremiyet Nedir?
İnsanların temel (anayasal) haklarından biri
Yalnız bırakılma hakkı
Kişisel veriler açısından mahremiyet:
Veri sahiplerine bu verilerle ilgili ne yapılacağı konusunda
inisiyatif vermek.
İnisiyatif: karar verme yetkisi
Veri sahibi kimdir?
Büyük Resimde Mahremiyet
GÜVENİLİRLİK
(DEPENDABILITY)
EMNİYET
(SAFETY)
GÜVENLİK
(SECURITY)
SALDIRILAR
(THREATS)
MAHREMİYET
(PRIVACY)
KİŞİSEL
MAHREMİYET
KURUMSAL
MAHREMİYET
Neden Bu Kadar Önemli ve Güncel?
Teknoloji günlük hayatımızın ayrılmaz bir
parçası oldu
Telsiz ve Telli Bilgisayar Ağları
Akıllı Telefonlar, RFID Etiketleri, Bilgisayarlar, Güvenlik
Kameraları
Kişisel veriler 10 yıl öncesine göre çok daha hızlı, kolay
ve ucuza toplanabiliyor.
İnternette ziyaret ettiğimiz siteler, aramalarda kullandığımız
anahtar sözcükler
Yer (lokasyon) bilgisi (akıllı telefonlar, RFID etiketler)
İşlemler (e-ticaret, POS…)
E-postalarınız (reklam için gmail tarafından taranıyor)
Sosyal Ağlar (isteyerek ya da istemeden kişisel bilgilerin
kontrolsüz yayılması)
Casus ve Tarihçi
Casus (ya da dedektif/paparazzi) kem bakışları
Tek bir bireyin – ya da küçük bir grubun –
davranışları/alışkanlıkları/zafiyetleri hakkında bilgi edinmeye
çalışır
İstismara açık bir pozisyondur
Tarihçi, arkeolog, ya da bilim insanının hüsnü nazarı
Daha büyük insan topluluklarının davranışları hakkında bilgi
toplamaktır
Böyle bir çalışmanın amacı, bu toplulukların dinamiklerini
keşfetmek ve yaşama biçimlerini anlamaya çalışmaktır
Genel bir fayda yaratmak için çalışır.
Naif Bir Yaklaşım
Kişisel verilerin analizi için bireylerin kimlik
bilgilerinin bilinmesine gerek yoktur
Kimlik bilgilerinin rasgele seçilmiş sayılarla
değiştirilerek gizlenmesi
Ancak kişiler hakkında toplanan birçok veri bir araya
getirildiğinde kimlik belirlenmiş olur
Örneğin yaş, cinsiyet, semt kişileri ayırt etmede kullanılabilir.
Thelma Arnold Vakası
Ağustos 2006, AOL kullanıcı loglarını yayınladı
3 aylık süre
20 million web sorgusu
650.000 AOL kullanıcısı
AOL hatasını fark etti ve logları kaldırdı
Veri kişilere ait kimlik bilgilerini içermiyordu.
Ama insanlar genelde kendileri, arkadaşları ve aileleri
hakkında araştırma yaparlar.
Thelma Arnold Vakası
Kimlik no’su 4417749 olan anonim bir kullanıcı
aşağıdaki sorgu kelimelerini kullanmış
“numb fingers”
“60 single men”
“dog that urinates on everything”
“landscapers in Lilburn, Ga”
“Arnold” isimli bir kaç kişi
Bir muhabir bu sorguları yapan kişinin
Thelma Arnold adında 62 yaşında, dul bir kadın olduğunu,
Georgia eyaletinin Lilburn şehrinde yaşadığını, köpekleri
sevdiğini ve arkadaşlarının hastalıkları konusunda İnternet’te
araştırma yaptığını ortaya çıkartıyor.
Veritabanlarındaki Kayıtların
İlintilendirilmesi
Cambridge Massachusetts seçmen
kayıt bilgileri
54,805 kişi
Posta kodu ve doğum tarihi
birleştirildiğinde veri kayıtlarının
%69’u tek kişiye bağlanabilir (ABD)
Yine ABD, posta kodu, doğum tarihi
ve cinsiyet birleştirildiğinde bu oran
%87’e çıkar.
Massachusetts bölgesi verileri
kullanıldığına: Vali’nin sağlık
bilgilerine ulaşıldı (posta kodu,
doğum tarihi ve cinsiyet bilgileri
kullanılarak)
Bu durum kimlik bilgilerini
saklayarak veri yayınlama
metotlarının gözden geçirilmesini
gerektirdi ve bu konuda
araştırmalar çoğaldı
Yarı Kimlik Bilgileri
Örnek Önlemler
Mobil Teknolojiler
GPS, GSM ve RFID teknolojileri ile yer bilgisi
hassas bir şekilde tespit edilebilmekte
Yeni fırsatlar
Google Latitude, foursquare, vb. lokasyon bilgisini kullanan
yeni mobil uygulamalar
Türkiye’de Turkcell pusula, tamnerede.com
….
Tehlikeler
Gezdiğimiz yerler,
Yaşadığımız ya da çalıştığımız yer
Buluştuğumuz kişiler
….
Fırsatları değerlendirirken
mahremiyetin korunması
Verileri ekonomik ya da araştırma amacıyla
yayınlamak
Veri toplarken yapacağımız analiz doğrultusunda
yeteri kadar toplamak, gereksiz detayda veri
toplamaktan kaçınmak.
İlk yapmamız gereken, kimlik bilgilerini gizlemek
Ama bu yeterli değil
Konum bilgisi
Kullanıcıların konum bilgileri, onlar hakkında
birçok şey ele verir
O yüzden kimlik bilgilerini gizlesek bile
Her gün sabah belli yerden başlayıp bir saat sonra belli bir
yerde duran birisi ve aynı kişi akşam başladığı yere
dönüyorsa
Bu kişinin nerede yaşadığı ve nerede çalıştığından yola
çıkarak diğer zamanlarda nerede olduğu bilgisine
erişebiliriz
O yüzden konum bilgisi kişileri rahatlıkla belirlemek
için kullanılabilir
Mahremiyeti Koruyan Teknikler
Veri yayınlamak için bir mahremiyet standardı gerekiyor
Verilerin istatistiksel özelliklerinin bozulmadan
karıştırılması, yer değiştirilmesi ve gürültü eklenmesi
K. dereceden anonimleştirme
Bilgi ve/veya hassasiyet kaybı,
Bir veri tabanında aynı bilgilere sahip en az k kişi olmasının
sağlanması için “genelleştirme” ve “silme” işlemlerinin
uygulanması
K-anonimliği sağlayan algoritmalar ve sistemler geliştirmek
gerekir, tabi bunu yaparken veri kalitesinin de korunması
gereklidir.
Şifreleme teknikleri
Şifrelenmiş veri üzerinden analiz yapabilme
İkilem (Dichotomy)
Mahremiyet mi?
Genel Fayda mı?
Her ikisi bir arada var olabilir.
Farklı bilimsel disiplinlerin doğuşu
Mahremiyeti koruyan veri madenciliği (“Privacy Preserving
Data Mining”)
Mahremiyeti koruyan veri yönetimi (“Privacy Preserving
Data Management”)
Veri Madenciliği ve Yönetimi
Veri tabanları ve veri madenciliği çoğunlukla
bireyler hakkındaki verilerle ilgilidir
Veri madenciliği için kişisel verilerin uygulanacak
yöntemler için kullanıma açılması gerekir
Veri yönetimi
Ham veri bilgi
Verilerin ne kadarının, kime, ne zaman, hangi şartlarda
açılacağı konusundadır.
Bilimsel çalışmalar veri madenciliği ve yönetiminin
mahremiyeti koruyacak şekilde yapılmasının yolunu
bulabilir
Hukuksal ve diğer boyutlar (sosyal, ahlaki vb.) hariç
Hukuksal Düzenlemeler
Birçok firma, kurum ve kuruluş kişisel veriler toplar
Yasal düzenlemeler
Büyük hacim yüksek hesaplama ve saklama kapasitesi
Korunması güvenlik
Kullanımı, faydaya dönüştürülmesi veri madenciliği ve
yönetimi
Firmalar, kurum ve kuruluşlar veriler üzerindeki hak ve
bunların mahremiyeti ile ilgili yükümlülüklerini bilmek
isterler
Bağımsız bir otorite
Uygulanan koruma yöntemlerinin yasal düzenlemeyle
uyumlu olup olmadığını kontrol eder.
Büyük Resim
Bilimsel/Teknik
Uzmanlık
Veri
Yasal Düzenlemeler
Veri işleme
Veri Koruma
Otorite
Fayda
Tasarım Parametresi olarak Mahremiyet
Privacy by Design
1.
2.
3.
4.
5.
6.
7.
Önleyici olmak (Tepkisel ya da düzeltici değil)
Mahremiyet standart (default) bir özellik olmalı
Mahremiyet tasarım sürecinin ayrılmaz bir parçası olmalı
Kazan-Kazan yaklaşımı
Yasal ve makul tüm talepler karşılanmaya çalışılmalı
Baştan sona koruma
Verinin sisteme girişinden, çıkışına/yok edilmesine kadar
koruma
Görünürlük ve açıklık
Kullanılan teknikler, yöntemler verilen taahhütlere uygun,
denetime açık olmalı
Kullanıcı odaklı
İstendiğinde en kuvvetli koruma yöntemlerini kullanabilme
MODAP: Kısa Tanıtım
1 Eylül 2009 tarihinde başladı
Süre: 36 Ay
MODAP
Projeye Genel Bakış
CA yani yeni bir oluşum için koordinasyon aktiviteleri
Amaç mobil veri madenciliği ve mahremiyet
konularındaki araştırmaları koordine etmek
Bu amaçla bilişimcilerin yanı sıra sosyal bilimciler ve
endüstride de geniş kitlelere ulaşmak.
MODAP
Projenin Amaçları
Farkındalığın arttırılması,
Mahremiyeti koruyarak mobil veri madenciliği
yapılmasına imkan tanıyacak teknik altyapının
sağlanması
Gerekli yasal düzenlemelere temel olabilecek
tartışmaların yapılabileceği bir platform oluşturmak.
MODAP Paydaşları
Sabanci Universitesi (Koordinatör)
Fraunhofer IAIS
CNR - Area Della Ricerca di Pisa
Wind Telecomunicazioni SpA
Hasselt University
EPFL - Ecole Polytechnique Fédérale de Lausanne
Université de Lausanne
University of Piraeus Research Centre
Alterra B.V.
National & Kapodistrian University of Athens
University of Milan
Teknoloji ve Veri Toplama
MODAP
Projeye Genel Bakış
GPS ve GSM verileri uzun zamandır toplanmakta
Mobil davranış izlenebilmekte
MODAP First Review
Meeting,
Yapılmak İstenenler
Mobil Veri Madenciliği : Olanaklar
Mobil Veri Madenciliği : Riskler
Veri daha çok insanla ilgilidir (nerede, kiminle, ne zaman,
hangi sıklıkla oldukları, vb).
Mobil Veri Madenciliği tam anlamda kullanılmadan
önce mahremiyet konusu çözümlenmelidir.
İnsanların mobil davranışlarıyla ilgili mahremiyet
riskleri henüz tam olarak tartışılmamıştır.
Mobil veri madenciliğinde ilerlerken veri toplama ve
yayınlamada mahremiyet ölçümleri ve standartları
oluşturulmalıdır
MODAP
Öncesi
MODAP projesi, daha önceki GeoPKDD (Geographic
Privacy-aware Knowledge Discovery and Delivery) adlı
AB 6. Çerçeve Projesinin başarısı üzerine kurulmuştur
MODAP
GeoPKDD
MODAP: Hedef
Teknik ve teknik olmayan kişiler arasındaki boşluğu
ortadan kaldırmak
MODAP
Sonuç
Mahremiyeti koruyan yöntemler sistemin
genel güvenilirliğini artırıcı bir yaklaşımdır.
Teknik uzmanlar
Veri koruma otoritesi
Var olan yasal düzenlemelerle uyumlu teknik
isterlerin/gereksinimlerin belirlenmesi
Denetim
Danışma
Bilimsel/teknik bilgi birikimi
Sakıncalı durumların belirlenmesi
Yeni koruma yöntemlerin bulunması
Farkındalık yaratılması