統計法第2条12項

Download Report

Transcript 統計法第2条12項

匿名化の実社会での利用に向
けての技術課題
中川裕志
発表の骨子
技術検討ワーキングWG報告[佐藤2013](以
下では「報告書」と略記する.)が同年12月10
日に公表
パーソナルデータに関連する法制度に関して
は、日本は不十分であるとして、EUからはゲ
ノム情報などの有用な情報の輸入を禁止さ
れている
匿名化を現実社会で使うにあたっての技術
課題,制度設計について検討してみた
匿名化における基本概念
 個人データのレコード構造
– 個人ID(氏名)
– 疑似ID(性別、住所、年齢、国籍、など)
– その他のデータ
• センシティブ情報:その他の情報のうち、人種、宗教、病名、
収入など他人に知られたくない情報をセンシティブ情報とい
う。
 「特定」=「ある情報が誰の情報であるかが分か
ること」
 「識別」=「ある情報が誰か一人の情報であるこ
とが分かること」
完全な匿名化の不可能性
• データ業者Aのデータベースは疑似IDがk-匿名化され
ているが、個人の購買履歴も含まれていたとしよう。
• 一方別のデータ業者Bは購買履歴と、行動履歴(通勤
などの乗降駅)からなるデータベースを持っていたと
する。
• すると、データ業者Aのデータベースをデータ業者B
が入手すれば、購買履歴によって個人を一意に識別
でき、その個人の行動履歴を知ることができる。
 突き合わせに使う外部データベースを予見しきれない
以上、データ業者は疑似ID以外の全情報も合わせて
k-匿名化しなければならない。しかし、これによって
データベースの精度は劣悪化
FTC3要件
1. データ事業者はそのデータの非識別化を確保するた
めに合理的な措置を講ずるべき
2. データ事業者は、そのデータを非識別化された形態
で保有及び利用し、そのデータの再識別化を試みな
いことを、公に約束すべき
3. データ事業者が非識別化されたデータを他の事業者
に提供する場合には、それがサービス提供事業者で
あろうとその他の第三者であろうと、その事業者が
データの再識別化を試みることを契約で禁止
• ※個人を識別可能なデータと、ここで説明した非識別
化のための措置を講じたデータの双方を保有及び利
用する場合には、これらのデータは別々に保管すべき
• データ受領者=データ事業者が使う外部データ
ベースを予見することがますます難しくなってくる。
かくして、どのような危険性が存在するかを事前
に把握しきれない.
この状況においては、データ源の個人から同意をと
ることは難しくなってくる
 統計データだったらどうか?
• 統計法第2条12項 この法律において「匿名デー
タ」とは、一般の利用に供することを目的として
調査票情報を特定の個人又は法人その他の団
体の識別(他の情報との照合による識別を含
む。)ができないように加工したものをいう。
• この条文中の「識別ができないように加工」に
関して「匿名データの作成・提供に係るガイド
ライン」において、
•
– 1) 識別情報の削除、2) 匿名データの再ソート(配
列順の並べ替え)、3) 識別情報のトップ(ボトム)・
コーディング、4) 識別情報のグルーピング(リ
コーディング)、5) リサンプリング、6) スワッピン
グ 、7) 誤差の導入
• のような処理が列挙されているが、匿名化の
基準については、次のページのような記述
• 調査票情報の特性は統計調査ごとに異なる
ことから、各統計調査について一律に匿名化
の基準を設定することは困難である。このた
め、提供機関は、匿名化する統計調査ごとに
その特性を勘案し、一橋大学における匿名標
本データの試行的提供の事例及び諸外国の
統計機関における同様の提供の事例等を参
考に匿名化の基準となる値、例えば、最小値
が2件以下とならない等を定める。
• 技術的なことは何も言ってくれていない
匿名化が有力なケースの分析
• a.疑似ID(住所、年齢、性別などの典型的な
もの)の有無
• b.III.の「それ以外の情報」を収集しているこ
とが外部の第三者から観察できるかどうか
III.それ以外の情報
疑似ID無
疑似ID有
外部から観察不可能
-外観-擬ID
-外観+擬ID
外部から観察可能
+外観-擬ID
+外観+擬ID
-外観-擬ID
データ収集の有無も知られず、かつ疑似IDも
ないとなると、仮にデータが公開されても本人
特定は困難である。
k-匿名化はしていなくても特定はできない。
識別できる唯一の可能性は、本人のデータ自体
が一意的である場合、例えば10億円の宝石を購
入したなど。この場合は、トップコーディングのよ
うな既存の手法が有効である。
-外観+擬ID
データ収集の有無は知られていないので、識
別さらには特定の手がかりは疑似IDだけ
この場合は、疑似IDから識別特定されなけれ
ばよい
同じ疑似IDの人がk人以上いるように疑似
IDの精度を落とすk-匿名化が効果的
+外観-擬ID
 データ収集事象を外部から観察できると、収集されたデータが入
手できれば、疑似IDの有無にかかわらず、データと観察日時など
から本人特定が可能
 データ自体をk-匿名化すればよいのではないかというとそれも難し
い。
 なぜなら、長期にわたって収集されたデータが大きくなると、データ
自体の個別性が高まりk-匿名化が困難になる。
 つまり、k-匿名化によってデータの精度を大幅に落とさなければなら
ないが、そうなるとデータの価値自体が大きく下がってしまう。
 個人IDを仮名化し、その仮名化を1日単位など頻繁に取り替えるこ
とは有力
 同一の個人の行動履歴ではなくなるため、やはりデータの価値は下
がってしまう。
+外観+擬ID
この場合は、収集したデータと疑似IDを連結
したデータに対してk-匿名化を施す
前記の+外観-擬IDの場合よりもさらにデー
タの価値は下がってしまう。
以上をまとめると
外部からデータ収集していることを観察でき
る場合は、k-匿名化はデータの価値をさげる
ため、有力な匿名化手法ではない。
外部からデータ収集していることを観察でき
ない場合は、疑似IDがなければk-匿名化は
不要、疑似IDがあれば疑似ID を対象にしたk匿名化が有力となる。
センシティブ情報
 コアなセンシティブ情報:
 誰にとっても他人に知られたくない情報をコアなセンシ
ティブ情報とする。
 ゲノム情報、病気などの生体情報ないし健康情報、財産、債務、
学業成績、親族などがあげられ
 何を選ぶかは社会常識によるしかない。
 逆に言えば、その定義には社会常識程度の安定性はある。
 ところで、EUでは滞在場所の情報はセンシティブ情報を
超えて氏名と同じレベルの個人IDと見なすData
Protection Directive が昨年の欧州議会で可決
 日本では、滞在場所、移動履歴がどの個人IDなのかセン
シティブ情報なのかの議論すら進んでいない
状況依存センシティブ情報
上記の滞在場所や移動履歴がセンシティブ情報
かどうかは個人ごとに異なる。
例えば、ストーカー行為を受けている人にとっては、相
手に知られたくない情報なので、センシティブ情報であ
ろう。しかし、他人につきまとわれることのない人であ
ればセンシティブ情報ではない。
議論を簡単にするためにはEUのように個人IDとし
てしまうのもひとつの策
ただし、滞在場所や行動履歴はビジネスに役立つ情
報なので、できれば活用したいものである。
購買履歴も個人ないし状況依存
たとえば、薬剤の購入は場合によってはセンシティブ
情報になりうる。
k-匿名化が誘発する濡れ衣
名前
性別
住所
一郎
年
齢
35
男
文京区本郷XX
次郎
三子
四郎
30
33
39
男
男
男
文京区湯島YY
文京区弥生ZZ
文京区千駄木WW
仮名
年齢
性別
住所
A
30代
男
文京区
B
C
D
30代
30代
30代
男
男
男
文京区
文京区
文京区
N月M日P時の所
在
K消費者金融店
舗
T大学
T大学
Y病院
N月M日P時
の所在
K消費者金
融店舗
T大学
T大学
Y病院
自己情報コントロール権
 個人IDを消去ないし仮名化すること。
 さらに仮名の変更を頻繁に行うこと。
 この基礎的方策により、簡単には識別や特定ができなくなるので、必須であ
る。
 疑似IDはデータベース内に含ませないことをデフォールトとする
 疑似IDも必要な場合は、それだけをデータベースから分離して別のデータ
ベースとして、
 仮名化されている個人IDとの対応テーブルは暗号化などでさらに管理を厳
重化する。
 疑似IDが存在しなければ、個人の特定は難度が高い。
 自己情報コントロール権:




上記の方策でも、III.その他の情報が集積すると完全な匿名化は難しい。
その場合にはデータ源である個人が
自己の情報の利用され方を開示要求して閲覧できること、
消去要求でき実際の消去を確認できること
 が重要となる。
 自己情報の開示と消去の権利は2013年12月に欧州
議会で可決されたEUのData Protection Directiveの
Proposal for a directive Recital 16の改正案に記載され
ている
 日本の法制度をEUレベルにするなら必要な改革となる。
 データ利用についても同意内容が重要だが
 [Schornberger2013]の9章:
 ビッグデータの利用法は収集の前には予め列挙できない
こと,
 ゆえに利用法を指定しての同意取得は実効性がない
 データ源の個人に安心して同意してもらうためには、
個人IDの消去や仮名化に加え、上記の自己情報コン
トロール権(開示と消去)の実施が確実に行えることを
保証することが有効