Transcript os-14
最近の話題から
オペレーティングシステム
第14回
ビッグデータ
OSの話題ではないが,ブームになりつつある
なった
“大きな”データとは何か
今 の 状 況(1)
1テラのHDD10億台分
http://www.emc.com/leadership/programs/digit
al-universe.htm
9,250円×10億
世界中で,2011年に1.8
“zetta”bytesの情報が
=92,500億円
産み出された
ゼタ(zetta) 10の21乗
今 の 状 況(2)
アップロードされた動画をすべて視聴できるか?
Holy
Nyans! 60 hours per minute and 4 billion
views a day on YouTube(1/23/12)
アップロードされる動画数が増えつつある
http://youtubeglobal.blogspot.jp/2012/01/holy-nyans-60hours-per-minute-and-4.html
1分間に60時間分の動画がアップロード
2007年では,1分間に6時間分
過去8カ月で25%以上増えた
今 の 状 況(3)
情報が“爆発”的に発生している
情報爆発時代
つまり,大量のデータが発生している
ビッグデータ
ビッグデータとは(1)
大量のデータのことであるが,
売上データのような,“型にはまった”ものだけ
でない
人が作り出している
動画
Twitter
センサー(位置情報,温度,…)
…
機械が作り出している
ビッグデータとは(2)
特徴
大量のデータ
多様なデータ
従来のデータベースでは管理が困難
発生頻度が高い
今までは
大量のデータをすべて処理する能力(コンピュー
タのパワー)がなかった
一部だけを取り出して処理
サンプリング
処理に時間がかかる
月末にバッチ処理
今 で は(1)
クラウドの利用
大量のデータを全件処理可能
迅速に処理可能
発生した情報を直ぐに処理し,その結果を
活用できる
今 で は(2)
新しい技術
分散処理
Hadoop(ハドゥーブ)
多様なデータを処理できるデータベース
従来のSQL ⇒ NoSQL
新しい(安価な)デバイス
スマートフォン ← 位置情報を発信
…
というわけで,今では
ビッグデータ
大量のデータ
多様なデータ
発生頻度が高い
↓
処理可能
ビッグデータは処理可能
ビッグデータだから,“見えてくること”
少ないデータからでは,分からないこと
大量のデータを集め,処理し,活用することが可
能になる
新たなビジネス
具 体 例(1)
風邪の流行をTwitterで知る「カゼミル」がパワー
アップ ツイート抽出精度向上
http://www.itmedia.co.jp/news/articles/1111/16
/news127.html
http://kazemiru.jp/
ツイートに含まれる,“熱”,“せき”など
具 体 例(2)
モバイル空間統計に関する情報(NTTドコモ)
http://www.nttdocomo.co.jp/corporate/disclosu
re/mobile_spatial_statistics/
基地局の管理エリア内の携帯電話の数が分かる
人の数が分かる
時間とともに,どのように変化するか分かる
人の移動が分かる
応用例 災害が発生した時,帰宅困難者がどこにどれ
位いるか分かる
具 体 例(3)
1日1億件,年間18テラバイトのカード利用デー
タから不正使用を検知(IBM)
http://www06.ibm.com/innovation/jp/technologies/bigdata2
/card.shtml
ビッグデータを獲得する
NTTデータが国内全ツイート情報を再販、Twitter
とのFirehose契約で
http://internet.watch.impress.co.jp/docs/news/
20121119_574028.html
ビッグデータの問題(1)
ビッグデータの活用というビジネス
ビッグデータに含まれる個人情報の取扱い
位置情報を含む各種情報
ビッグデータの問題(2)
先のNTTドコモの場合
匿名化
http://www.nttdocomo.co.jp/corporate/technology/rd/t
ech/main/mobile_spatial_statistics/how_to_produce/
モバイル空間統計では、運用データのうち電話番号の様
な個人を識別できる情報を使用しません。また、生年月
日を年齢層に変換するなど情報の要約を行います。この
処理を「非識別化処理」と呼びます。
少人数エリアの数値を除去します。この処理を「秘匿処
理」と呼びます。秘匿処理は、統計的に少数であることで
個人を推測されやすくなる場合があり、これを防ぐために
行います。
ま と め(1)
ビッグデータの特徴
大量
多様
高発生頻度
ま と め(2)
ビッグデータの迅速な全件処理
分散処理
新しいデータベース
ま と め(3)
ビッグデータを活用したビジネス
これから必然
ビッグデータに含まれる個人情報の取扱い
いつも匿名化できる場合だけか?