os-14

Transcript os-14

最近の話題から
オペレーティングシステム
第14回
ビッグデータ


OSの話題ではないが，ブームになりつつある
なった
“大きな”データとは何か
今の状況（１）



1テラのHDD10億台分
http://www.emc.com/leadership/programs/digit
al-universe.htm
9,250円×10億
世界中で，2011年に1.8
“zetta”bytesの情報が
＝92,500億円
産み出された
ゼタ（zetta） 10の21乗
今の状況（２）




アップロードされた動画をすべて視聴できるか？
Holy
Nyans! 60 hours per minute and 4 billion
views a day on YouTube（1/23/12）
アップロードされる動画数が増えつつある
http://youtubeglobal.blogspot.jp/2012/01/holy-nyans-60hours-per-minute-and-4.html
1分間に60時間分の動画がアップロード
2007年では，1分間に6時間分
過去8カ月で25%以上増えた
今の状況（３）

情報が“爆発”的に発生している

情報爆発時代

つまり，大量のデータが発生している
ビッグデータ
ビッグデータとは（１）

大量のデータのことであるが，
 売上データのような，“型にはまった”ものだけ
でない
人が作り出している
 動画
 Twitter
 センサー（位置情報，温度，…）
 …
機械が作り出している
ビッグデータとは（２）

特徴
 大量のデータ
 多様なデータ
 従来のデータベースでは管理が困難
 発生頻度が高い
今までは

大量のデータをすべて処理する能力（コンピュー
タのパワー）がなかった
 一部だけを取り出して処理
 サンプリング
 処理に時間がかかる
 月末にバッチ処理
今では（１）

クラウドの利用
 大量のデータを全件処理可能
 迅速に処理可能
 発生した情報を直ぐに処理し，その結果を
活用できる
今では（２）

新しい技術
 分散処理
 Hadoop（ハドゥーブ）
 多様なデータを処理できるデータベース
 従来のSQL ⇒ NoSQL
 新しい（安価な）デバイス
 スマートフォン ← 位置情報を発信
 …
というわけで，今では

ビッグデータ
 大量のデータ
 多様なデータ
 発生頻度が高い
↓
処理可能
ビッグデータは処理可能


ビッグデータだから，“見えてくること”
 少ないデータからでは，分からないこと
大量のデータを集め，処理し，活用することが可
能になる
 新たなビジネス
具体例（１）



風邪の流行をTwitterで知る「カゼミル」がパワー
アップツイート抽出精度向上
http://www.itmedia.co.jp/news/articles/1111/16
/news127.html
http://kazemiru.jp/
ツイートに含まれる，“熱”，“せき”など
具体例（２）

モバイル空間統計に関する情報（NTTドコモ）
http://www.nttdocomo.co.jp/corporate/disclosu
re/mobile_spatial_statistics/



基地局の管理エリア内の携帯電話の数が分かる
 人の数が分かる
時間とともに，どのように変化するか分かる
 人の移動が分かる
応用例災害が発生した時，帰宅困難者がどこにどれ
位いるか分かる
具体例（３）

１日１億件，年間１８テラバイトのカード利用デー
タから不正使用を検知（IBM）
http://www06.ibm.com/innovation/jp/technologies/bigdata2
/card.shtml
ビッグデータを獲得する

NTTデータが国内全ツイート情報を再販、Twitter
とのFirehose契約で
http://internet.watch.impress.co.jp/docs/news/
20121119_574028.html
ビッグデータの問題（１）

ビッグデータの活用というビジネス

ビッグデータに含まれる個人情報の取扱い
位置情報を含む各種情報
ビッグデータの問題（２）




先のNTTドコモの場合
匿名化
http://www.nttdocomo.co.jp/corporate/technology/rd/t
ech/main/mobile_spatial_statistics/how_to_produce/
モバイル空間統計では、運用データのうち電話番号の様
な個人を識別できる情報を使用しません。また、生年月
日を年齢層に変換するなど情報の要約を行います。この
処理を「非識別化処理」と呼びます。
少人数エリアの数値を除去します。この処理を「秘匿処
理」と呼びます。秘匿処理は、統計的に少数であることで
個人を推測されやすくなる場合があり、これを防ぐために
行います。
まとめ（１）

ビッグデータの特徴
 大量
 多様
 高発生頻度
まとめ（２）

ビッグデータの迅速な全件処理
 分散処理
 新しいデータベース
まとめ（３）

ビッグデータを活用したビジネス
 これから必然
 ビッグデータに含まれる個人情報の取扱い
 いつも匿名化できる場合だけか？

os-14

Transcript os-14

Directory