Transcript 2013 Yahoo!

Big Data: I Microsoft ima
slona za utrku
Luka Lovošević, Antonio Faletar
Microsoft Hrvatska
Sadržaj
Uvod u Big Data
Pregled MS platforme
Hadoop
Demo
Što je Big Data?
Što je Big Data?
Podaci koji su vam bitni, ali ih tradicionalnim alatima
ne možete procesirati.
VOLUME
(Količina)
VARIETY
(Struktura)
VELOCITY
(Brzina, realtime)
Izvori podataka
Big Data algoritmi
c
Microsoft Big Data
platforma
Microsoft Big Data platforma
Self-service BI alati
Malo više o Hadoopu
Što je Hadoop?
Platforma za procesiranje velike količine podataka
Apache, open source
Google GFS i MapReduce
Visoko skalabilan i distribuiran
Commodity hardver
Apache projekt
Yahoo!
2013
2004
2006
2008
2010
2012
Enterprise
Hadoop
Hadoop arhitektura
MapReduce
MapReduce
Primjer za MapReduce
Alati za uspješno
Hadoopiranje
Pig
Procesiranje i oblikovanje
podataka
ETL tool
MapReduce
Hive
Strukturiranje podataka
SQL sintaksa
ODBC, Excel …
MapReduce
Mahout
Biblioteka gotovih
algoritama
Strojno učenje (npr.
clustering,
recommendation, …)
MapReduce
HDInsight
Programiranje u .NET-u
Security, HA & management
Podrška za virtualizaciju
Integracija s Microsoft BI alatima
Isto iskustvo za on-premise i cloud
Demo
Windows Azure
HDInsight
Hadoop 2.0
HortonWorks Stinger inicijativa
Tez (interactive) vs. batch
Streaming (Storm project), itd.
Zaključak
Big data trend
Hadoop de facto standard
Windows Azure HDInsight
Open source
Pitanja?
Hvala!