Transcript 2013 Yahoo!
Big Data: I Microsoft ima slona za utrku Luka Lovošević, Antonio Faletar Microsoft Hrvatska Sadržaj Uvod u Big Data Pregled MS platforme Hadoop Demo Što je Big Data? Što je Big Data? Podaci koji su vam bitni, ali ih tradicionalnim alatima ne možete procesirati. VOLUME (Količina) VARIETY (Struktura) VELOCITY (Brzina, realtime) Izvori podataka Big Data algoritmi c Microsoft Big Data platforma Microsoft Big Data platforma Self-service BI alati Malo više o Hadoopu Što je Hadoop? Platforma za procesiranje velike količine podataka Apache, open source Google GFS i MapReduce Visoko skalabilan i distribuiran Commodity hardver Apache projekt Yahoo! 2013 2004 2006 2008 2010 2012 Enterprise Hadoop Hadoop arhitektura MapReduce MapReduce Primjer za MapReduce Alati za uspješno Hadoopiranje Pig Procesiranje i oblikovanje podataka ETL tool MapReduce Hive Strukturiranje podataka SQL sintaksa ODBC, Excel … MapReduce Mahout Biblioteka gotovih algoritama Strojno učenje (npr. clustering, recommendation, …) MapReduce HDInsight Programiranje u .NET-u Security, HA & management Podrška za virtualizaciju Integracija s Microsoft BI alatima Isto iskustvo za on-premise i cloud Demo Windows Azure HDInsight Hadoop 2.0 HortonWorks Stinger inicijativa Tez (interactive) vs. batch Streaming (Storm project), itd. Zaključak Big data trend Hadoop de facto standard Windows Azure HDInsight Open source Pitanja? Hvala!