Transcript BigData
BIG DATA Informacioni sistemi Student: Nemanja Živković Mentor: prof. Milorad Tošić Teme kojima će se baviti ovo predavanje: Potreba za alternativom Šta je Big Data? Ko generiše i ko koristi Big Data? Karakteristike Big Data (veličina, kompleksnost, brzina) • Poteškoće • Trenutne tehnologije • Trenutno nerešivi problemi • • • • Potreba za alternativom • IBM – „Every day, we create 2.5 quintillion(1018) bytes of data — so much that 90% of the data in the world today has been created in the last two years alone.“ • U 2013 godini se u proseku svakog dana proizvelo više podataka nego za 2 dana u 2011. • Šta sa svim tim podacima? 640K ought to be enough for anybody. Šta je Big Data • „Big data“ su podaci čija količina, raznolikost i kompleksnost zahteva novu arhitekturu, tehnike, algoritme i analizu da bi manipulisali njima i izvukli informacije iz njih... Ko generiše i koristi Big Data? Socijalne mreže (svi mi proizvodimo Big Data) Senzori i mrežne tehnologije (merenje i prikupljanje različitih tipova podataka) Naučni instrumenti (sakupljanje raznih tipova podataka) Mobile devices (GPS) Možete li vi da se setite nekog primera? Ko generiše i koristi Big Data? Stari Model: Nekoliko firmi generiše podatke, ostali ih koriste... New Model: Svi generišemo podatke i svi ih koristimo... 6 Karakteristike Big Data • Veličina o Najveća prednost kod Big Data o Relacione baze podataka nisu pogodne za skladištenje i obradjivanje ogromne količine podataka o Očekuje se da će količina uskladištenih podataka u toku naredne decenije biti povećana čak 50 puta! • Kompleksnost o Danas podatke predstavljaju audio i video zapisi, fotografije, 3D modeli, kompleksne simulacije tako da se i način skladištenja podataka morao promeniti. • Brzina o Brzina kojom se podaci prikupljaju raste svakim danom tako da je neophodan brz način skladištenja i obradjivanja podataka Poteškoće • Neophodan je razvoj novih tehnologija kao i algoritama i tehnika. • Teško je izdvojiti zaista korisne podatke • Zaštita podataka je velika briga. • Potrebani su stručnjaci za rad sa Big Data sistemima. Trenutne tehnologije MapReduce • MapReduce je programerski model za obrađivanje velikih skupova podataka sa paralelnim distribuiranim algoritmom na klasteru. • Map() – procedura za mapiranje podataka (sortiranje i filtriranje) • Reduce() – procedura koja obavlja operaciju sumiranja • Popularna implementacija – Apache Hadoop MapReduce • Hadoop je open source framework za skladištenje i obradu skupova podataka korišćenjem klastera. • MapReduce – Data processing framework • HDFS – Hadoop Distributed File System koji obezbeđuje skladistenje podataka za obradu na klasterima • Amazon, Adobe, EBay, Facebook, IBM, Last.fm, LinkedIn, The New York Times, Yahoo! ... Preveliki problemi • Mapiranje mozga • Veštačka inteligencija • Praćenje svih aviona na svetu u realnom vremenu Možete li vi da se setite nekog primera? Teme za razmišljanje • Da li vi koristite Big Data u svakodnevnom životu? • Gde bi se mogli primeniti Big Data? • Gde će se primenjivati sa razvojem tehnologije? • Kako biste olakšali svoj život korišćenjem Big Data? HVALA NA PAŽNJI KRAJ