Transcript BigData
BIG DATA
Informacioni sistemi
Student: Nemanja Živković
Mentor: prof. Milorad Tošić
Teme kojima će se baviti ovo predavanje:
Potreba za alternativom
Šta je Big Data?
Ko generiše i ko koristi Big Data?
Karakteristike Big Data (veličina,
kompleksnost, brzina)
• Poteškoće
• Trenutne tehnologije
• Trenutno nerešivi problemi
•
•
•
•
Potreba za alternativom
• IBM – „Every day, we create 2.5 quintillion(1018)
bytes of data — so much that 90% of the data in
the world today has been created in the last two
years alone.“
• U 2013 godini se u proseku svakog dana proizvelo
više podataka nego za 2 dana u 2011.
• Šta sa svim tim podacima?
640K ought to be
enough for
anybody.
Šta je Big Data
• „Big data“ su podaci čija količina, raznolikost i
kompleksnost zahteva novu arhitekturu, tehnike,
algoritme i analizu da bi manipulisali njima i izvukli
informacije iz njih...
Ko generiše i koristi Big Data?
Socijalne mreže
(svi mi proizvodimo Big Data)
Senzori i mrežne tehnologije
(merenje i prikupljanje različitih
tipova podataka)
Naučni instrumenti
(sakupljanje raznih
tipova podataka)
Mobile devices
(GPS)
Možete li vi da se
setite nekog primera?
Ko generiše i koristi Big Data?
Stari Model: Nekoliko firmi generiše podatke, ostali ih koriste...
New Model: Svi generišemo podatke i svi ih koristimo...
6
Karakteristike Big Data
• Veličina
o Najveća prednost kod Big Data
o Relacione baze podataka nisu pogodne za skladištenje i
obradjivanje ogromne količine podataka
o Očekuje se da će količina uskladištenih podataka u toku
naredne decenije biti povećana čak 50 puta!
• Kompleksnost
o Danas podatke predstavljaju audio i video zapisi,
fotografije, 3D modeli, kompleksne simulacije tako da se i
način skladištenja podataka morao promeniti.
• Brzina
o Brzina kojom se podaci prikupljaju raste svakim danom
tako da je neophodan brz način skladištenja i obradjivanja
podataka
Poteškoće
• Neophodan je razvoj novih tehnologija kao i
algoritama i tehnika.
• Teško je izdvojiti zaista korisne podatke
• Zaštita podataka je velika briga.
• Potrebani su stručnjaci za rad sa Big Data
sistemima.
Trenutne tehnologije
MapReduce
• MapReduce je programerski model za obrađivanje
velikih skupova podataka sa paralelnim
distribuiranim algoritmom na klasteru.
• Map() – procedura za mapiranje podataka
(sortiranje i filtriranje)
• Reduce() – procedura koja obavlja operaciju
sumiranja
• Popularna implementacija – Apache Hadoop
MapReduce
• Hadoop je open source framework za skladištenje i
obradu skupova podataka korišćenjem klastera.
• MapReduce – Data processing framework
• HDFS – Hadoop Distributed File System koji
obezbeđuje skladistenje podataka za obradu na
klasterima
• Amazon, Adobe, EBay, Facebook, IBM, Last.fm,
LinkedIn, The New York Times, Yahoo! ...
Preveliki problemi
• Mapiranje mozga
• Veštačka inteligencija
• Praćenje svih aviona na svetu u realnom vremenu
Možete li vi da se
setite nekog primera?
Teme za razmišljanje
• Da li vi koristite Big Data u svakodnevnom životu?
• Gde bi se mogli primeniti Big Data?
• Gde će se primenjivati sa razvojem tehnologije?
• Kako biste olakšali svoj život korišćenjem Big Data?
HVALA NA PAŽNJI
KRAJ