Transcript Specifiche

CORSO DI BIG DATA Primo Progetto 25 marzo 2014 Si supponga di avere a disposizione un file di testo generato da un social network che contiene, per ciascun utente, una riga con il nome dell’utente seguito dalla lista dei suoi interessi, separati da uno spazio. Per esempio: mario sport cinema viaggi
anna cinema moda viaggi arte
......
(Il file può essere costruito autonomamente. E’ disponibile un progetto Java per la generazione automatica di un file con tale formato: http://torlone.dia.uniroma3.it/bigdata/DataGenerator.zip). Progettare e realizzare in MapReduce: 1. Un’applicazione in grado di generare, possibilmente in ordine decrescente, gli interessi di maggior successo seguiti dal numero di utenti interessati. Per esempio: sport 234
cinema 195
arte 44
...
2. Un’applicazione in grado di generare coppie di utenti, separati da virgola, con interessi comuni. Per esempio: mario,anna
mario,giorgio
...
3. (Facoltativo) Un’applicazione in grado di generare, per ogni coppia di utenti con interessi comuni, la lista degli interessi comuni. Per esempio: mario,anna cinema viaggi
mario,giorgio sport musica
...
Per ciascuna delle applicazioni bisogna illustrare in un documento: 





Una possibile implementazione MapReduce (commentata) in pseudocodice (qualunque) Il relativo codice in Java (da allegare al documento) Un test di uso con file di input di piccole dimensioni e di output (da allegare) Log di esecuzione su computer locale Log di esecuzione su AWS con sei istanze al massimo di tipo m1 o m3 di dimensione inferiore alla large Tabella e grafico dei tempi di esecuzione in locale e su AWS possibilmente con dimensione dell’input crescente Consegnare tutto entro il 16 aprile 2014 in un unico file compresso di formato a piacere sul sito moodle del corso disponibile all’indirizzo: http://moodle2.ing.uniroma3.it/moodle/. Per i gruppi con studenti che hanno già seguito GIW: realizzare le suddette applicazioni non con MapReduce ma con Apache Spark (http://spark.apache.org/) e/o Pig (http://pig.apache.org/).