Big Data in de praktijk - KxA software Innovations

Download Report

Transcript Big Data in de praktijk - KxA software Innovations

Big Data in de praktijk
Kjeld v.d. Schaaf
Wat is “big data” eigenlijk?
Wat is Big Data eigenlijk?
De vier V’s
 Volume
 Velocity
 Variety
 Veracity
Complexiteit
•
•
•
•
samenhang
meetwijze
Compleetheid
domeinkennis
Big data is de toekomst
• “Follow the money” : instututionele beleggers doen al jaren big data
• De beloftes van data mining worden nu waargemaakt
• Een overvloed van data komt beschikbaar: auto, smartphone,
Big data is een hype
• Verwachtingen op top
• Tijd voor realisme
• Op naar meer zinvolle
toepassingen
Big data is fun
Big data is een groot problem
“big brother is watching you”
• Privacy problemen
• bewaren van gevoelige data
• Vinden van gevoelige patronen
• Willen we wel alles weten en
begrijpen?
Hoe kom ik aan “Big” Data
• Welke data heb ik al?
• Wat kan ik nog toevoegen?
• En wat zouden we er dan mee kunnen bereiken?
Ons eigen big data project
Big Data architecturen
“klassieke” big data architectuur trechters
Algemene Big Data architectuur
Big Data “trechters” met NPLEX
Big Data processing network met NPLEX
Het NPLEX platform
• data processing netwerken samenstellen
• mix van data bewerkingen, rekenen en opslag
• hybride datawarehouses
•
•
•
•
General purpose databases en bestandsformaten
Gespecialiseerde opslag
High performance opslag
Indexing naar hybride gedistribueerde opslag
• Streaming en real-time
• extreem efficiënt
En dan nu ons eigen big data project
Enkele voorbeeld projecten
• NDW historische gegevensbank (2011 - heden)
• Sensor City Assen (2008 - heden)
• Cattlecare (2012 - 2013)
• Nedtrain (2008 - heden)
Nationale Databank Wegverkeersgegevens
• 25 000 meetlocaties langs
nederlandse wegennet
• Historische gegevensbank vanaf 2010
• 450 000 000 000 meetpunten
• 120 TByte data
• Export “random” selecties in
seconden tot minuten
• SLA 24/7 met 99.9% beschikbaar
Op één server
Cattlecare
Zoeken naar aanwijzingen
voor naderende ziekte bij
koeien
De dataset
•
Moment van melking
•
Moment van voeren
•
De duratie van de melking
•
Voertype (vier verschillende voertypes)
•
De tussenmelktijd (de tijd tussen twee melkingingen van een specifieke koe)
•
Hoeveelheid voer
•
Maximale melksnelheid
•
Het voertegoed (waarschijnlijk “ParlourBalance”)
•
Gemiddelde melksnelheid
•
Proefmelkgegevens
•
Temperatuur van de melk
•
Kg melk per dag
•
Hoeveelheid melk in Kg
•
Vetgehalte
•
Conductiviteit van de melk: vier waardes per koe, een waarde per speen (het
zoutgehalte in de melk is een indicator voor eventuele problemen, zoals mastitis)
•
Eiwitgehalte
•
Dode melktijd: vier waardes
•
Celgetal
•
Rood-reflectie van de melk: Groen-reflectie van de melk Blauw-reflectie van de
melk Een algemene kleurwaarde
•
geïnterpoleerde buiten-temperatuur van de drie meest dichtbijzijnde weerstations
van het KNMI
•
windsnelheid
•
hoeveelheid zon
•
neerslag
•
luchtdruk
•
luchtvochtigheid
•
Behandelingen dierenarts
Gedurende 3 Jaren
complexiteit
Zoeken naar indicatoren voor het ziekworden
Intake en Opschonen
Opschonen en verrijken
• missing values
• Relateren aan lactatieperiode
• Filteren outliers
• missing values
• Defecte aparatuur
• Filters
• Aggregeren per dag
• Afgeleide variabelen
Statistische analyse
• ANalysis Of VAriance (ANOVA)
• Liniar Discriminant Analysis
• Lag Correlaties
Interpreteren met domeinexperts
Verbeteren onderhoud aan treinen
• Inbouwen van sensoren in passagierstreinen
• Meetperiode van ca 6 maanden
of speciale testritten
• Modelleren en inzicht in gedrag
• Zoeken naar verbeterpunten met Multi-Variate
Analyse
Living lab Assen
stad vol sensoren
• 200 meetnodes met sensoren
• Bluetooth, geluid, beeld,
stoplichten, klimaat
• projecten verkeer, soundscaping
Data management
voor living lab Assen





Reistijden uit Bluetooth
Verkeer tellen
NDW data feed
Visualisatie reistijden
Data exporters
o 2000 metingen per seconde
o 1 TByte per dag
o 15+ TB in datawarehouse
Big data is leuk
Big data is nuttig
Big data kan ècht