Meer en meer wordt de term ‘Big Data’ genoemd als enorme vooruitgang voor iedereen! Soms terecht, soms door een bedrijf om aan te geven ook innovatief bezig te zijn, maar ook als gevaar voor onze privacy en burgerrechten. In de IT staat Big Data vaak nog synoniem voor een ‘groot probleem’ om de omgang met enorme hoeveelheden data aan te duiden. Maar betekent Big Data nu Big Problems of vooral veel nieuwe mogelijkheden, mits je de problemen en valkuilen kent?
Iedere dag wordt een enorme hoeveelheid data gecreëerd. In tegenstelling tot een paar jaar geleden wordt bijna alle data tegenwoordig opgeslagen. Natuurlijk gedreven door de veel goedkopere kosten van dataopslag, maar nog meer door de winst die potentieel uit data te halen is. 90% van de data die wereldwijd nu is opgeslagen is afkomstig vanuit data, verzameld in de laatste twee jaar. Data kan werkelijk overal vandaan komen. Denk bijvoorbeeld aan:
- Data afkomstig vanuit navigatie apparatuur (auto, gps horloges etc.).
- Data afkomstig vanuit sociale media (twitter, facebook, whatsapp etc)
- Data afkomstig vanuit klimaatsensoren, luchtkwaliteitssensoren of satellietbeelden.
- Data afkomstig vanuit alle camera beelden (wegen, tunnels private gebouwen, vliegvelden etc.)
- Data afkomstig van online website en Apps (inclusief muisklikken door gebruikers uitgevoerd)
- Data opgeslagen door telecommunicatiebedrijven (GPS data, gespreksdata, kijkgedrag bij digitale televisie).
- Data vastgelegd bij chiptransacties (OV-chip, credit card, betaalverkeer etc)
Alleen al voor Nederland gaat het om een enorme hoeveelheid data wat dagelijks wordt gegenereerd én bewaard!
Big Data lijkt wel de nieuwe goudkoorts. We slaan alles op. Later zit er wellicht zeer waardevolle informatie tussen, wellicht verkregen door correlatie, waardoor een winst in harde euro’s te behalen is.
Big data kent in essentie drie dimensies:
- Big data komt in één maat: XXL. Veel ondernemingen spenderen enorm veel geld om alle data die ze verzamelen of ‘vangen’ op te slaan. Vaak met als doel om met behulp van analyses vanuit deze data uiteindelijk nog meer winst te maken.
- Big data komt snel binnen. Een hik in de opslag of verwerking van data kan ernstige gevolgen hebben. Denk aan het continue real time scannen van digitale beelden op gezichtsherkenning om de zoekgeraakte buurman op het vliegveld te kunnen herkennen. Of een poortje op een metrostation wat even niet open wil.
- Variëteit. Big data is vaak niet gestructureerd. Het kan tekst zijn, video, online klikgedrag, computerlogfiles,of bloeddrukwaardes bij medische sensoren.
Omgaan met Big data is meer dan een uitdaging. Het is een uitdaging om patronen te vinden in ongestructureerde data. Het real-time opslaan van enorme hoeveelheden per seconden is een technische uitdaging. Een probleem kan pas goed worden opgelost als echt duidelijk is welk probleem je nu daadwerkelijk wil oplossen. Dit geldt zeker voor ‘Big Data’ problemen.
In de IT worden Big Data problemen veelal opgelost met nosql databases. Om de voordelen van nosql en Big Data te kunnen toepassen is kennis van de traditionele wijze van opslag handig. Zeker om te kunnen beoordelen welk probleem nu daadwerkelijk met een nosql database wordt opgelost. De meeste veel gebruikte nosql databases komen vanuit het Open Source domein. Vaak gedreven door nieuwe bedrijven op de achtergrond. Een van de bekendere nosql database is MongoDB. Een technologie waarmee online snel veel data kan worden verzameld of getoond is NodeJS.
Op dinsdagavond 4 november 2014 a.s. vertel ik meer over MongoDB en NodeJS. Iedereen die wil komen is meer dan welkom! Het lijkt mij leuk je weer eens te ontmoeten en door te praten over dit onderwerp met elkaar. Zie de aankondiging op de NGI-NGN regio Oost pagina. Er is nog plaats en neem je laptop mee!