Data explosie

Zo veel data, hoe snappen we daar nog iets van?

wikipedia-logo-en-big-200x244 Data explosieWalMart verwerkt per uur meer dan 1 miljoen klantentransacties en vult daarmee databases van meer dan 2,5 petabytes. Facebook bevat op dit moment meer dan 40 miljard foto’s en dat aantal groeit iedere seconde. De Engelse Wikipedia bevat ruim 3,2 miljoen artikelen. Alle internationale Wikipedia’s tezamen bevatten meer dan 1.74 miljard woorden. Jongeren sturen soms meer dan 75 smsjes per dag, internet, televisie, mobiele telefoons zijn verweven in ons dagelijks leven.

Deze voorbeelden geven aan hoe groot de hoeveelheid data is die wij (als mensheid) dagelijks produceren. Sterker nog, sinds 2007 is de hoeveelheid data die wordt geproduceerd groter dan de beschikbare opslag.

Wetenschappers spreken inmiddels over ‘big data’ als nieuw fenomeen. Bedrijven als IBM, Google en Microsoft hebben de laatste jaren geïnvesteerd in de analyse en management van data.

Deze groei van data heeft een aantal verschillende oorzaken. Techniek is uiteraard de meest voor de hand liggende. Hoe meer computers, camera’s, sensors, mp3-spelers, etc. hoe meer data.

Een andere reden waarom data zo snel groeit, is het feit dat data eenvoudig te delen is. Data wordt gekloond, niet verplaatst. Dat wil zeggen dat als ik een foto naar een vriend stuur via het internet, we allebei een kopie van die data hebben. Stel je voor hoeveel data er dus per seconde via het internet wordt gedeeld.

Deze ontwikkelingen introduceren een groot probleem. Hoe zorg je er voor dat al deze data nog behapbaar blijft? Wat heb je aan 2.5 petabytes data, als het te veel is om überhaupt te bevatten?

Het is dus duidelijk dat met de groei van data, de behoefte om deze data begrijpbaar en inzichtelijk te maken evenredig gestegen is. En datavisualisatie is een van de methodes om dat te doen.

Datavisualisatie visualiseert ruwe data. Een visualisatie is dus een interpretatie van data door een ontwerper. Dat betekent dus dat een ontwerper van een visualisatie meer moet kunnen dan kortweg data door een soort vertaalmachine te halen.

Als ontwerper van een datavisualisatie zul je de data moeten begrijpen, een doel voor ogen hebben en een verhaal kunnen vertellen. En door deze vaardigheden toe te passen als ontwerper wordt data voor de lezer pas informatie. Als ontwerper moet je dus niet opstellen als ontwerper alleen, maar ook als journalist, statisticus en onderzoeker.

Behalve dat het nieuwe inzichten oplevert, levert het gelukkig ook mooie plaatjes op. Hieronder een drietal mooie voorbeelden:

Pulse of the Nation

‘Pulse of the Nation’ visualiseert het gevoel van Amerikanen door tweets uit Amerika over een periode van bijna 3 jaar te analyseren. Opvallend is het optimisme van de westkust en Florida ten opzichte van de rest van Amerika.

Top Secret America

top_secret_america Data explosie

Top Secret Amerika is een project over de enorme groei van allerlei veiligheids- en inlichtingendiensten. De Washington Post werkte meer dan 2 jaar aan een database met daarin een ontluisterend beeld van het post 9/11 Amerika. Goed voorbeeld van digitale onderzoeksjournalistiek trouwens.

Locals and Tourists

locals_and_tourists Data explosie

Locals and Tourists is een analyse van data van fotosite Flickr. Blauwe punten staan voor foto’s genomen door ‘Locals’, rode punten staan voor foto’s genomen door toeristen. Deze visualisaties geven een goed inzicht wat de populairste plekken in steden zijn en welke plaatsen alleen door locals worden gefotografeerd.

3 reacties op "Data explosie"rss-icon

Wat een flutartikel.  
 
Je hebt duidelijk alle 3 voorbeelden van informationisbeautiful.net en flowingdata.com, respectievelijk, klakkeloos overgenomen.  
 
Eerste zin: ‘en vult daarmee databases van 2.5 petabyte’. Per dag? Per jaar? 
 
Facebook bevat 40 miljard FOTO’S. Wikipedia telt 1.74 miljard WOORDEN. Hoe kun je dit in dezelfde zin noemen; staat toch in geen enkele verhouding tot elkaar?  
 
Daarnaast, is het niet zo dat data storage steeds goedkoper wordt? Op een micro SD kaartje ter grootte van mijn pinknagel passen enkele gigabytes. Kaartje kost een paar tientjes. Aan dit punt ga je compleet voorbij, Erik.  
 
Beste nrc.next, laat de zomerstagiair voortaan lekker kopietjes maken.

Antwoord

Het gaat om een database die momenteel 2,5 petabytes groot is. Ik ben het met je eens dat ik misschien wat vollediger had kunnen zijn in de eenheden.  
 
De verhoudingen van die de verschillende soorten data onderling maakt niet zoveel uit, het gaat er om dat het nog steeds onvatbaar veel data is. Het maakt dus niet uit hoe goedkoop opslag is, of wat voor data het is. 
 
De drie voorbeelden hebben op wel meer blogs gestaan dan degene die jij nu noemt. Waar het om gaat is dat het voor de gemiddelde nextlezer die niet met het onderwerp bekend is prima voorbeelden zijn. 
 
En papier kopiëren is toch hopeloos ouderwets?

Antwoord

Ik moet me hier helaas wel bij aansluiten. Leuk artikel, maar ik krijg het idee alsof de auteur weinig verstand heeft van dit onderwerp. Gelukkig snap ik het wel, dat heft elkaar weer op en maakt er een mooi artikel van. Zeer leuke plaatjes inderdaad.

Antwoord

Reageer