De digitalisering van ons privé- en professionele leven zorgt er voor dat wij steeds meer sporen achterlaten. Smartphone, zoekmachine, sensoren, wearables, on- en offline transacties – het zijn signal generators. Computers worden steeds sterker en sneller. Dat moet ook wel willen zij het tempo bijbenen waarin data gegenereerd wordt. En er zit nog veel meer in het vat: internet of things, RFID (techniek om op afstand informatie op te slaan, bijv. op producten), groei mobiele apparaten. Tegelijkertijd worden organisaties steeds analytischer: meer en meer interne én externe bedrijfsprocessen worden in cijfers uitgedrukt om het management ervan, en besluitvorming erover, te optimaliseren. Tenslotte levert het combineren van data weer nieuwe (meta-) data op. Pffff… wie overziet het nog?
Maar Big Data is ook nuttig. Zonder lijstje op zaterdag je boodschappen doen omdat jouw super onthoudt wat er elke zaterdag in je winkelwagentje terecht komt. Net als vroeger de kruidenier op de hoek precies wist wat jij nodig had. En op basis daarvan ook bij jouw behoefte en smaak passende aanbiedingen en nieuwe producten aanbood. Hoe beter de match tussen jouw voorkeur en het special offer, hoe beter de retailer z’n (big) data-management onder de knie heeft.
Door uitgekiend voorraadbeheer sta jij zelden voor een leeg schap waardoor je de stad niet in hoeft in om ergens anders snel-snel dat flesje balsamicoazijn te halen. Ofwel: het op basis van uit allerlei bronnen afkomstige data in kaart brengen van consumentenprofielen, maakt het mogelijk om de consument zowel kwantitatief (is er genoeg?) als kwalitatief (is er wat ik zoek?) een geoptimaliseerd assortiment aan te bieden.
Of neem de verspreiding van griep. Big Data maakt het mogelijk om het verloop van epidemieën te voorspellen. Zodat tijdig passende maatregelen voor bepaalde risicogroepen kunnen worden getroffen. Dat dit niet altijd goed gaat, kwam Google Flu Trends in het bijzonder en Big Data in het algemeen op veel kritiek te staan. Door voorspellingen te baseren op een te smalle basis, werden te veel griepgevallen voorspeld.
Dat kwam aan het licht toen het door eerstelijns zorgverleners met de hand geturfde aantal besmettingen sterk afweek van het aantal geprognosticeerde griepgevallen (het schijnt dat het aantal keren dat Wikipedia op relevante zoekwoorden wordt geraadpleegd momenteel de betrouwbaarste indicator van griepverspreiding is. What’s next?).
Professioneel en strategisch datamanagement maakt het organisaties mogelijk om pro-actief te zijn. En dat biedt de consument vele voordelen. Maar wanneer verandert een pro-actieve klantbenadering in ‘marketing stalken’? Kijk maar eens of het nieuwste Engelstalige Ottolenghi-kookboek bij Amazon.com scherper is geprijsd dan de Nederlandse vertaling bij bol.com. Je gaat daarna in de sandwich met wekelijkse mailings over van alles en nog wat dat ook maar iets met koken te maken heeft.
Op de eerste dag dat Google eind mei het ‘Right to be forgotten’-formulier live zette, werd het 12.000 keer gebruikt. Met het formulier kunnen mensen de zoekmachine vragen om de link naar bepaalde online staande persoonlijke informatie niet meer in de zoekresultaten te presenteren. Google werd hiertoe onlangs verplicht door een vonnis van het Europees Gerechtshof. Het is een stap tegen het ongebreidelde gebruik van de enorme hoeveelheid op het web staande (big) persoonlijke data. De 12.000 ingevulde formulieren symboliseren het onbehagen dat leeft bij de consumenten over hoe met hun online persoonlijke data wordt omgegaan.
De uitglijder van Google Flu Trends verwijst naar een makke van het gebruik van Big Data. Namelijk dat de modellen waarmee de enorme hoeveelheid gegevens worden geïnterpreteerd (en als het ware pas nuttig worden gemaakt) niet altijd valide zijn. Nog een voorbeeld: de waarderingsmodellen waarmee talrijke hypotheken voorafgaande aan de financiële crisis van 2008 werden geïnterpreteerd en in gebundelde pakketjes werden verhandeld, gingen van verkeerde aannames uit. De gebruikte modellen waren niet valide. Toen omstandigheden veranderden, begon het systeem van banken te wankelen. De financiële crisis was een feit, waar wij nu nog de gevolgen van ondervinden. Ofwel; aan het gebruik van modellen om data te interpreteren en zin te geven kleeft risico, en daarmee is dus ook Big Data behept.
Het is te gemakkelijk om Big Data ‘goed’ of ‘fout’ te noemen. Veel online irritatie is bovendien simpel te vermijden door gebruik te maken van een historievrije zoekmachine (of die functie te activeren), cookie-instellingen of bijv. Firefox als browser te gebruiken. Daarnaast kan elk model – al is het nog zo valide – verkeerd gebruikt worden als mensen dat moedwillig doen. In die zin is Big Data ook gewoon ‘mensenwerk’. Het zou zonde zijn om de vele zegeningen die het ontegenzeggelijk heeft, hierdoor te laten overschaduwen.
Geschreven door John Poppelaars (ORTEC Consulting Group) en Jan Jongbloed.
De komende dagen op TPO Talk: the best of 2014. Deze blog verscheen eerder op 20 juli.