Vrees niet: De toekomst is aan de datanerds.
Rapleaf. Kent u dit bedrijf? Wellicht niet. Rapleaf zijn hardcore nerds, hun sollicitatieprocedure bestaat uit een resem ingewikkelde wiskundige vraagstukken. Echt ingewikkelde vraagstukken, want ze doen dan ook ingewikkelde dingen bij Rapleaf: zonder dat wij er veel erg in hebben, verzamelen ze alles wat ze over ons online gedrag te pakken kunnen krijgen, en combineren dat tot een profiel dat ten gelde gemaakt wordt door het organiseren van zeer gerichte banner campaigns voor adverteerders. Die kunnen met bijna laser-nauwkeurigheid de juiste banner in your face gooien, want Rapleaf weet namelijk alles van jou: jouw naam, jouw geslacht, jouw geloofsovertuiging, jouw favoriete spelletjes op Facebook, jouw sexuele voorkeur(en). Rapleaf's voornaamste klanten? De politieke partijen.
Hoe Rapleaf aan die data komt is op zich niet zo nieuw: ze sluiten deals met partner websites die een tracker cookie van Rapleaf gaan hosten. Big deal, zal u zeggen, maar anders dan vele andere slaagt Rapleaf er in om met die kleine stukjes informatie toch een zeer gedetailleerd profiel van jouw online not-so-alter ego op te bouwen, door ook zelf het internet te crawlen, en erg veel publiek toegankelijke data bij te houden, te combineren, te reduceren, op te waarderen en uit te sorteren, patronen te herkennen en verbanden te leggen. Rapleaf zijn datanerds pur sang, and they're onto something.
Wij zijn er op gekomen omdat we voor ons nieuw product, dat eindeloos-schaalbare content storage en search aanbiedt, voor dezelfde technologie gekozen hebben als Rapleaf, en met hen vele andere internet-grootmachten, zoals Facebook, Amazon, Yahoo! en ... Google. Het op het eerste zicht onschuldige olifantje Hadoop, de verzamelnaam voor een hele reeks open source BigData producten, staat symbool voor datanerd-nirvana, en biedt alle tools en mogelijkheden aan om petabytes (ja, dat zijn 1000 terabytes) aan data op een vlotte en efficiënte manier te verwerken. Een beetje slimme datanerd haalt met Hadoop uit die oceaan aan gegevens net die goudklompjes waar een adverteerder vlot geld voor over heeft.
Die data hoeft trouwens niet per sé cookie trails te zijn, je slaat er in op wat je zelf wil, en Hadoop biedt je een raamwerk, map/reduce genaamd, om ordentelijk door die databrij heen te gaan en er al dan niet zinvolle inzichten uit te distilleren. Wie dit zal doen voor jou? De datanerd, of data scientist, of data engineer, een hele reeks aan nieuwe profielnamen die momenteel opduiken bij internet startups over de hele wereld.
Datanerds fuseren de rekenkracht van gedistribueerde systemen met slimmigheden uit de statistiek, functional programming en toch-niet-zo-artificiële intelligentie, en zorgen er voor dat je op last.fm de juiste aanbevelingen krijgt die horen bij jouw muzieksmaak. Hun technologiekeuze? Ook alweer Hadoop. Netlog? Hadoop. Biotechnologie? Hadoop. Finance? Hadoop. Hadoop is everywhere, en zeker waar geld rondgaat.
Hadoop is een Apache open source project dat gegroeid is uit de inzichten van engineers van The Internet Archive, rond het opslaan en verwerken van -euh- het Internet quoi, en dat nu een vrije implementatie is geworden van een aantal wetenschappelijke papers van Google, die beschrijven hoe het Google File System, en Google BigTable in elkaar zitten. Die vrije implementaties heten intussen respectievelijk HDFS en HBase, en wij zijn alvast maar al te blij dat we zo'n twee jaar geleden redelijk resoluut voor die pijlers gekozen hebben voor onze nieuwe productlijn.
Maar toen wisten we nog niet wat ons nu overkomt: BigData is Big. Je hebt er heel veel data voor nodig, en toch wel slimme mensen. BigData luidt een omschakeling in: waar we vroeger het bijhouden van data, content, documenten, als een kost of zelfs als een last beschouwden, zien we nu data als een opportuniteit. Zelfs data waar we nu nog geen betekenis kunnen aan geven, ruwe logfiles, meetgegevens van fysische experimenten (u weet toch dat CERN voor zijn Large Hadron Collider ook BigData gebruikt?), we houden het allemaal bij, want ooit komt misschien een inzicht waarmee we betere patroonherkenning kunnen programmeren, waarmee we onze verzamelde berg data kunnen omturnen in online recommendations, friend finders, suggesties, targeted ads, en dat allemaal dankzij het gele olifantje.
The future is for datanerds. Gooi niks weg, want wat daarnet nog in de weg stond betekent straks misschien het verschil tussen break-even en Big Money. Het bedrijf Acquia, dat het open source project Drupal regisseert, haalde in zijn derde kapitaalsronde 8.5 mio dollar op. Cloudera, de marktleider in Hadoop, in diezelfde C-round 25 mio. Tel uit je winst.

