Wanneer heb je genoeg data?

Stel, ik heb laatst tien euro uitgegeven aan appels en peren. Appels zijn een euro per stuk en peren zijn twee euro per stuk. Hoeveel appels heb ik dan gekocht? Je weet dat ik er geen elf heb gekocht, tenminste als je gelooft dat ik werkelijk tien euro heb uitgegeven. Je weet ook dat ik een even aantal appels heb gekocht, anders was ik uitgekomen op een oneven bedrag. Het getal ligt dus ergens tussen tien en twee appels. Helaas is dat geen antwoord op mijn vraag.

In deze situatie heb je te maken met onvolledige informatie. Als je wist hoeveel peren ik had gekocht kon je ook iets zeggen over de appels. Dit is een bedachte situatie, maar ook in de werkelijkheid kan dit een groot probleem zijn voor onze kennis. De vraag die er achter schuilt is als volgt: wanneer weten we genoeg over een situatie om onze kennis te waarborgen? Natuurlijk kunnen we doorvragen over de definities van kennis en waarborgen, maar laten we dat voor nu achterwege laten. We hebben een idee over kennis en dat is, voor nu, genoeg. Echter mijn vraag blijft staan, wanneer klopt die kennis?

Gavagai en Quine
Die vraag over appels en peren komt in de realiteit vaker voor dan je denkt. Er is een flinke geschiedenis van scepticisme over de zekerheid van kennis. Descartes hield het voor mogelijk dat een al-wetende demoon ons voor de gek hield. Hume vroeg zich af hoe causatie werkte en of B werkelijk uit A volgde. Allemaal boeiende ideeën, maar ik wil mij richten op Quine.

Quine is een belangrijk filosoof uit de twintigste eeuw die ons wees ons op iets dat ondergedetermineerdheid heet. Stel, we komen een man tegen met een andere afkomst en hij spreekt een taal waar wij niets van weten. Een konijn springt langs en de man wijst ernaar. Daarna zegt hij: ‘Gavagai.’

Dus wat betekent ‘Gavagai’? Instinctief willen we misschien zeggen dat het ‘konijn’ betekent. De man wees tenslotte naar het konijn. Echter, wie zegt dat dit klopt? Het zou kunnen dat de achtergrond van de man heel anders is en dat hij uit een bijgelovige omgeving komt. Het zien van een konijn zou kunnen betekenen dat het gaat regenen vanavond. ‘Gavagai’ zou dus ook ‘het gaat regenen’ kunnen betekenen. Hij zou het ook over een specifiek deel van het konijn kunnen hebben, dat belangrijk is voor hem, om een voor ons onbekende reden. De reden dat wij denken dat hij ‘konijn’ wil zeggen is omdat het voor ons als een logische interpretatie voelt. Die ‘ons’ is essentieel. Wij maken namelijk aannames en interpreteren de data op een manier die afhankelijk is van onze context.

De vraag is nu: wat zei de man? En wanneer weet je zeker wat de man zei? Hoe moet je dit vertalen? Wanneer weet je genoeg? Alle theorieën over ‘Gavagai’ lijken in sommige opzichten equivalent, tenminste als je alleen kijkt naar de data. Je kunt dus niet een theorie kiezen zonder dat daar een aanname achter zit, en die had net zo goed iets anders kunnen zijn. Quine wees ons op een discrepantie tussen theorie en data.

Het probleem is ook niet zomaar opgelost, zelfs niet als je langer praat met de man. Als hij naar andere dingen wijst en andere woorden zegt krijg je misschien een klein handboek vol met woorden, toch biedt niets je zekerheid over de betekenis van die woorden. Het is daarmee vergelijkbaar met mijn vraag: ‘Hoeveel appels heb ik gekocht?’

Geloven in Big Data
Oké, leuk. Fijn dat de filosofie weer een probleem de wereld in heeft geholpen, maar mijn buurman zal niet zomaar in een rare taal gaan praten en wijzen naar konijnen. Bovendien weet ik sommige dingen toch gewoon? Ik weet hoe oud ik ben en waar ik leef. Ik weet hoe ik moet handelen in de meeste situaties. Dus waarom is dit relevant?

Ten eerste moeten we beseffen dat data niet de heilige graal is. We kunnen ons leven niet slechts baseren op data en de statistiek. De befaamde uitspraak: ‘correlatie impliceert geen causatie’ is hier van toepassing. Toch lijken we dat steeds meer te doen. De wereld van AI wordt, momenteel, geregeerd door statistische machines. Machines die dus data gebruiken om te bepalen wat de juiste beslissing is. Big Data, Machine Learning, noem het maar op, al die dingen gaan over het gebruik van data om te bepalen wat de waarheid is, of welke kennis gewaarborgd wordt. Zulke machines proberen dus eigenlijk antwoord te geven op onze vraag over hoeveel appels ik heb gekocht, zonder dat ze weten hoeveel peren ik heb.

Ten tweede moeten we accepteren dat data zelf en dit soort algoritmes nooit in absolute waarheden kunnen spreken. Al deze machines hebben onderliggende aannames en die lijken misschien goed te werken, maar dat is afhankelijk van hoe wij de data hebben verzameld en geïnterpreteerd. Ze zijn getraind op een model dat fundamenteel fout kan zijn. Net als bij ‘Gavagai’ weten ze echter niet de achterliggende realiteit. Dit is een beangstigend idee, want we raken steeds meer gebonden aan zulke machines. Alle Big Tech is afhankelijk van zulke modellen en datasets, dus willen we het erop wagen dat ze fout zitten?

Met dat in ons achterhoofd zie ik twee wegen. Afstand doen van de statistiek, óf de discrepantie tussen de data en theorie begrijpbaar maken. Persoonlijk ben ik voor de eerste weg, maar ik zie ook in dat de kans dat zoiets radicaals gebeurt extreem onwaarschijnlijk is. In het tweede geval zal Machine Learning nuttig blijven, maar moet er wel een addendum bij: we moeten duidelijk maken dat de machine slechts een van de vele mogelijke modellen heeft geleerd dat de realiteit kan verklaren.

Dit item is geschreven door Sietze van schrijverscollectief Kaf.