AI Fundamentals

Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

Job van den Berg
Job van den Berg
July 8, 2024
2
min read
Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen
Niet alleen de kwantiteit maar ook de kwaliteit is belangrijk

Ongeveer 10 jaar geleden spraken we over ‘big data’ en de enorme hoeveelheden data die beschikbaar kwamen en hoe we deze moesten 'verwaarden'. Sindsdien zijn de hoeveelheden data explosief toegenomen: in de laatste twee jaar hebben we 90% van de totale hoeveelheid data verzameld, aldus Statista. En de groei is nog lang niet ten einde. Epoch.ai voorspelt zelfs dat we in 2026 alle beschikbare data hebben 'verbruikt'.

Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

Ongeveer 10 jaar geleden spraken we over ‘big data’ en de enorme hoeveelheden data die beschikbaar kwamen en hoe we deze moesten 'verwaarden'. Sindsdien zijn de hoeveelheden data explosief toegenomen: in de laatste twee jaar hebben we 90% van de totale hoeveelheid data verzameld, aldus Statista. En de groei is nog lang niet ten einde. Deze toename is enerzijds te danken aan ons internetconsumptiegedrag en anderzijds aan de toename in rekenkracht, wat de behoefte aan data vergroot én nieuwe data genereert. Dit heeft echter geleid tot een groot probleem: de kwaliteit van data neemt significant af en data van hoge kwaliteit worden steeds schaarser. Epoch.ai voorspelt zelfs dat we in 2026 alle beschikbare data hebben 'verbruikt'.

Het probleem van data schaarste

Vergelijk het met een gasvoorraad: als er meer gas wordt verbruikt dan geproduceerd, ontstaat er schaarste. Hetzelfde gebeurt nu met data, met een belangrijke nuance: er zijn voldoende data, maar het ontbreekt aan kwalitatief hoogwaardige en bruikbare data. Kwalitatief goede data worden schaarser en raken uitgeput. Maar hoe komt dit?

De oorzaken van data schaarste

Er zijn twee hoofdredenen voor de schaarste aan kwalitatief hoogwaardige data. Ten eerste, door de enorme toename van AI- en taalmodellen is de vraag naar data exponentieel toegenomen. Data zijn immers de brandstof voor AI. Ten tweede, de opkomst van synthetische data heeft de situatie verergerd. Synthetische data zijn door AI gecreëerde of afgeleide data, zoals door AI gegenereerde afbeeldingen of teksten. Deze data worden vaak gebruikt als trainingsdata voor AI-modellen, maar dit creëert een vicieuze cirkel. Als een taalmodel een fout antwoord geeft, kan deze output alsnog worden gebruikt voor (her)trainingsdoeleinden, wat de kwaliteit van de data en modellen verder kan verminderen.

De vraag naar unieke, hoogwaardige data

Er is een enorme vraag naar datasets met unieke, kwalitatief hoogwaardige data. Data die direct zijn verzameld op basis van menselijk gedrag in de fysieke wereld zijn hierbij essentieel. Voorbeelden hiervan zijn het uitgebreide foto- en filmarchief van de Britse omroep BBC, dat door techpartijen is benaderd voor toegang tot miljoenen opnames die nooit zijn uitgezonden. Deze beelden en geluidsopnamen zijn cruciaal voor de doorontwikkeling van AI-modellen zoals beeldgeneratoren DALL-E en Midjourney, en voor het trainen van AI-modellen om specifieke objecten te herkennen.

Data-partnerships

Een ander voorbeeld is de miljoenensamenwerking tussen Google en Universal Music, om toegang te krijgen tot alle geluidsopnamen en de rechten om deze te gebruiken. Dit is opnieuw gericht op het verkrijgen van kwalitatief hoogwaardige input voor de verdere ontwikkeling van AI-modellen, bijvoorbeeld voor spraakherkenning. Bedrijven die unieke data verzamelen, zullen de komende jaren veel geld kunnen verdienen met het verkopen van deze data. Het belang van goede data zal alleen maar toenemen, want AI werkt alleen optimaal als de data op orde zijn.

Het voorkomen van biases

Het is essentieel om biases in AI te voorkomen. Dit kan alleen met de juiste en kwalitatief hoogwaardige data. Biases ontstaan wanneer de data die worden gebruikt om AI te trainen, vooroordelen bevatten. Deze vooroordelen kunnen doorwerken in de AI-resultaten, wat kan leiden tot ongewenste en discriminerende uitkomsten. Door hoogwaardige, diverse en representatieve data te gebruiken, kunnen biases zoveel mogelijk worden geminimaliseerd.

Conclusie

De toekomst van AI hangt sterk af van de beschikbaarheid van kwalitatief hoogwaardige data. Terwijl de hoeveelheid data blijft groeien, neemt de kwaliteit af, wat een grote uitdaging vormt voor de ontwikkeling van betrouwbare AI-systemen. Het is cruciaal om te investeren in het verzamelen en behouden van hoogwaardige data, zodat we AI kunnen blijven ontwikkelen op een manier die nuttig en ethisch verantwoord is. Bedrijven die hierin slagen, zullen een belangrijke rol spelen in de toekomst van technologie en data-analyse.

Remy Gieling
Job van den Berg

Like the Article?

Share the AI experience with your friends