Terug naar artikelen// AI Fundamentals

Wat is multicollineariteit en waarom is het belangrijk te herkennen bij de toepassing van AI?

Multicollineariteit is een statistisch concept dat regelmatig voorkomt in AI- en machine learning-modellen en kan leiden tot vertekende resultaten en interpretaties. In deze blog leg ik uit wat multicollineariteit is, waarom het een probleem kan zijn in voorspellende modellen en hoe je dit kunt aanpakken.

Job van den Berg Gepubliceerd 3 oktober 2024 2 min lezen

Wat is multicollineariteit?

Multicollineariteit treedt op wanneer twee of meer onafhankelijke variabelen in een statistisch model sterk met elkaar correleren. Dit betekent dat deze variabelen vergelijkbare informatie bevatten, wat het moeilijker maakt om te bepalen welk effect elke variabele afzonderlijk heeft op de afhankelijke variabele die je probeert te voorspellen. Hierdoor kunnen de schattingen van de modelparameters onbetrouwbaar worden, wat de voorspellingen van het model negatief beïnvloedt.

Een eenvoudig voorbeeld

Stel, je wilt het salaris van een werknemer voorspellen en je gebruikt de volgende kenmerken als inputvariabelen:

Leeftijd
Aantal jaren werkervaring
De sector waarin iemand werkt

Deze variabelen noem je onafhankelijke variabelen, omdat ze allemaal een invloed kunnen hebben op de afhankelijke variabele, in dit geval het salaris. Maar in dit voorbeeld kunnen leeftijd en aantal jaren werkervaring sterk met elkaar samenhangen. Immers, hoe ouder iemand is, hoe meer jaren werkervaring die persoon waarschijnlijk heeft. Dit zorgt voor een hoge correlatie tussen deze twee variabelen, wat een typische vorm van multicollineariteit is.

Waarom is multicollineariteit een probleem?

Als variabelen sterk met elkaar samenhangen, kunnen ze voor problemen zorgen in je model. Dit komt omdat het moeilijk wordt om te bepalen welke van de variabelen nu écht invloed heeft op de uitkomst. Het model kan hierdoor hele vertekende voorspellingen geven. In ons voorbeeld kan het gebeuren dat het AI-model onterecht de invloed van leeftijd overschat en de invloed van werkervaring onderschat, of andersom. Dit leidt tot een verminderde nauwkeurigheid en betrouwbaarheid van het model.

Hoe herken je multicollineariteit?

Je kunt multicollineariteit opsporen door gebruik te maken van de Variance Inflation Factor (VIF). Deze maat geeft aan hoeveel de variantie van een modelparameter toeneemt door de aanwezigheid van correlatie tussen de onafhankelijke variabelen. Als de VIF-waarde van een variabele groter is dan 5, dan heb je waarschijnlijk te maken met multicollineariteit.

Hoe los je multicollineariteit op?

Verwijderen van een van de sterk correlerende variabelen
Als twee variabelen vrijwel dezelfde informatie bevatten, kun je overwegen om er één te verwijderen. In ons voorbeeld kun je bijvoorbeeld kiezen om ofwel leeftijd of aantal jaren werkervaring uit het model te halen.
Gebruik maken van PCA (Principal Component Analysis)
PCA is een techniek die de sterk correlerende variabelen omzet in nieuwe, niet-gerelateerde variabelen. Hierdoor behoud je de informatie, maar minimaliseer je het effect van multicollineariteit.
Het combineren van variabelen
In sommige gevallen kun je de variabelen combineren. Bijvoorbeeld door in plaats van leeftijd en aantal jaren werkervaring afzonderlijk te gebruiken, een nieuwe variabele te maken die de verhouding tussen de twee weergeeft.

Conclusie

Multicollineariteit kan de prestaties van je AI-modellen aanzienlijk beïnvloeden. Door bewust te zijn van dit probleem en het op te lossen met technieken zoals het verwijderen van overbodige variabelen, PCA, of het combineren van variabelen, kun je ervoor zorgen dat je modellen robuuster en betrouwbaarder worden.

Wil je meer leren over hoe je je AI-modellen kunt optimaliseren? Bekijk dan de video.

// Over de auteur

Job van den Berg

Mede-oprichter, AI Keynote Spreker & Techondernemer

Tech-ondernemer (1989) met een achtergrond als socioloog (BSc Sociologie en MSc Research Master Sociology and Social Research & Statistics, Universiteit Utrecht) en een van de meest gevraagde keynote sprekers over AI en data in Nederland. Als mede-oprichter van Ai.nl, The Automation Group en Proxies leidt hij engineers die agentic AI van prototype naar productie brengen binnen enterprises. Op het podium vertaalt Job die hands-on praktijk naar concrete strategieën. Eerder was Job Chief Data bij o.a. DPG Media en Kantar. Hij is co-auteur van 5 boeken over AI waaronder 'AI Agents' en 'Handboek AI Strategie' en een veelgevraagd expert in de landelijke media.

Wat is multicollineariteit en waarom is het belangrijk te herkennen bij de toepassing van AI?

Wat is multicollineariteit?

Een eenvoudig voorbeeld

Waarom is multicollineariteit een probleem?

Hoe herken je multicollineariteit?

Hoe los je multicollineariteit op?

Conclusie

Job van den Berg

Verder dan lezen — laat AI voor je werken.

AI Keynote boeken

AI Workshop op maat

AI Consultancy

Meer uit AI Fundamentals.

Waarom agentic AI niet per definitie goedkoper of efficiënter is dan menselijke arbeid

Memory Management: geheugen als cruciale sleutel voor jouw AI Agents

Betere output uit ChatGPT, Gemini en Claude? Stop met perfecte prompts — geef betere context

Blijf voor op AI.