Multicollineariteit is een statistisch concept dat regelmatig voorkomt in AI- en machine learning-modellen en kan leiden tot vertekende resultaten en interpretaties. In deze blog leg ik uit wat multicollineariteit is, waarom het een probleem kan zijn in voorspellende modellen en hoe je dit kunt aanpakken.
Wat is multicollineariteit?
Multicollineariteit treedt op wanneer twee of meer onafhankelijke variabelen in een statistisch model sterk met elkaar correleren. Dit betekent dat deze variabelen vergelijkbare informatie bevatten, wat het moeilijker maakt om te bepalen welk effect elke variabele afzonderlijk heeft op de afhankelijke variabele die je probeert te voorspellen. Hierdoor kunnen de schattingen van de modelparameters onbetrouwbaar worden, wat de voorspellingen van het model negatief beïnvloedt.
Een eenvoudig voorbeeld
Stel, je wilt het salaris van een werknemer voorspellen en je gebruikt de volgende kenmerken als inputvariabelen:
- Leeftijd
- Aantal jaren werkervaring
- De sector waarin iemand werkt
Deze variabelen noem je onafhankelijke variabelen, omdat ze allemaal een invloed kunnen hebben op de afhankelijke variabele, in dit geval het salaris. Maar in dit voorbeeld kunnen leeftijd en aantal jaren werkervaring sterk met elkaar samenhangen. Immers, hoe ouder iemand is, hoe meer jaren werkervaring die persoon waarschijnlijk heeft. Dit zorgt voor een hoge correlatie tussen deze twee variabelen, wat een typische vorm van multicollineariteit is.
Waarom is multicollineariteit een probleem?
Als variabelen sterk met elkaar samenhangen, kunnen ze voor problemen zorgen in je model. Dit komt omdat het moeilijk wordt om te bepalen welke van de variabelen nu écht invloed heeft op de uitkomst. Het model kan hierdoor hele vertekende voorspellingen geven. In ons voorbeeld kan het gebeuren dat het AI-model onterecht de invloed van leeftijd overschat en de invloed van werkervaring onderschat, of andersom. Dit leidt tot een verminderde nauwkeurigheid en betrouwbaarheid van het model.
Hoe herken je multicollineariteit?
Je kunt multicollineariteit opsporen door gebruik te maken van de Variance Inflation Factor (VIF). Deze maat geeft aan hoeveel de variantie van een modelparameter toeneemt door de aanwezigheid van correlatie tussen de onafhankelijke variabelen. Als de VIF-waarde van een variabele groter is dan 5, dan heb je waarschijnlijk te maken met multicollineariteit.
Hoe los je multicollineariteit op?
- Verwijderen van een van de sterk correlerende variabelen
Als twee variabelen vrijwel dezelfde informatie bevatten, kun je overwegen om er één te verwijderen. In ons voorbeeld kun je bijvoorbeeld kiezen om ofwel leeftijd of aantal jaren werkervaring uit het model te halen. - Gebruik maken van PCA (Principal Component Analysis)
PCA is een techniek die de sterk correlerende variabelen omzet in nieuwe, niet-gerelateerde variabelen. Hierdoor behoud je de informatie, maar minimaliseer je het effect van multicollineariteit. - Het combineren van variabelen
In sommige gevallen kun je de variabelen combineren. Bijvoorbeeld door in plaats van leeftijd en aantal jaren werkervaring afzonderlijk te gebruiken, een nieuwe variabele te maken die de verhouding tussen de twee weergeeft.
Conclusie
Multicollineariteit kan de prestaties van je AI-modellen aanzienlijk beïnvloeden. Door bewust te zijn van dit probleem en het op te lossen met technieken zoals het verwijderen van overbodige variabelen, PCA, of het combineren van variabelen, kun je ervoor zorgen dat je modellen robuuster en betrouwbaarder worden.
Wil je meer leren over hoe je je AI-modellen kunt optimaliseren? Bekijk dan de video.