Live AI-nieuws
    Wingtech eist 8 miljard dollar van de Nederlandse staat om Nexperia-ingrijpenElon Musk en Sam Altman strijden in de rechtbank om de toekomst van OpenAINvidia heeft dit jaar al voor 40 miljard dollar aan AI-aandelenovernames toegezegdNieuwe reCaptcha-check werkt niet op Android-telefoons zonder Google-dienstenAI-beveiligingstool Mythos claimt onterecht vier kwetsbaarheden in curlSony overweegt AI-systeem dat gameplay knipt tot korte videoclips voor socialsGM betaalt 12,75 miljoen dollar in schikking om privacy van chauffeurs in CaliforniëSony en TSMC gaan gezamenlijk beeldsensoren producerenAnthropic wijt chantagepogingen van Claude aan 'slechte' AI-uitbeeldingenBig Tech wil chipmachines kopen voor SK hynix om geheugen te verzekerenTesla FSD na 15 mei in Nederland alleen nog beschikbaar als abonnementKoreaanse fabrikanten steunen Config om de TSMC van robotdata te worden
    Wingtech eist 8 miljard dollar van de Nederlandse staat om Nexperia-ingrijpenElon Musk en Sam Altman strijden in de rechtbank om de toekomst van OpenAINvidia heeft dit jaar al voor 40 miljard dollar aan AI-aandelenovernames toegezegdNieuwe reCaptcha-check werkt niet op Android-telefoons zonder Google-dienstenAI-beveiligingstool Mythos claimt onterecht vier kwetsbaarheden in curlSony overweegt AI-systeem dat gameplay knipt tot korte videoclips voor socialsGM betaalt 12,75 miljoen dollar in schikking om privacy van chauffeurs in CaliforniëSony en TSMC gaan gezamenlijk beeldsensoren producerenAnthropic wijt chantagepogingen van Claude aan 'slechte' AI-uitbeeldingenBig Tech wil chipmachines kopen voor SK hynix om geheugen te verzekerenTesla FSD na 15 mei in Nederland alleen nog beschikbaar als abonnementKoreaanse fabrikanten steunen Config om de TSMC van robotdata te worden
    Terug naar artikelen// AI Fundamentals

    Wat is multicollineariteit en waarom is het belangrijk te herkennen bij de toepassing van AI?

    Multicollineariteit is een statistisch concept dat regelmatig voorkomt in AI- en machine learning-modellen en kan leiden tot vertekende resultaten en interpretaties. In deze blog leg ik uit wat multicollineariteit is, waarom het een probleem kan zijn in voorspellende modellen en hoe je dit kunt aanpakken.

    Job van den Berg Gepubliceerd 3 oktober 2024 2 min lezen
    Wat is multicollineariteit en waarom is het belangrijk te herkennen bij de toepassing van AI?

    Multicollineariteit is een statistisch concept dat regelmatig voorkomt in AI- en machine learning-modellen en kan leiden tot vertekende resultaten en interpretaties. In deze blog leg ik uit wat multicollineariteit is, waarom het een probleem kan zijn in voorspellende modellen en hoe je dit kunt aanpakken.

    Wat is multicollineariteit?

    Multicollineariteit treedt op wanneer twee of meer onafhankelijke variabelen in een statistisch model sterk met elkaar correleren. Dit betekent dat deze variabelen vergelijkbare informatie bevatten, wat het moeilijker maakt om te bepalen welk effect elke variabele afzonderlijk heeft op de afhankelijke variabele die je probeert te voorspellen. Hierdoor kunnen de schattingen van de modelparameters onbetrouwbaar worden, wat de voorspellingen van het model negatief beïnvloedt.

    Een eenvoudig voorbeeld

    Stel, je wilt het salaris van een werknemer voorspellen en je gebruikt de volgende kenmerken als inputvariabelen:

    • Leeftijd
    • Aantal jaren werkervaring
    • De sector waarin iemand werkt

    Deze variabelen noem je onafhankelijke variabelen, omdat ze allemaal een invloed kunnen hebben op de afhankelijke variabele, in dit geval het salaris. Maar in dit voorbeeld kunnen leeftijd en aantal jaren werkervaring sterk met elkaar samenhangen. Immers, hoe ouder iemand is, hoe meer jaren werkervaring die persoon waarschijnlijk heeft. Dit zorgt voor een hoge correlatie tussen deze twee variabelen, wat een typische vorm van multicollineariteit is.

    Waarom is multicollineariteit een probleem?

    Als variabelen sterk met elkaar samenhangen, kunnen ze voor problemen zorgen in je model. Dit komt omdat het moeilijk wordt om te bepalen welke van de variabelen nu écht invloed heeft op de uitkomst. Het model kan hierdoor hele vertekende voorspellingen geven. In ons voorbeeld kan het gebeuren dat het AI-model onterecht de invloed van leeftijd overschat en de invloed van werkervaring onderschat, of andersom. Dit leidt tot een verminderde nauwkeurigheid en betrouwbaarheid van het model.

    Hoe herken je multicollineariteit?

    Je kunt multicollineariteit opsporen door gebruik te maken van de Variance Inflation Factor (VIF). Deze maat geeft aan hoeveel de variantie van een modelparameter toeneemt door de aanwezigheid van correlatie tussen de onafhankelijke variabelen. Als de VIF-waarde van een variabele groter is dan 5, dan heb je waarschijnlijk te maken met multicollineariteit.

    Hoe los je multicollineariteit op?

    1. Verwijderen van een van de sterk correlerende variabelen
      Als twee variabelen vrijwel dezelfde informatie bevatten, kun je overwegen om er één te verwijderen. In ons voorbeeld kun je bijvoorbeeld kiezen om ofwel leeftijd of aantal jaren werkervaring uit het model te halen.
    2. Gebruik maken van PCA (Principal Component Analysis)
      PCA is een techniek die de sterk correlerende variabelen omzet in nieuwe, niet-gerelateerde variabelen. Hierdoor behoud je de informatie, maar minimaliseer je het effect van multicollineariteit.
    3. Het combineren van variabelen
      In sommige gevallen kun je de variabelen combineren. Bijvoorbeeld door in plaats van leeftijd en aantal jaren werkervaring afzonderlijk te gebruiken, een nieuwe variabele te maken die de verhouding tussen de twee weergeeft.

    Conclusie

    Multicollineariteit kan de prestaties van je AI-modellen aanzienlijk beïnvloeden. Door bewust te zijn van dit probleem en het op te lossen met technieken zoals het verwijderen van overbodige variabelen, PCA, of het combineren van variabelen, kun je ervoor zorgen dat je modellen robuuster en betrouwbaarder worden.

    Wil je meer leren over hoe je je AI-modellen kunt optimaliseren? Bekijk dan de video.

    Job van den Berg — Mede-oprichter, AI Keynote Spreker & Techondernemer bij ai.nl

    // Over de auteur

    Job van den Berg

    Mede-oprichter, AI Keynote Spreker & Techondernemer

    Tech-ondernemer (1989) met een achtergrond als socioloog (BSc Sociologie en MSc Research Master Sociology and Social Research & Statistics, Universiteit Utrecht) en een van de meest gevraagde keynote sprekers over AI en data in Nederland. Als mede-oprichter van Ai.nl, The Automation Group en Proxies leidt hij engineers die agentic AI van prototype naar productie brengen binnen enterprises. Op het podium vertaalt Job die hands-on praktijk naar concrete strategieën. Eerder was Job Chief Data bij o.a. DPG Media en Kantar. Hij is co-auteur van 5 boeken over AI waaronder 'AI Agents' en 'Handboek AI Strategie' en een veelgevraagd expert in de landelijke media.

    LinkedIn
    // AAN DE SLAG// Hoe we kunnen helpen

    Verder dan lezen — laat AI voor je werken.

    // VERDER LEZENAlle artikelen

    Meer uit AI Fundamentals.

    Nieuwsbrief

    Blijf voor op AI.

    Eens per maand: cases, frameworks en concrete voorbeelden van wat werkt op de werkvloer. Geen ruis.

    Geen spam. Uitschrijven kan altijd.