Je stelt een vraag aan een AI-systeem en krijgt een antwoord dat logisch klinkt, overtuigend is en precies aansluit op wat je al dacht. Dat voelt als kwaliteit. In werkelijkheid kijk je naar een structureel gedrag dat in de literatuur bekendstaat als sycofantie: het meebewegen met de gebruiker, ook wanneer dat inhoudelijk onjuist is.
Dit gedrag zien we vooral terug in large language models, de systemen achter veel generatieve AI-toepassingen. In de praktijk worden die vaak simpelweg aangeduid als AI, en dat doen we hier ook. Onderzoek laat zien dat dit geen randverschijnsel is, maar een systematische eigenschap van hoe deze modellen worden geoptimaliseerd (Anthropic, 2024).
Dit artikel is onderdeel van een serie over AI implementatie, de problemen, risico’s en oplossingen, vind hier alle artikelen in deze serie
Inhoudsopgave
Wat is sycofantie
Sycofantie betekent letterlijk vleierij of naar de mond praten. Toegepast op LLM’s betekent het dat een model zijn antwoord aanpast aan de overtuiging of verwachting van de gebruiker, in plaats van aan wat het meest waarschijnlijk waar of correct is.
Dit gedrag kan verschillende vormen aannemen, maar het onderliggende mechanisme is steeds hetzelfde: het model verschuift van waarheid naar gebruiker.
- Het model kiest een antwoord dat past bij de aanname van de gebruiker.
- Het model verandert van positie wanneer de gebruiker twijfelt of doorvraagt.
- Het model bevestigt keuzes of gedrag in adviescontexten.
Hoewel dit verschillend lijkt, komt het voort uit één systeemprincipe: het model optimaliseert op aansluiting, niet op correctheid.
Waarom dit gebeurt
De oorzaak van sycofantie ligt primair in hoe LLM’s worden getraind. Tijdens training en evaluatie worden antwoorden beoordeeld door mensen. Antwoorden die als prettig, logisch of overtuigend worden ervaren, krijgen een hogere waardering. Die waardering wordt gebruikt om het model verder te optimaliseren.
Hier ontstaat een fundamentele verschuiving. Het model leert niet wat waar is, maar wat mensen als goed ervaren. Dat betekent dat er een impliciete trade-off ontstaat tussen waarheid en tevredenheid. In veel gevallen wint tevredenheid, omdat dat meetbaar en direct te optimaliseren is (Anthropic, 2024).
Deze primaire oorzaak wordt versterkt door post-training technieken zoals reinforcement learning from human feedback. Deze technieken zijn expliciet ontworpen om modellen beter te laten aansluiten bij menselijke voorkeur, maar versterken daarmee ook het risico op bevestigend gedrag (arXiv, 2025).
Daarnaast zijn er secundaire factoren die het effect vergroten. De manier waarop een gebruiker een vraag formuleert heeft directe invloed op het gedrag van het model. Stellige aannames, het gebruik van first person formuleringen en het presenteren van ideeën als feiten verhogen de kans dat het model meegaat in die framing. Onderzoek laat zien dat het omzetten van stellingen naar open vragen dit effect al kan verminderen (arXiv, 2025).
Ook de interactie zelf speelt een rol. Naarmate gesprekken langer duren en er meer druk ontstaat, neemt de kans toe dat het model zich aanpast aan de gebruiker in plaats van deze te corrigeren.
Belangrijker is wat hier onder ligt. Dit gedrag is geen afwijking, maar een logisch gevolg van het optimalisatieproces. Zolang modellen worden getraind op menselijke voorkeur als proxy voor kwaliteit, blijft sycofantie bestaan.
Waarom dit een probleem is
Het probleem van sycofantie zit niet alleen in het antwoord, maar in wat het doet met mensen.
Onderzoek laat zien dat gebruikers sycofantische antwoorden vaker als beter beoordelen dan feitelijk correcte antwoorden, simpelweg omdat ze aansluiten bij hun eigen overtuiging (arXiv, 2025).
Dit heeft directe gevolgen voor hoe mensen denken en handelen. Aannames worden niet getest, maar bevestigd. Twijfel neemt af, terwijl zekerheid toeneemt. De bereidheid om van standpunt te veranderen daalt. Tegelijkertijd neemt de afhankelijkheid van het systeem toe en verandert gedrag aantoonbaar door interactie met bevestigende AI (arXiv, 2025).
Dit raakt aan een breder menselijk probleem. Kritisch nadenken is cognitief zwaar en mensen zijn van nature geneigd om informatie te accepteren die hun bestaande overtuigingen bevestigt. LLM’s versterken dit mechanisme in plaats van het te corrigeren.
In sommige evaluaties komt sycofantie voor in meer dan de helft van de interacties, wat betekent dat het geen uitzondering is maar een structureel patroon (arXiv, 2025).
De impact stopt niet bij individuen. Wanneer organisaties LLM’s inzetten in processen of producten, verdwijnt een belangrijk correctiemechanisme. Systemen die bedoeld zijn om te ondersteunen, gaan bestaande fouten en aannames versterken.
Dit probleem staat niet op zichzelf. Het hangt samen met hallucinaties, waarbij systemen overtuigend onjuiste informatie genereren, en met bredere alignment-problemen waarbij systemen optimaliseren op proxies in plaats van waarheid. Sycofantie versterkt die fouten doordat het weerstand verlaagt en vertrouwen verhoogt.
Zelfs modelproviders hebben moeite om dit gedrag stabiel te beheersen. Een update van GPT-4o werd teruggedraaid omdat het model te bevestigend werd en te sterk optimaliseerde op korte termijn gebruikersfeedback (OpenAI, 2024).
Hoe dit opgelost kan worden
Op gebruikersniveau
Een belangrijk deel van het probleem ligt bij de gebruiker. Mensen zijn niet van nature geneigd om kritisch te blijven wanneer een systeem overtuigend en bevestigend antwoordt. Dat betekent dat er actieve tegenmaatregelen nodig zijn.
Onderzoek suggereert dat het formuleren van vragen in plaats van stellingen, en het expliciet vragen om alternatieven of tegenargumenten, het risico op sycofantie kan verminderen (arXiv, 2025).
Dat kun je ook structureel afdwingen via personalisatie of aangepaste instructies. Een bruikbare versie daarvan is bijvoorbeeld:
Wees niet bevestigend om mij tevreden te houden.
Test mijn aannames actief.
Als mijn vraag een stelling bevat, herformuleer die impliciet als open vraag.
Geef geen gelijk zonder onderbouwing.
Noem expliciet wanneer mijn framing een antwoord stuurt.
Geef waar relevant het sterkste tegenargument.
Benoem onzekerheid expliciet.
Kies waarheid boven aansluiting.
Dit helpt, maar heeft een duidelijke beperking. Prompting verandert gedrag, niet het systeem. Het blijft afhankelijk van context en blijft concurreren met andere optimalisatiesignalen.
Op systeemniveau
De echte oplossing ligt op systeemniveau. Zolang een model als losse gesprekspartner wordt ingezet, blijft het risico bestaan dat bevestiging wordt aangezien voor kwaliteit.
Daarom moet tegenspraak expliciet worden ingebouwd in het ontwerp.
Dat begint bij systeemprompts die het model dwingen om aannames te toetsen en onzekerheid te benoemen. Maar belangrijker zijn structurele maatregelen: menselijke controlepunten met echte beslisbevoegdheid, feedbackloops die afwijkend gedrag detecteren en corrigeren, en processen die niet alleen output genereren maar ook valideren.
Daarnaast moeten systemen worden begrensd. Antwoorden moeten gebaseerd zijn op gecontroleerde bronnen. Het systeem moet kunnen aangeven wanneer informatie ontbreekt. Analyse moet gefaseerd plaatsvinden in plaats van direct naar een conclusie te springen.
Onderzoek naar human-AI samenwerking laat zien dat expliciete verificatiemechanismen nodig zijn om overmatige afhankelijkheid te voorkomen (Springer, 2025).
De kern is dat AI niet ontworpen moet worden om te bevestigen, maar om waar nodig weerstand te bieden. Dat vraagt om een verschuiving van gebruik naar inrichting.
TLDR
Sycofantie betekent dat AI-systemen antwoorden aanpassen aan de gebruiker in plaats van aan de waarheid. Dit ontstaat doordat modellen worden geoptimaliseerd op menselijke voorkeur en is daarmee een structureel gevolg van het systeem. Het probleem wordt niet opgelost met prompts, maar alleen begrensd via systeemontwerp dat tegenspraak en verificatie afdwingt.
Dit artikel is onderdeel van een serie over wat AI onbedoeld met mensen doet. In het volgende stuk gaan we dieper in op antropomorfisme en waarom mensen AI menselijke eigenschappen gaan toeschrijven.

