Wat is ‘context rot’ en hoe voorkom je het?
Je vertelt een chatbot aan het begin van het gesprek dat je in Amsterdam woont. Twintig vragen later vraagt het systeem in welke stad je woont. Of een AI-assistent beveelt een product aan dat al twee jaar uit productie is. Of een klantenservice-chatbot citeert een retourbeleid dat vorig jaar is aangepast. Dit zijn allemaal symptomen van context rot, een nieuw probleem dat AI-systemen op twee manieren treft: technisch door aandachtsverlies bij lange gesprekken, en inhoudelijk door verouderde kennis in elke laag van het systeem.
Context rot ondermijnt betrouwbaarheid op momenten dat gebruikers vertrouwen op nauwkeurigheid. Een juridisch advies gebaseerd op oude wetgeving. Een troubleshooting-script dat verwijst naar software-versies die niet meer bestaan. Een productconfigurator die opties toont die al maanden niet leverbaar zijn. Begrijpen waar context rot ontstaat en hoe je het voorkomt, bepaalt of je AI-implementatie waarde levert of frustratie veroorzaakt.
Technische context rot: verdunde aandacht bij lange gesprekken
Large language models werken met een attention mechanism dat elk nieuw woord vergelijkt met alle voorgaande woorden in het gesprek. Bij honderd woorden is dat behapbaar. Bij duizend woorden wordt het lastig. Bij tienduizend woorden raakt de aandacht verspreid over zo veel informatie dat cruciale details verdwijnen in de ruis. Onderzoekers noemen dit het “lost in the middle” probleem.
Stel je werkt met een AI-assistent die een lang document analyseert. Relevante informatie aan het begin wordt goed opgepikt. Details aan het einde ook. Maar cruciale feiten die halverwege staan, mist het model systematisch. Niet omdat die informatie er niet is, maar omdat de attention budget verdeeld wordt over duizenden andere woorden en de focus op het midden verloren gaat.
In praktische toepassingen zie je dit terug in gesprekken met verschillende interacties (“multi turn“). Een gebruiker start een support-chat, legt het probleem uit, beantwoordt vervolgvragen en krijgt een tijdelijke oplossing. Vijftien berichten later vraagt de chatbot opnieuw naar basale informatie die aan het begin al is genoemd. Het model heeft letterlijk de draad verloren omdat de conversatiehistorie te lang is geworden.
RAG-systemen kampen met hetzelfde. Je stelt een vraag, het systeem haalt vijftig relevante passages op uit de kennisbank en stopt die allemaal in de context. Het model moet door die berg tekst zoeken naar het antwoord, en naarmate die berg groter wordt, daalt de nauwkeurigheid. Onderzoek toont aan dat accuracy kan dalen van zeventig procent naar vijfenvijftig procent puur door positie-effecten, zonder dat de kwaliteit van informatie verandert.
Data-veroudering: kennisverval door de lagen heen
De tweede vorm van context rot is stiller maar even schadelijk. Het speelt zich af in elke laag van je AI-stack, van het foundation model tot de prompt die je vandaag schrijft. En het begint bij pre-training.
Foundation models leren tijdens pre-training wat de wereld is op basis van miljarden documenten. GPT-4 werd getraind op data tot begin 2023. Claude Sonnet 4 tot januari 2025. Die trainingsdata bevat feiten, procedures en kennis die op dat moment waar waren. Bedrijven die sindsdien zijn gefuseerd, producten die zijn gelanceerd, wetten die zijn aangepast – dat alles ontbreekt. Vraag je een model getraind op 2023-data naar gebeurtenissen uit 2024, dan hallucinateert het of geeft toe het niet te weten.
Fine-tuning voegt een nieuwe laag toe, maar introduceert ook een nieuwe bron van veroudering. Een bedrijf fine-tunet een model op hun productcatalogus van 2023. Twee jaar later gebruikt het model dat nog steeds, terwijl de helft van die producten is vervangen. Klanten krijgen antwoorden over artikelnummers die niet meer bestaan, prijzen die achterhaald zijn en specificaties die niet kloppen. Het model is uitstekend getraind, maar op verouderde werkelijkheid.
RAG-implementaties lijken dit op te lossen door actuele data on-demand op te halen. Maar ook daar sluipt veroudering in. Een kennisbank met beleidsdocumenten bevat versies uit 2021, 2022 en 2024. Het retrieval-systeem haalt ze allemaal op zonder onderscheid. Het model krijgt tegenstrijdige informatie en moet raden welke versie geldt. Zonder metadata die aangeeft welk document actueel is, kiest het vaak de meest uitgebreide of best geschreven versie, ongeacht of die nog geldig is.
Prompting is de laatste laag waar rot kan optreden. Een team schrijft instructies die verwijzen naar de nieuwe API-versie. Zes maanden later is die API alweer vervangen, maar de prompt niet aangepast. Of een script instrueert het model een specifiek proces te volgen dat inmiddels is herzien. De prompt zelf is verouderd en stuurt het model verkeerd, zelfs als onderliggende data actueel is.
Wat context rot niet is
Niet elke AI-fout is direct ook context rot. Hallucinaties waarbij een model zelfverzekerd feiten verzint, zijn inherent aan hoe LLMs werken. Ze voorspellen waarschijnlijke woorden, geen waarheid. Als een model beweert dat Parijs de hoofdstad van Spanje is, is dat geen context rot maar een fundamentele beperking. Het model heeft nooit geleerd die specifieke feitencombinatie en vult een gat met een plausibel klinkend antwoord.
Knowledge gaps zijn ook iets anders. Als je vraagt naar een obscuur Belgisch belastingverdrag dat nooit in trainingsdata zat, kan het model het niet weten. Dat is geen veroudering maar afwezigheid. Het is nooit geleerd, dus er is niets te vergeten of verouderen.
Slechte prompts lijken soms op context rot maar zijn gebruikersfouten. Vage instructies, tegenstrijdige eisen of onduidelijke context leveren slechte resultaten. Dat is geen rot maar slechte input. Een prompt die zegt “wees creatief” en tegelijk “volg het format exact” verwart het model, maar dat komt niet door verouderde kennis.
Model drift ontstaat wanneer API-providers hun modellen updaten zonder aankondiging. Output die gisteren werkte, faalt vandaag. Dat voelt als rot maar is leveranciersgedrag, geen contextprobleem. Je kunt het niet oplossen door context te beheren maar alleen door versies vast te pinnen of redundantie in te bouwen.
Inconsistente output door randomness in sampling hoort ook niet bij context rot. LLMs genereren niet deterministisch. Dezelfde vraag levert verschillende antwoorden op. Dat is inherent aan temperature-settings en sampling-strategieën, geen indicatie van veroudering of aandachtsverlies.
Oplossingen per laag
Technische context rot aanpakken begint bij het beperken van wat je in de context stopt. Lange documenten chunk je in behapbare secties. RAG-systemen filteren vooraf op relevantie in plaats van alles door te sturen. Samenvatten verkleint conversatiehistorie door oudere delen samen te vatten in plaats van letterlijk te herhalen. Bij multi-turn gesprekken extract je kernfeiten en gebruik je die als gecomprimeerde context.
- Positional bias vermijd je door belangrijke informatie aan het begin of eind van prompts te plaatsen, nooit in het midden. Sommige implementaties dupliceren cruciale instructies aan beide kanten. Anderen herstructureren documenten zodat antwoord-relevante passages bij elkaar staan in plaats van verspreid door de tekst.
- Pre-training kun je als gebruiker niet beïnvloeden. Je kiest een recenter model wanneer actualiteit cruciaal is. Voor stabiele domeinen waar kennis langzaam verandert, volstaan oudere modellen. Voor nieuwsanalyse of trend-detectie heb je het nieuwste nodig. Dat is een build-buy-partner keuze: accepteer wat leveranciers bieden of bouw zelf met open-source alternatieven.
- Fine-tuning vereist discipline. Stel hetrainingsschema’s in op basis van hoe snel je domein verandert. E-commerce met wekelijkse productlanceringen hertraint maandelijks. Juridische teksten met jaarlijkse wetgeving kunnen halfjaarlijks. Track wanneer het model begint te refereren aan verouderde informatie en pas de cyclus aan. Houd trainingsdata gedateerd zodat je weet wanneer het model voor het laatst is bijgewerkt.
- RAG-hygiene is cruciaal. Kennisbanken hebben metadata nodig: publicatiedatum, vervaldatum, versienummer. Retrieval-logica moet recentheid meewegen, niet alleen semantische match. Een document uit 2025 met zeventig procent relevantie kan beter zijn dan een perfecte match uit 2021. Implementeer verval-timers die oude documenten automatisch markeren voor review. Laat SME’s periodiek controleren of opgehaalde chunks nog actueel zijn.
- Prompt-management lijkt triviaal maar wordt vaak vergeten. Versioneer prompts zoals code. Leg vast wanneer een instructie is geschreven en wat de aannames waren. Review prompts elk kwartaal op verouderde verwijzingen. Als je schrijft “gebruik de nieuwe feature”, noteer welke feature en wanneer die nieuw was. Over zes maanden is dat contextueel waardeloos.
Recursive Language Models (RLM’s)
En er is hoop. MIT-onderzoekers ontwikkelden Recursive Language Models (RLM’s), een nieuwe aanpak voor enorme datasets die veel groter zijn dan wat huidige LLM’s aankunnen. In plaats van documenten rechtstreeks in het model te stoppen, slaat RLM de data op in een Python-omgeving en laat het LLM daar programmatisch doorheen navigeren door code te schrijven en sub-LLM-aanroepen te starten voor chunks. In tests verwerkte RLM tot 10 miljoen tokens – ongeveer 40 keer meer dan GPT-5’s context window van 272.000 tokens – met vergelijkbare prestaties en kosten. Het grootste verschil zit in complexe taken: waar GPT-5 bijna nul procent scoorde op cross-referencing tussen documenten, haalde RLM 58 procent. De techniek lost technische context rot op door data niet in één keer door het model te duwen, maar het model slim te laten zoeken naar wat het nodig heeft.
Context rot breekt het vertrouwen af
Context rot escaleert stilletjes. Eén verouderd document in een RAG-systeem veroorzaakt sporadische fouten. Vijftien procent verouderde chunks levert structureel verkeerde antwoorden. Een model dat halverwege gesprekken de draad verliest, frustreert gebruikers die steeds dezelfde vragen opnieuw moeten beantwoorden. Die frustratie vertaalt naar lagere adoptie, meer support-tickets en uiteindelijk verlaten van het systeem.
Voor zakelijke toepassingen zijn de risico’s groter. Juridisch advies op basis van oude wetgeving kan aansprakelijkheid creëren. Productaanbevelingen voor niet-leverbare items schaden klanttevredenheid. Troubleshooting-scripts die naar achterhaalde versies verwijzen, verspillen support-tijd. Context rot ondermijnt vertrouwen, en eenmaal verloren vertrouwen is moeilijk te herstellen.
De oplossing is geen eenmalige fix maar continu onderhoud. RAG-kennisbanken vereisen curation. Fine-tuned modellen moeten worden geüpdatet. Prompts moeten worden herzien. Technische context-management vraagt engineering-discipline. Bedrijven die AI als “set and forget” behandelen, zien prestaties eroderen totdat het systeem meer schade aanricht dan waarde levert. Bedrijven die context rot als beheersbaar risico behandelen en structureel aanpakken, behouden betrouwbare AI die blijft werken naarmate tijd verstrijkt.

Reacties