Transformers: waarom de T in ChatGPT het verschil maakt

1 maand geleden

ChatGPT eindigt op een T die voor de meeste gebruikers een voetnoot is. Die T staat voor Transformer, de architectuur die verklaart waarom kunstmatige intelligentie de afgelopen jaren zo explosief is verbeterd (en niet de gelijknamige auto’s die in robots veranderen). Zonder begrip van wat een transformer doet en waarom die architectuur werkt, blijft AI een zwarte doos. Begrip van transformers helpt je betere investeringsbeslissingen te nemen, realistische ROI-verwachtingen te stellen en kostbare vergissingen te vermijden bij AI-implementatie.

Dit artikel legt uit wat transformers zijn, hoe ze werken en waarom ze de basis vormen van vrijwel elke AI-tool die je vandaag gebruikt. Niet vanuit technische perfectie, maar vanuit zakelijk begrip: wat moet je weten om AI effectief in te zetten?

Het probleem dat transformers oplosten

Tot 2017 werkten de beste taalmodellen met een fundamentele beperking: ze verwerkten tekst opeenvolgend, woord voor woord, van links naar rechts. Net zoals jij deze zin leest. Die methode, gebaseerd op zogenaamde recurrente neurale netwerken, had een groot nadeel. Tegen de tijd dat het model bij het einde van een lange zin aankwam, was de informatie van het begin alweer vervaagd.

Stel je voor dat je een tekst moet samenvatten, maar je mag alleen steeds het huidige woord en een vage herinnering aan de vorige woorden gebruiken. Geen mogelijkheid om terug te bladeren, geen overzicht van de hele tekst. Dat lijkt op hoe die oude modellen werkten. Voor korte zinnen ging het nog wel, maar complexe teksten met lange afhankelijkheden bleven problematisch.

Een tweede probleem was snelheid. Omdat elk woord pas verwerkt kon worden nadat het vorige woord klaar was, duurde training eindeloos lang. Je kon het proces niet parallel uitvoeren, want woord vijf hing af van woord vier, dat afhing van woord drie. Voor grote datasets en complexe modellen was dit praktisch niet haalbaar.

De traditionele oplossingen probeerden het geheugen van deze modellen te verbeteren of slimmer om te gaan met lange teksten. Maar de fundamentele beperkingen bleven: sequentiële verwerking, beperkt overzicht en trage training. Transformers kozen een radicaal andere aanpak.

Attention is all you need

Het baanbrekende paper “Attention is All You Need” uit 2017 droeg de handtekeningen van acht Google-medewerkers: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser en Illia Polosukhin. De volgorde van hun namen was bewust willekeurig, want allen leverden een gelijke bijdrage. Het idee ontstond bij Jakob Uszkoreit, die vermoedde dat attention zonder recurrente netwerken voldoende zou zijn voor vertalingen. Die hypothese ging in tegen de gangbare opvattingen, zelfs zijn vader Hans Uszkoreit, een gerespecteerd computationeel linguïst, was sceptisch.

Ashish ontwierp samen met Illia de eerste modellen, Noam bedacht de scaled dot-product attention en multi-head attention, terwijl Niki talloze varianten ontwierp en testte. Het team werkte op één machine met acht NVIDIA P100 GPU’s en trainde hun basismodel in twaalf uur. De naam “Transformer” koos Jakob simpelweg omdat hij het woord mooi vond klinken. De titel was een knipoog naar de Beatles: all you need is Love. Geen van de acht auteurs werkt nu nog bij Google, ze richtten eigen bedrijven op of stapten over naar andere tech-giganten. Hun gezamenlijke inzicht veranderde AI fundamenteel en leidde tot ChaGPT.

Hoe transformers het anders doen

Een transformer kijkt naar alle woorden in een tekst tegelijkertijd. Niet één voor één, maar in één oogopslag. Dat klinkt simpel, maar het verandert alles. In plaats van te onthouden wat er eerder stond, berekent een transformer voor elk woord hoe belangrijk elk ander woord is voor de betekenis.

Neem de zin: “De bank aan de rivier was groen.” Het woord “rivier” vertelt je dat “bank” hier een zitplek betekent, niet een financiële instelling. Een transformer ziet die relatie direct, omdat hij alle woorden tegelijk analyseert. Hij hoeft niet te onthouden dat er drie woorden geleden “rivier” stond. Hij berekent gewoon: “bank” heeft een sterke relatie met “rivier”, dus de betekenis verschuift.

Dit principe heet attention, vaak vertaald als het aandachtsmechanisme. Voor elk woord berekent het model een score: hoe relevant is elk ander woord voor het begrijpen van dit woord? Die scores bepalen hoe het model de context interpreteert. Niet één vast geheugen, maar dynamische relaties tussen alle woorden in de tekst.

Het geniale is dat deze berekeningen parallel kunnen gebeuren. Alle woorden tegelijk analyseren betekent dat je massale rekenkracht kunt inzetten. Moderne GPU’s zijn gebouwd voor precies dit soort parallelle berekeningen. Waar training vroeger maanden duurde, kan het nu in dagen of weken, als je maar genoeg hardware hebt.

Wat attention precies doet

Het attention-mechanisme is geen alwetend systeem dat betekenis begrijpt zoals jij dat doet. Het is een rekentruc die patronen herkent. Voor elk woord maakt het model drie verschillende representaties: een vraag, een sleutel en een waarde. De vraag vertegenwoordigt wat het woord zoekt, de sleutel wat het woord aanbiedt, en de waarde wat het woord bijdraagt aan de betekenis.

Stel je een netwerkbijeenkomst voor waar iedereen een naamkaartje draagt met “ik zoek” en “ik bied”. Mensen scannen de ruimte, zien wie relevante expertise heeft en starten gesprekken met degenen die het beste aansluiten. Attention werkt vergelijkbaar: elk woord “scant” alle andere woorden, berekent welke het meest relevant zijn en weegt hun bijdrage aan de uiteindelijke betekenis.

Die berekening gebeurt niet één keer, maar in meerdere lagen en vanuit meerdere perspectieven tegelijk. Eén attention-mechanisme kan focussen op grammaticale relaties, een ander op semantische betekenis, weer een ander op lange-afstand afhankelijkheden. Deze multi-head attention geeft het model een rijker begrip van de tekst.

Het resultaat is een gelaagd begrip. De eerste lagen herkennen simpele patronen: woordvolgorde, grammatica, basiszinsbouw. Diepere lagen bouwen daarop voort: betekenisrelaties, context, implicaties. Aan het einde van die stapeling heeft het model een representatie van de tekst die ver voorbij individuele woorden gaat.

Waarom grootte ertoe doet bij transformer-modellen

De eerste transformer-modellen hadden honderden miljoenen parameters. Parameters zijn de instelbare onderdelen van het model, vergelijkbaar met knoppen op een equalizer. Hoe meer parameters, hoe genuanceerder het model patronen kan leren. GPT-3 sprong naar 175 miljard parameters. GPT-4 wordt geschat op meer dan een biljoen.

Die schaalvergroting is geen toevallige ontwikkeling. Onderzoek toont aan dat transformer-modellen verrassend voorspelbaar beter worden naarmate je ze groter maakt en op meer data pre-traint. Niet lineair, maar ook niet chaotisch. Binnen bepaalde grenzen geldt: dubbele grootte, betere prestaties. Dat maakt investeringsbeslissingen voorspelbaarder dan bij eerdere AI-benaderingen.

Maar grootte heeft een prijs. Training van de grootste modellen kost miljoenen aan rekenkracht. GPT-4 trainen vergde naar schatting tientallen miljoenen dollars aan cloudinfrastructuur. En dan heb je het foundation model klaar dat antwoorden kan genereren en als basis fungeert voor bedrijven om verder op te bouwen. Het daadwerkelijk draaien van zo’n model voor miljoenen gebruikers vraagt ook enorme infrastructuur.

Die kosten verklaren waarom OpenAI, Google en Anthropic enorme investeringen aantrekken (die niet altijd direct tot een ROI leiden waardoor er een AI-bubbel ontstaat) en waarom kleinere bedrijven niet zelfstandig vergelijkbare modellen kunnen bouwen. De technologie is openbaar, de architectuur is gepubliceerd, maar de middelen om het op grote schaal uit te voeren zijn voorbehouden aan een handvol partijen.

De limieten van attention (en transformer-modellen)

Attention heeft een fundamentele beperking: de rekencomplexiteit stijgt kwadratisch met de lengte van de tekst. Dubbel zo veel woorden betekent vier keer zo veel berekeningen. Voor korte teksten is dat geen probleem, maar voor lange documenten wordt het snel onhaalbaar en ontstaat er context rot. Daarom hebben de meeste modellen een maximale contextlengte. Die contextlengte bepaalt hoeveel tekst het model in één keer kan verwerken. Vroege versies van GPT-3 konden ongeveer 2000 woorden overzien. Recente modellen halen 100.000 woorden of meer. Maar zelfs die grotere context blijft een harde grens. Wil je een heel boek analyseren? Dan moet je het in stukken knippen of samenvatten.

Een tweede limiet is dat transformers niet echt begrijpen, ze herkennen patronen. Het verschil lijkt academisch, maar is praktisch cruciaal. Een transformer ziet dat na “de hoofdstad van Frankrijk is” meestal “Parijs” volgt. Niet omdat hij begrijpt wat een hoofdstad is of waar Frankrijk ligt, maar omdat dat patroon eindeloos vaak voorkomt in zijn trainingsdata.

Dat patroonherkennen verklaart waarom modellen soms vloeiend onzin produceren. Ze genereren tekst die lijkt op wat ze gezien hebben, zonder te controleren of het klopt. Hallucinaties ontstaan niet uit kwaadwilligheid maar uit het fundamentele werkingsprincipe: maximaliseer de waarschijnlijkheid van plausibel klinkende vervolgwoorden. Ook de tweaks die je nu ziet waarin een AI-model aangeeft het niet echt te weten, lossen nog niet het onderliggende probleem op.

Waarom transformers voorlopig blijven domineren

Sinds de introductie in 2017 zijn talloze varianten en verbeteringen op transformers ontwikkeld. Efficiëntere attention-mechanismen, slimmere trainingsmethoden, geoptimaliseerde architecturen. Maar het basisprincipe blijft hetzelfde: parallelle verwerking via attention. Elke nieuwe doorbraak bouwt voort op die fundering.

Die stabiliteit is uitzonderlijk in een veld dat zo snel evolueert. Normaal gesproken worden AI-architecturen binnen jaren vervangen door fundamenteel andere benaderingen. Transformers blijven dominant omdat ze schaalbaar zijn, omdat ze goed presteren op diverse taken en omdat de hele infrastructuur eromheen is gebouwd.

Ook multimodale modellen die tekst, beeld en geluid combineren bouwen op transformer-architectuur. De attention-mechanismen werken net zo goed voor pixels als voor woorden. Een afbeelding wordt opgedeeld in kleine blokjes, elk blokje wordt behandeld als een “woord”, en dezelfde attention-berekeningen bepalen welke blokjes relevant zijn voor elkaar.

Dit verklaart waarom één architectuur zo breed toepasbaar is. Het principe van “bereken welke onderdelen het belangrijkst zijn voor elkaar” werkt voor taal, beeld, code, muziek of welke sequentiële data dan ook. Die universaliteit maakt transformers waarschijnlijk nog jaren de standaard.

Wat dit betekent voor jouw AI-strategie

Begrip van transformers helpt realistische verwachtingen te vormen. Als je weet dat een model patronen herkent maar niet begrijpt, snap je waarom het soms verrassend domme fouten maakt. Als je weet dat contextlengte een harde limiet is, begrijp je waarom sommige toepassingen niet werken zoals je hoopt.

Het verklaart ook waarom de kwaliteit van prompts zo belangrijk is. Een transformer zoekt in jouw prompt naar patronen die lijken op patronen uit zijn training. Hoe duidelijker en specifieker je prompt, hoe beter het model kan matchen met relevante patronen. Vage instructies geven vage patronen, precieze instructies geven precieze patronen.

Voor bedrijven die AI willen inzetten betekent dit dat je kritisch moet blijven. Een transformer genereert plausibele tekst, geen gegarandeerd correcte tekst. Voor creatieve toepassingen, brainstormsessies of eerste concepten is dat prima. Voor juridische teksten, medische adviezen of financiële analyses is menselijke controle onmisbaar.

Het legt ook uit waarom je waarschijnlijk niet zelf een transformer gaat trainen. De kosten en complexiteit zijn te hoog. In plaats daarvan gebruik je modellen die anderen hebben gebouwd en past je die aan voor jouw specifieke toepassing. Dat kan via fine-tuning, via slimme prompts of via hybride systemen die AI combineren met andere technologie.

Alternatieven in de maak

Ondanks hun dominantie zijn transformers niet het eindpunt. Onderzoekers werken aan efficiëntere architecturen die dezelfde kwaliteit leveren met minder rekenkracht. State space models, bijvoorbeeld, proberen de kwadratische complexiteit van attention te vermijden. Vroege resultaten zijn veelbelovend maar nog niet op productieniveau.

Ook hybride modellen winnen terrein. Systemen die transformers combineren met andere benaderingen om zwaktes te compenseren. Toevoegen van externe geheugensystemen om de contextlimiet te omzeilen, of het integreren van symbolische redeneermodules om logische fouten te verminderen.

De kans is groot dat over vijf jaar een nieuwe architectuur opduikt die transformers overtreft. Wellicht architecturen die meer deterministisch zijn (waar het veelbelovende Thinking Machines nu aan werkt) of die beter te sturen zijn. Maar dankzij de modulaire opbouw van AI-systemen zal die transitie geleidelijk gaan. Je hoeft niet te wachten op de perfecte technologie, je kunt nu al waarde halen uit wat er is. En zodra betere opties komen, kun je overstappen zonder je hele systeem te slopen.

Nu snap je de T van ChatGPT: transformer

Je hoeft geen transformer te kunnen programmeren om AI effectief te gebruiken. Maar begrijpen hoe het werkt maakt je een betere gebruiker. Je stelt realistischere vragen, je interpreteert antwoorden kritischer en je ontwerpt slimmere toepassingen. Als een leverancier beweert dat hun AI-systeem nooit fouten maakt, weet je dat het echt dikke vette onzin is. Als iemand suggereert dat je met één transformer alle bedrijfsprocessen kunt automatiseren, herken je de overdrijving. En als je zelf AI gaat inzetten, design je vanaf het begin met de beperkingen in gedachten.

Die T in ChatGPT is meer dan een afkorting. Het is de architectuur die bepaalt wat wel en niet mogelijk is, hoe snel de technologie evolueert en waar je op moet letten bij implementatie. Niet elk detail is relevant voor jouw dagelijkse werk, maar het basisprincipe begrijpen scheelt onrealistische verwachtingen en kostbare vergissingen. TL;DR: kijk anders dit kekke filmpje van Alexander Klöpping over OpenClaw:

Bij Eva liet ik gisteren een AI zien die zelf een restaurant belt om een tafel te reserveren, nadat je erom vraagt via Whatsapp.
AI-tool Openclaw kan zelf bedenken wat voor tools hij nodig heeft om zo’n actie uit te voeren. Hij maakte verbinding met een beldienst. Creëerde zelf… pic.twitter.com/mj5JK0Tw3z
— Alexander Klöpping (@AlexanderNL) February 4, 2026

Thomas Lapperre

Eigenaar Bloeise. Neemt altijd de zakelijke insteek. Schrijft over organisatie, IT infrastructuur en innovatie. Voor digitale bureaus, IT-bedrijven en mkb-bedrijven. Link met mij op LinkedIn.

Alle artikelen van Thomas Lapperre

Reacties

0 Reacties

Reageer als eerste

Transformers: waarom de T in ChatGPT het verschil maakt

Het probleem dat transformers oplosten

Attention is all you need

Hoe transformers het anders doen

Wat attention precies doet

Waarom grootte ertoe doet bij transformer-modellen

De limieten van attention (en transformer-modellen)

Waarom transformers voorlopig blijven domineren

Wat dit betekent voor jouw AI-strategie

Alternatieven in de maak

Nu snap je de T van ChatGPT: transformer

Thomas Lapperre

Delen op

Reacties

Ook interessant

Wat is brand safety in het LLM-tijdperk?

Grip op merkveiligheid in het ai-tijdperk

RAG: hoe je AI toegang geeft tot je eigen kennis zonder het model te hertrainen