Post-training en fine-tuning: hoe ruwe AI-modellen bruikbaar en specifiek worden
AI-modellen zoals GPT-4 of Claude komen niet kant-en-klaar uit de fabriek. De initiële training leert ze taal, patronen en kennis uit miljarden voorbeelden, maar niet hoe ze zich moeten gedragen in een gesprek of instructies moeten opvolgen. Een ruw getraind model kan tekst genereren, maar produceert even gemakkelijk nuttige antwoorden als complete onzin. Het begrijpt statistisch wat woorden vaak samen voorkomen, maar niet wat een gebruiker daadwerkelijk bedoelt met een vraag. Post-training is het proces dat zo’n ruw model transformeert naar een bruikbare AI-assistent.
De term post-training omvat alles wat gebeurt nadat het foundation model zijn basistraining heeft afgerond. Dat kan instructie-optimalisatie zijn, het aanleren van gewenst gedrag, het verwijderen van schadelijke output of het aanpassen aan specifieke domeinen. Fine-tuning is daar onderdeel van, maar post-training is breder. Begrijpen wat elk doet en wanneer je het inzet, bepaalt of je AI-investering waarde oplevert of frustratie veroorzaakt.
Voordat we ingaan op post-training, eerst het onderscheid tussen deze 3:
RAG, fine-tuning en prompting
Waarom hebben foundation models post-training nodig ?
De initiële training van een foundation model zoals ChatGPT 5.2 is voorspellen wat er volgt. Gegeven een stuk tekst, wat komt er daarna? Die techniek, next-token prediction, leert het model taal, grammatica, feiten en redeneringen. Maar het leert niet hoe je vragen beantwoordt, instructies opvolgt of een behulpzaam gesprek voert. Een foundation model zou op “Wat is de hoofdstad van Frankrijk?” kunnen antwoorden met “Een vraag die veel gesteld wordt” in plaats van “Parijs”.
Post-training brengt structuur aan. Het model leert dat bepaalde inputs specifieke outputs verwachten, dat sommige onderwerpen vermeden moeten worden en dat antwoorden feitelijk en nuttig moeten zijn. Zonder post-training heb je een krachtige taalengine maar geen bruikbaar product. Met post-training transformeert die engine naar een chatbot, een code-assistent of een content-generator die doet wat gebruikers verwachten.
AI-bedrijven zoals OpenAI en Anthropic passen daarom extensieve post-training toe voordat ze modellen vrijgeven. GPT-4 base is niet publiek beschikbaar. Wat je via de API gebruikt is GPT-4 na maanden post-training om het veilig, nuttig en betrouwbaar te maken. Die post-training is wat het verschil maakt tussen een onderzoeksproject en een commercieel product.
Wat AI-leveranciers doen: RLHF en instruction tuning
Reinforcement Learning from Human Feedback, afgekort tot RLHF, is de meest invloedrijke post-training techniek. Menselijke beoordelaars geven feedback op modeloutput. Is dit antwoord behulpzaam? Is het accuraat? Is het schadelijk? Die feedback gebruikt het systeem om het model bij te sturen richting gewenst gedrag. Het model leert geleidelijk welke antwoorden mensen prefereren en past zijn output daarop aan.
RLHF verklaart waarom moderne chatbots zo anders zijn dan vroege versies. GPT-3 zonder RLHF produceerde vaak irrelevante of ongepaste tekst. GPT-3.5 en GPT-4, getraind met RLHF, zijn aanzienlijk nuttiger en veiliger. Ze begrijpen impliciete verwachtingen, vermijden schadelijke content en geven gestructureerde antwoorden op vage vragen. Die verbetering komt niet van meer data maar van gerichte feedback.
Instruction tuning is een gerelateerde techniek waarbij het model specifiek wordt getraind op instructie-output paren. “Vat deze tekst samen” gevolgd door een goede samenvatting. “Vertaal naar Frans” gevolgd door correcte vertaling. Door duizenden voorbeelden van instructies met gewenste antwoorden te zien, leert het model instructies te volgen in plaats van alleen tekst te voorspellen.
Deze technieken zijn complex en kostbaar. Je hebt honderden beoordelaars nodig, gerichte datasets en maanden rekentijd. Daarom voeren AI-leveranciers dit uit, niet individuele bedrijven. Wat jij ontvangt via een API is al een post-trained model dat instructies volgt en veilig gedrag vertoont. Maar het is nog steeds generiek, niet specifiek voor jouw toepassing.
Fine-tuning: post-training die je zelf doet
Fine-tuning is de post-training techniek die bedrijven zelf kunnen toepassen. Je neemt een bestaand foundation model en traint het bij op jouw eigen dataset. Dat kan enkele honderden tot duizenden voorbeelden zijn van de taak die je wilt optimaliseren. Het model past zijn parameters aan om beter te presteren op jouw specifieke use case.
Een klantenservice-organisatie zou kunnen fine-tunen op historische chat-transcripten. Het model leert de toon, terminologie en antwoordpatronen die passen bij die organisatie. Een juridisch kantoor fine-tunet op contracten en rechtspraak, zodat het model juridische taal natuurlijker begrijpt. Een e-commerce platform traint bij op productomschrijingen en klantrecensies om betere aanbevelingen te genereren.
Het verschil met de initiële training is schaal. Foundation model training gebruikt triljoenen tokens en kost miljoenen. Fine-tuning gebruikt duizenden tot miljoenen tokens en kost honderden tot duizenden euros. Je past bestaande kennis aan in plaats van kennis vanaf nul op te bouwen. Dat maakt fine-tuning haalbaar voor organisaties zonder AI-onderzoeksbudget.
Belangrijker nog: fine-tuning vereist relevante data. Je moet voorbeelden hebben van de taak die het model moet leren. Als je een model wilt fine-tunen voor het schrijven van productomschrijvingen, heb je goede productomschrijvingen nodig als trainingsdata. Heb je die niet, dan levert fine-tuning geen verbetering. Dat is waarom RAG vaak een betere keuze is als je alleen informatie beschikbaar wilt maken zonder gedragsverandering na te streven.
Wanneer fine-tuning de moeite waard is
Fine-tuning loont wanneer je consistente output wilt in een specifieke stijl of format die lastig via prompting te bereiken is. Een model dat productspecificaties moet omzetten naar gestructureerde JSON kan worden gefine-tuned op voorbeelden totdat het consistent het juiste format produceert. Via prompting lukt dat soms wel en soms niet, afhankelijk van hoe complex de input is.
Ook domeinspecifieke taal profiteert van fine-tuning. Medische teksten, juridische documenten, technische handleidingen – ze gebruiken jargon en constructies die algemene modellen minder goed begrijpen. Een model fine-tunen op duizenden voorbeelden uit dat domein verbetert begrip en genereert natuurlijker klinkende tekst binnen die context.
Efficiëntie is een derde reden. Een gefine-tuned model kan soms met kortere prompts dezelfde resultaten behalen als een generiek model met lange, gedetailleerde instructies. Als je miljoenen API-calls doet, scheelt dat in kosten. De initiële investering in fine-tuning verdient zich terug door lagere operationele kosten.
Maar let op: fine-tuning is niet altijd nodig. Als prompting en RAG voldoende resultaat geven, voegt fine-tuning weinig toe. Als je weinig trainingsdata hebt, levert fine-tuning mogelijk geen verbetering. En als je gebruik case regelmatig verandert, zit je vast aan een model dat geoptimaliseerd is voor een verouderde taak. Fine-tuning vergt onderhoud: nieuwe trainingsdata verzamelen, opnieuw trainen en valideren dat het model nog correct werkt.
De praktische afweging
Post-training door AI-leveranciers levert bruikbare foundation models. Die modellen volgen instructies, zijn veilig en presteren goed op algemene taken. Voor veel toepassingen is dat voldoende. Je gebruikt het model via API, optimaliseert je prompts en integreert RAG voor bedrijfsspecifieke kennis. Geen extra training nodig.
Fine-tuning voegt waarde toe wanneer generieke modellen tekort schieten. Als output-kwaliteit inconsistent is, als domeinkennis ontbreekt of als efficiency cruciaal is, investeer je in fine-tuning. Maar realiseer je dat het onderhoud vraagt. Een gefine-tuned model is een asset die je beheert, niet een commodity die je afneemt.
De strategische vraag is waar je investeert. Bouw je onderscheidend vermogen op het fine-tunen van modellen, of focus je op proprietary data en domeinkennis die je via RAG beschikbaar maakt? Het eerste vraagt meer technische expertise maar levert geoptimaliseerde modellen. Het tweede is sneller te implementeren en makkelijker bij te werken.
Voor de meeste organisaties is RAG het startpunt. Het combineert commodity foundation models met exclusieve kennis zonder zware investeringen in model-training. Fine-tuning komt erbij wanneer schaal, consistentie of domeinspecialisatie dat rechtvaardigen. Post-training door leveranciers accepteer je als gegeven: je profiteert van de investeringen die OpenAI, Anthropic en Google doen om modellen bruikbaar te maken.
Foundation models zijn het fundament. Post-training door leveranciers maakt ze bruikbaar. Fine-tuning die je zelf doet, maakt ze specifiek. Maar vergeet niet dat de grootste waarde vaak zit in wat je het model geeft, niet hoe je het traint. Je data, je processen, je domeinkennis – dat differentieert. Het model is steeds meer commodity. Wat je ermee doet niet.


Reacties