RAG: hoe je AI toegang geeft tot je eigen kennis zonder het model te hertrainen
Large language models weten veel, maar niet alles. Ze kennen geen interne processen, geen actuele klantdata, geen specifieke productinformatie die na hun trainingsdatum is toegevoegd. Je kunt een model hertrainen met je eigen data, maar dat kost tijd, geld en technische expertise. Retrieval-Augmented Generation, afgekort tot RAG, biedt een elegantere oplossing: je geeft het model tijdens het gesprek toegang tot relevante informatie uit je eigen databronnen.
RAG als mechanisme is eenvoudiger dan de term suggereert. Wanneer iemand een vraag stelt, zoekt het systeem eerst in jouw kennisbank naar relevante documenten of passages. Die informatie wordt vervolgens aan de vraag toegevoegd voordat het LLM antwoordt. Het model genereert niet uit zijn getrainde kennis, maar op basis van wat je het net hebt gegeven. Vandaar de term: retrieval (ophalen) augmented (aangevuld) generation (tekstgeneratie).
Waarom RAG een andere benadering vraagt dan modeltraining
Een standaard LLM beantwoordt vragen uit zijn trainingsdata. Als je vraagt naar de hoofdstad van Frankrijk, haalt het model dat uit de miljarden parameters die tijdens training zijn ontstaan. Maar vraag je naar jullie interne retourprocedure, dan kan het alleen algemene antwoorden geven. Het model kent jouw specifieke proces niet.
Fine-tuning lijkt een logische oplossing: je traint het model bij met je eigen data, zodat het jouw processen leert kennen. Dat werkt, maar creëert wel afhankelijkheid. Elke update van je kennisbank vereist opnieuw training. Elke wijziging in procedures betekent een nieuwe trainingsronde. En je verliest ook transparantie: je weet niet meer precies waar een antwoord op gebaseerd is. En dat is wel van belang om te voldoen aan de AI Act.
RAG lost die problemen op door retrieval en generatie te scheiden. Je kennisbank blijft actueel zonder modelaanpassingen. Voeg een nieuw document toe en het systeem kan het direct gebruiken. Wijzig een procedure en de volgende vraag haalt al de nieuwe informatie op. En omdat je precies ziet welke documenten zijn opgehaald, kun je antwoorden traceren naar de bron.
Waar bedrijven RAG praktisch inzetten
Klantenservice is het meest voor de hand liggende toepassingsgebied. Een chatbot met RAG-implementatie zoekt in producthandleidingen, FAQ-documenten en eerdere support-tickets voordat het antwoordt. De klant vraagt hoe een specifieke foutmelding op te lossen. Het systeem haalt de relevante troubleshooting-stappen op uit de kennisbank en formuleert een helder antwoord. Zonder RAG zou de chatbot alleen algemene adviezen kunnen geven.
Ook interne kennisdeling profiteert sterk van RAG. Medewerkers stellen vragen over HR-beleid, IT-procedures of projectdocumentatie. Het systeem doorzoekt alle relevante bronnen en presenteert het antwoord mét verwijzingen naar de oorspronkelijke documenten. Dat scheelt zoektijd en voorkomt dat verouderde informatie wordt gebruikt. Gebruikers kunnen het antwoord zelf verifiëren met de documenten. AI functioneert zo als interne zoekmachine.
Contentcreatie wordt efficiënter met RAG. Een marketeer vraagt om een productomschrijving. Het systeem haalt technische specificaties op uit de productdatabase, eerdere campagneteksten uit het CMS en brand guidelines uit de kennisbank voor brand safety. De gegenereerde tekst is consistent met bestaand materiaal en feitelijk correct omdat het op actuele brondata is gebaseerd.
En onderzoek en analyse kun je slim versnellen door RAG toe te passen op grote documentcollecties. Een analist wil bijvoorbeeld weten wat klanten zeggen over een specifieke functie. Het systeem doorzoekt duizenden feedback-formulieren, haalt relevante fragmenten op en vat patronen samen. Zonder RAG zou dat handmatig lezen kosten, met RAG krijg je in seconden een overzicht.
Hoe je zelf een RAG-systeem opzet
De technische basis van RAG bestaat uit drie componenten. Ten eerste heb je een kennisbank nodig: documenten, databases of andere bronnen waarin relevante informatie staat. Ten tweede een methode om die informatie doorzoekbaar te maken, meestal via embeddings die tekst omzetten naar numerieke vectoren. Ten derde een LLM dat de opgehaalde informatie gebruikt om antwoorden te genereren.
Begin met het verzamelen en structureren van je kennisbronnen. PDF’s, Word-documenten, webpagina’s, databases – alles wat relevante informatie bevat. Die bronnen converteer je naar platte tekst en splits je in behapbare chunks. Een producthandleiding wordt bijvoorbeeld per hoofdstuk of paragraaf geknipt. Te grote chunks maken zoeken inefficiënt, te kleine chunks missen context.
Vervolgens genereer je embeddings voor elk chunk. Een embedding-model zet tekst om naar een vector: een reeks getallen die de betekenis representeert. Teksten met vergelijkbare betekenis krijgen vergelijkbare vectoren. Die vectoren sla je op in een vector database zoals Pinecone, Weaviate of Qdrant. Wanneer iemand een vraag stelt, converteer je die vraag ook naar een vector en zoek je de meest vergelijkbare chunks in de database.
De laatste stap is het LLM voorzien van context. Je haalt de meest relevante chunks op, voegt die toe aan de prompt en laat het model antwoorden. De prompt zou kunnen zijn: “Beantwoord de volgende vraag op basis van deze informatie: [opgehaalde chunks]. Vraag: [gebruikersvraag].” Het model genereert nu een antwoord dat gebaseerd is op jouw specifieke kennis in plaats van algemene trainingsdata.
MCP als standaard voor RAG: USB voor AI-oplossingen
Model Context Protocol (MCP) is Anthropic’s poging om RAG te standaardiseren. In plaats van voor elke toepassing opnieuw een RAG-workflow te bouwen met embeddings, vector databases en retrieval-logica, definieert MCP hoe contextsystemen met LLM’s communiceren. Het protocol zorgt dat Claude op een gestandaardiseerde manier toegang krijgt tot externe bronnen: databases, API’s, filesystemen, content management systemen. Denk aan MCP als USB voor AI-toepassingen. Waar je nu per systeem moet uitvogelen hoe je data beschikbaar maakt voor een LLM, biedt MCP een uniforme interface. Een MCP-server geeft toegang tot je kennisbronnen, Claude vraagt via het protocol om relevante informatie, en het antwoord komt terug in een gestandaardiseerd formaat. Het voordeel van MCP is herbruikbaarheid: eenmaal een MCP-server bouwen voor je CRM betekent dat elke MCP-compatibele AI-toepassing er gebruik van kan maken. Voor bedrijven die meerdere AI-tools inzetten, voorkomt dat duplicate work. Je implementeert RAG-functionaliteit niet per tool, maar één keer via MCP.
RAG implementeren met N8N
Het open source (gratis!) automatiseringsplatform N8N maakt RAG toegankelijk zonder dat je alles zelf hoeft te programmeren. De workflow-tool biedt kant-en-klare nodes voor vector databases, embedding-modellen en LLM’s. Je bouwt een workflow die het hele RAG-proces automatiseert.
Een typische N8N RAG-workflow begint met een trigger, bijvoorbeeld een webhook die vragen ontvangt of een Slack-integratie. Die vraag gaat naar een embedding-node die de tekst omzet naar een vector. Vervolgens gebruikt een vector database-node (Pinecone, Supabase of Qdrant) die vector om vergelijkbare chunks op te halen uit je kennisbank. Die chunks worden gecombineerd met de oorspronkelijke vraag in een prompt-template.
De prompt gaat naar een LLM-node, bijvoorbeeld OpenAI of Anthropic Claude. Het model genereert een antwoord op basis van de opgehaalde context. Dat antwoord stuur je terug via dezelfde webhook of Slack-integratie. Het hele proces, van vraag tot antwoord, verloopt automatisch.
Het voordeel van N8N is flexibiliteit. Je kunt eenvoudig meerdere kennisbronnen combineren: eerst zoeken in een vector database, daarna in een SQL-database voor actuele cijfers, en tot slot in een API voor real-time informatie. Elke bron levert context die het LLM kan gebruiken. En omdat N8N visueel werkt, zie je precies welke stappen de workflow doorloopt en waar eventuele problemen zitten.
Wanneer RAG wel en niet de juiste keuze is
RAG werkt uitstekend wanneer je informatie regelmatig wijzigt en transparantie belangrijk is. Productcatalogi, beleidsdocumenten, technische handleidingen – allemaal geschikt voor RAG omdat ze actueel moeten blijven en antwoorden traceerbaar moeten zijn naar bronnen.
Minder geschikt is RAG voor kennis die diep begrip vereist of complexe redeneringen. Als je wilt dat een model jouw specifieke manier van denken overneemt, levert fine-tuning betere resultaten. RAG haalt informatie op maar internaliseert die kennis niet. Het model leert niet van eerdere interacties tenzij je die ook in de kennisbank opslaat.
Ook de schaal van je vraagstelling bepaalt de geschiktheid. Voor enkele vragen per dag kan RAG wat teveel van het goede zijn. Voor honderden vragen per uur van een heel klantenservice team wordt het efficiënt omdat je niet telkens handmatig hoeft te zoeken. En voor gebruik waarbij privacy cruciaal is, biedt RAG controle: je data blijft in jouw systemen en gaat niet naar externe modellen voor training.
RAG democratiseert toegang tot geavanceerde AI-toepassingen. Je hoeft geen machine learning engineer te zijn om je LLM toegang te geven tot bedrijfsspecifieke kennis. Met de juiste tools bouw je in dagen wat vroeger maanden ontwikkeltijd kostte.

Reacties