Futuristic robot artificial intelligence huminoid AI programming coding technology development and machine learning concept. Robotic bionic science research for future of human life. 3D rendering.

Pre-training: waarom je geen foundation models bouwt maar erop voortbouwt

1 maand geleden

Pre-training is de eerste en duurste fase in het maken van een AI-foundation model. Het is het proces waarbij een neuraal netwerk leert wat taal is door miljarden voorbeelden te analyseren. Die training produceert geen bruikbare chatbot of assistent, maar een ruw model dat begrijpt hoe woorden samenhangen, welke patronen in tekst voorkomen en hoe concepten met elkaar verbonden zijn. Alles wat daarna komt – post-training, fine-tuning, implementatie – bouwt voort op die initiële pre-training.

Voor de meeste bedrijven is pre-training volslagen irrelevant als activiteit. Je doet het nu niet en je gaat het later ook niet doen. Maar begrijpen wat pre-training inhoudt en waarom het zo duur is, verklaart wel de structuur van de AI-markt. Het legt uit waarom een handvol bedrijven foundation models maakt en de rest erop bouwt. En het verduidelijkt waarom waarde verschuift van modellen naar data en toepassingen.

Wat er gebeurt tijdens pre-training

Pre-training draait om één simpele taak: voorspel het volgende woord. Je geeft het model een stuk tekst en het moet raden wat erna komt. “De kat zit op de…” en het model leert dat “mat” waarschijnlijker is dan “motor”. Die taak klinkt triviaal, maar door het miljarden keer te herhalen met gevarieerde teksten leert het model taal, grammatica, feiten en redeneringen.

Dit proces vereist gigantische datasets. GPT-3 trainde op 45 terabyte aan tekst uit boeken, websites, artikelen en code. GPT-4 gebruikte naar schatting nog meer. Die data moet verzameld, gefilterd en opgeschoond worden. Websites bevatten spam, boeken bevatten fouten, code bevat bugs. Kwaliteitscontrole op die schaal is zelf al een technisch en organisatorisch project.

De rekenkracht die pre-training vraagt is buitensporig. Duizenden gespecialiseerde GPU’s draaien maanden achter elkaar. GPT-4’s pre-training kostte naar schatting 100 miljoen dollar aan compute alleen. Nieuwere modellen vereisen nog meer omdat ze groter zijn en langer trainen. Die investering levert een model op dat taal begrijpt maar nog niet weet hoe het moet communiceren of instructies moet volgen.

Waarom alleen grote tech-bedrijven pre-training doen

De financiële drempel maakt pre-training onbereikbaar voor de meeste organisaties. Tientallen miljoenen investeren in het trainen van één model zonder garantie dat het beter presteert dan bestaande alternatieven is geen rationele bedrijfsbeslissing. OpenAI, Google, Meta en Anthropic kunnen die investeringen rechtvaardigen omdat ze strategische ambities hebben in AI-infrastructuur, omdat ze bestaande cloud-platformen monetizen of omdat investeerders lange termijn weddenschappen plaatsen.

Technische expertise is even schaars als budget. Pre-training is geen kwestie van standaard machine learning uitvoeren. Het vraagt begrip van distributed computing, model-architectuur, data-pipeline engineering en numerieke stabiliteit op ongekende schaal. De teams die dit kunnen, zijn klein en zeer gewild. Bedrijven concurreren om dezelfde pool van enkele duizenden experts wereldwijd.

Toegang tot data speelt ook mee. Google heeft decennia aan zoekopdrachten, YouTube-transcripties en Gmail-metadata. Meta heeft miljarden social media posts. Die proprietary datasets geven hun modellen toegang tot taalgebruik dat niet publiek beschikbaar is. Een bedrijf dat vandaag start met pre-training, mist die bron en moet het doen met publieke data die concurrenten ook gebruiken.

Waarom pre-training strategisch irrelevant is voor de meeste bedrijven

Als je geen AI-laboratorium runt met het doel foundation models te commercialiseren, doe je geen pre-training. De investering is niet te rechtvaardigen tegenover wat je ervoor terugkrijgt. Bestaande foundation models zijn beschikbaar via API’s, vaak tegen prijzen die onder de kostprijs liggen omdat leveranciers schaal nastreven. GPT-4, Claude, Gemini – ze zijn allemaal toegankelijk zonder dat je zelf hebt geïnvesteerd in pre-training.

Open-source modellen maken de drempel nog lager. LLaMA, Mistral en Falcon zijn het resultaat van pre-training door anderen maar vrij beschikbaar. Je kunt ze downloaden, op eigen hardware draaien en aanpassen naar behoefte. De pre-training investering is al gedaan, jij plukt de vruchten zonder de kosten.

Die beschikbaarheid verschuift de strategische vraag. In plaats van “bouwen we een foundation model” wordt het “welk foundation model gebruiken we en hoe passen we het aan”. Pre-training is een gegeven, iets dat anderen doen en waar jij op voortbouwt. Net zoals je geen elektriciteitscentrale bouwt maar stroom afneemt, gebruik je foundation models zonder zelf te pre-trainen.

Wat pre-training verklaart over de AI-markt

De economie van pre-training creëert een specifieke marktstructuur. Een klein aantal bedrijven investeert in pre-training en biedt resultaten aan via API’s of open-source releases. Duizenden andere bedrijven bouwen toepassingen op die foundation models. Die asymmetrie is niet tijdelijk maar structureel. Pre-training wordt niet goedkoper genoeg dat elk bedrijf het zelf gaat doen.

Wel worden foundation models beter en toegankelijker. Elke nieuwe generatie presteert sterker bij lagere kosten. GPT-4 overtreft GPT-3 terwijl het per token goedkoper is. Claude 3.5 Sonnet is krachtiger dan Claude 3 Opus maar kost minder. Die trend houdt aan omdat schaal voordelen oplevert en concurrentie prijzen drukt.

Voor bedrijven betekent dat: investeer niet in pre-training, investeer in wat erop volgt. Post-training, fine-tuning, RAG, domeinkennis, proprietary data – daar zit onderscheidend vermogen. Pre-training levert commodity foundation models. Wat je ermee bouwt bepaalt waarde.

De keten van basis naar toepassing

Pre-training is de eerste schakel. Het produceert ruwe foundation models die taal begrijpen maar niet bruikbaar zijn. Post-training door AI-leveranciers maakt ze bruikbaar door instructies leren volgen en gewenst gedrag aanleren. Fine-tuning door jou maakt ze specifiek voor jouw toepassing. RAG vult ze aan met jouw data zonder het model zelf te wijzigen.

Elk niveau voegt waarde toe, maar de waarde concentreert zich steeds meer aan het einde van de keten. Pre-training is duur maar wordt gedeeld over miljoenen gebruikers. Post-training differentieert beperkt omdat iedereen dezelfde API gebruikt. Fine-tuning en RAG zijn waar bedrijven unieke toepassingen bouwen omdat ze proprietary data en domeinkennis combineren met commodity modellen.

Begrijpen waar je zit in die keten bepaalt waar je investeert. Pre-training laat je over aan anderen. Post-training accepteer je als dienst van je modelleverancier. Fine-tuning overweeg je als consistentie en specialisatie dat rechtvaardigen. RAG implementeer je zodra je bedrijfsspecifieke kennis wilt inzetten. En de data en expertise die je in RAG en fine-tuning stopt, die bouw je zelf op omdat concurrenten die niet kunnen kopiëren.

Pre-training maakt foundation models mogelijk. Maar foundation models zijn inmiddels commodity. De vraag is niet meer hoe je ze bouwt, maar hoe je ze inzet op problemen die anderen niet oplossen met data die anderen niet hebben.

Thomas Lapperre

Eigenaar Bloeise. Neemt altijd de zakelijke insteek. Schrijft over organisatie, IT infrastructuur en innovatie. Voor digitale bureaus, IT-bedrijven en mkb-bedrijven. Link met mij op LinkedIn.

Alle artikelen van Thomas Lapperre

Reacties

0 Reacties

Reageer als eerste

Pre-training: waarom je geen foundation models bouwt maar erop voortbouwt

Wat er gebeurt tijdens pre-training

Waarom alleen grote tech-bedrijven pre-training doen

Waarom pre-training strategisch irrelevant is voor de meeste bedrijven

Wat pre-training verklaart over de AI-markt

De keten van basis naar toepassing

Thomas Lapperre

Delen op

Reacties

Ook interessant

Wie is eigenaar van je data (en waarom niemand het antwoord weet)?

Vier EU-landen declareren digitale oorlog aan Silicon Valley

Single source of truth? Meerdere waarheden betekent dat niemand kan beslissen