
Thinking Machines: determinisme als sleutel tot betrouwbare AI
Determinisme klinkt in theorie eenvoudig: dezelfde input zou altijd dezelfde output moeten geven. In de praktijk blijkt dat grote taalmodellen zich grillig gedragen. Zelfs bij vaste instellingen kunnen dezelfde prompts uiteenlopende resultaten opleveren. Dat lijkt een klein detail, maar in professionele contexten waar reproduceerbaarheid en betrouwbaarheid noodzakelijk zijn, wordt dit een groot probleem. Het AI-lab Thinking Machines publiceerde onlangs een analyse (“research blog”) die een veelgehoord excuus doorprikt: nondeterminisme is geen natuurwet, maar een oplosbaar technisch vraagstuk. De discussie verschuift daarmee van een gegeven beperking naar een strategische keuze.
Thinking Machines: de veelbelovende AI startup waar we meer over zullen horen
Thinking Machines Lab werd begin 2025 opgericht door Mira Murati, voormalig CTO van OpenAI, die direct een topteam van ex-OpenAI onderzoekers aantrok, waaronder John Schulman, Barret Zoph, Lilian Weng, Andrew Tulloch en Luke Metz. Het lab haalde direct een seedronde van twee miljard dollar op tegen een waardering van circa twaalf miljard, met investeerders als Nvidia en AMD. De strategische waarde werd bevestigd toen Meta enkele onderzoekers astronomische persoonlijke aanbiedingen deed, oplopend tot meer dan een miljard dollar, die allemaal werden afgewezen.
Daarmee onderstreepte het lab zijn onafhankelijkheid en positioneerde het zich als tegenhanger van de gesloten aanpak van OpenAI. Waar OpenAI kiest voor schaal en controle, legt Thinking Machines de nadruk op open onderzoek, betrouwbaarheid en systemen die reproduceerbaar en controleerbaar zijn. Hun werk aan deterministische inference is daarmee geen losse technische stap, maar een logische uitwerking van hun bredere visie op transparantie en verantwoording. Murati kondigde in juli 2025 aan dat hun eerste product in enkele maanden gelanceerd zou worden, “useful for researchers and startups developing custom models”.
Kortom: Thinking Machines is een relevante partij om uit te horen over hun aanpak voor het probleem van determinisme.
Het probleem achter de schermen
Hun analyse laat zien dat de oorzaak van variatie niet uitsluitend in floating point-afrondingen of willekeurige seeds ligt, maar vooral in hoe servers batches van verzoeken verwerken. Wanneer dezelfde input in een andere batch terechtkomt door serverload of wachtrijen, worden microscopische berekeningsverschillen zichtbaar in de output. Deze verschillen stapelen zich op en leiden ertoe dat identieke prompts verschillende antwoorden geven. Voor toepassingen waarin creativiteit of variatie gewenst is, zoals een brainstormtool of een generatieve assistent, is dat niet problematisch. Voor sectoren waar zekerheid en controleerbaarheid doorslaggevend zijn, zoals de zorg, de financiële dienstverlening of de rechtspraak, is dit echter funest.
Thinking Machines laat zien dat je met de juiste aanpak wél grip kunt krijgen op de oorzaken van nondeterminisme en ze kunt oplossen. Hiervoor ontwikkelde Thinking Machines batch-invariante varianten van kernoperaties als matrixvermenigvuldiging en attentie. Deze aangepaste kernels garanderen dat de output gelijk blijft, ongeacht batchgrootte of systeemdruk. In hun testopstellingen leverde eenzelfde prompt bij duizend opeenvolgende runs exact dezelfde output, waar de standaard implementaties tientallen varianten produceerden. (zie onderstaande veelgestelde vragen voor stapsgewijze duiding over hoe Thinking Machines dit precies doet).
Het resultaat is overtuigend: determinisme is haalbaar. Het nadeel is dat deze methoden trager zijn. Bedrijven die overwegen deze aanpak te gebruiken, moeten daarom een afweging maken tussen consistentie en prestaties. Inference wordt merkbaar langzamer, maar de zekerheid van identieke resultaten kan in veel omgevingen opwegen tegen die extra tijd.
Today Thinking Machines Lab is launching our research blog, Connectionism. Our first blog post is “Defeating Nondeterminism in LLM Inference”
We believe that science is better when shared. Connectionism will cover topics as varied as our research is: from kernel numerics to… pic.twitter.com/jMFL3xt67C
— Thinking Machines (@thinkymachines) September 10, 2025
Impact op de Europese markt en regelgeving
De implicaties van deze doorbraak reiken verder dan techniek alleen. Binnen de Europese Unie wordt nu de AI Act uitgerold, die voor hoog-risico-toepassingen strikte eisen stelt aan transparantie, controleerbaarheid en documentatie. Modellen die onvoorspelbaar reageren, maken audit en compliance vrijwel onmogelijk. Een organisatie die een medisch advies genereert met een LLM, moet kunnen aantonen dat dezelfde input altijd tot dezelfde output leidt. Zonder die garantie is verantwoording niet houdbaar.
Voor Nederlandse instellingen zoals ziekenhuizen, banken en overheidsorganisaties is determinisme dus een direct vraagstuk. Het reduceren van nondeterminisme kan daarmee niet alleen een technisch voordeel opleveren, maar ook een juridische randvoorwaarde worden voor het mogen toepassen van AI.
Dit heeft ook gevolgen voor de manier waarop bedrijven AI-systemen positioneren. Tot nu toe lag de nadruk vaak op schaal en snelheid. Hoeveel tokens per seconde een model kan verwerken, gold als maatstaf voor innovatie. Met de introductie van deterministische inference komt daar een nieuwe parameter bij: de mate waarin een model reproduceerbaar is. Voor ontwikkelaars van infrastructuur en cloudproviders ontstaat daarmee een nieuwe concurrentiefactor. Wie determinisme kan aanbieden als optionele modus, geeft klanten in gereguleerde sectoren een belangrijk instrument in handen. In Nederland, waar toezicht op algoritmes door instanties als de Autoriteit Persoonsgegevens steeds scherper wordt, kan dit zelfs een onderscheidende factor zijn in aanbestedingen of samenwerkingen.
Nieuwe vragen die nu op tafel liggen
De vragen die dit oproept zijn talrijk: hoe groot is het performanceverlies in productieomgevingen, en hoe schaalbaar is de aanpak bij grote clusters of multi-node setups? Zijn de batch-invariante kernels open source beschikbaar en eenvoudig te integreren in bestaande frameworks als PyTorch en TensorFlow, of vraagt dit maatwerk en specialistische kennis? En in welke situaties moet je determinisme echt nastreven? Voor een creatieve marketingtool is enige variatie misschien zelfs een voordeel, maar voor fraudedetectie, risicobeoordelingen of medische beslissingsondersteuning kan inconsistentie ernstige consequenties hebben.
Voor Europese beleidsmakers en toezichthouders is dit eveneens een belangrijk signaal. De AI Act voorziet in eisen rond transparantie, maar gaat zelden concreet in op de technische details die consistentie beïnvloeden. De doorbraak van Thinking Machines zou kunnen leiden tot strengere richtlijnen of certificeringen waarin deterministische inference expliciet wordt genoemd als eis voor bepaalde sectoren. Daarmee wordt het niet alleen een technische innovatie, maar ook een beleidsvraagstuk. Bedrijven die hier vroeg op inspelen, positioneren zich als betrouwbare partner in een markt die steeds nadrukkelijker om controleerbaarheid vraagt.
Door determinisme in te bouwen in AI-workflows kunnen organisaties audits vereenvoudigen, verantwoording richting toezichthouders verbeteren en klanten meer zekerheid bieden. Denk aan banken die modeluitkomsten moeten verklaren aan de Nederlandsche Bank, zorginstellingen die patiënten gerust moeten stellen over AI-ondersteunde diagnoses, of overheidsdiensten die transparant moeten rapporteren over algoritmische beslissingen. In al deze contexten kan een model dat bij elke run hetzelfde resultaat geeft, het verschil maken tussen acceptatie en afwijzing.
Consistentie betekent niet dat het ook juist is
Tegelijkertijd is deterministische inference is geen wondermiddel dat alle risico’s wegneemt. Het garandeert niet dat een antwoord correct is, alleen dat het consistent is. De kwaliteit van de data en de ontwerpkeuzes van het model blijven even bepalend. Bovendien is er altijd een trade-off tussen prestaties en zekerheid. Bedrijven zullen dus per geval moeten afwegen of determinisme de extra kosten en vertraging waard is. Voor sommige toepassingen zal dat antwoord ja zijn, voor andere nee.
Wat wel duidelijk is: de tijd dat nondeterminisme als een vanzelfsprekend gegeven werd gezien, is voorbij. Thinking Machines laat zien dat consistentie geen onhaalbaar ideaal is, maar een technische optie die met bewuste keuzes gerealiseerd kan worden. Daarmee ontstaat een nieuwe standaard waar klanten, toezichthouders en partners steeds vaker om zullen vragen. Efficiëntie blijft belangrijk, maar in de komende fase van de AI-markt wordt betrouwbaarheid net zo doorslaggevend. Wie daarin investeert, legt de basis voor duurzame acceptatie en competitief voordeel, zeker in een Europese context waarin regelgeving en transparantie centraal staan.
Bron:
Veelgestelde vragen over determinisme in AI-modellen
Nondeterminisme houdt in dat een AI-model niet altijd hetzelfde antwoord geeft op dezelfde vraag. Stel dat je een chatbot vraagt: “Wat is de hoofdstad van Frankrijk?” — de verwachting is dat je steeds “Parijs” terugkrijgt. Maar bij complexere vragen of langere teksten kan dezelfde input opeens tot verschillende antwoorden leiden. Dat kan verwarrend zijn, omdat je er als gebruiker van uitgaat dat een computer consequent werkt. In werkelijkheid is het systeem afhankelijk van veel kleine berekeningen en instellingen, waardoor er soms net een ander pad wordt gevolgd en dus ook een andere output ontstaat.
Veel mensen denken dat je nondeterminisme voorkomt door alle variabelen vast te zetten, zoals de ‘temperatuur’ die bepaalt hoeveel variatie een model mag tonen. Toch blijft er verschil. Dat komt doordat de servers waarop de modellen draaien de berekeningen niet één voor één uitvoeren, maar in parallel en vaak in verschillende groepen. Afhankelijk van hoe druk het systeem is, wordt jouw vraag in een andere groep verwerkt. Zelfs piepkleine verschillen in hoe getallen worden afgerond of vermenigvuldigd, kunnen bij taalmodellen grote gevolgen hebben. Zo ontstaat onverwachte variatie, ook al lijkt alles van tevoren vastgelegd.
Een batch kun je zien als een boodschappenmandje met vragen die tegelijk door de AI worden verwerkt. Als er veel gebruikers tegelijk iets vragen, dan worden de verzoeken in grotere batches gegroepeerd, en als het rustig is in kleinere. Dat klinkt onschuldig, maar de volgorde en grootte van zo’n batch hebben invloed op hoe de berekening plaatsvindt. Hierdoor kan dezelfde vraag, afhankelijk van in welk “mandje” hij terechtkomt, net een ander rekenpad volgen. Het gevolg is dat er andere woorden of zinnen uitkomen, terwijl de input exact gelijk was.
Kernels zijn de basisbouwstenen van de berekeningen in een AI-model. Ze zijn als de kleine motorblokjes die zorgen dat optellen, vermenigvuldigen en vergelijken razendsnel gebeuren op grafische kaarten of gespecialiseerde chips. Bij taalmodellen worden kernels gebruikt om bijvoorbeeld woorden met elkaar te vergelijken en patronen te vinden. Het probleem is dat standaard kernels niet altijd hetzelfde resultaat geven wanneer ze in verschillende batchgroottes werken. Daardoor komt er variatie in de uitkomst. Thinking Machines heeft speciale, zogenaamde batch-invariante kernels gemaakt die die verschillen wegnemen en dus altijd hetzelfde resultaat leveren, ongeacht de omstandigheden.
Voor creatieve toepassingen zoals het schrijven van een gedicht of een reclameslogan kan variatie leuk of zelfs nuttig zijn. Maar voor sectoren die afhankelijk zijn van betrouwbaarheid, zoals banken, ziekenhuizen of overheden, is inconsistentie een risico. Een bank wil dat een risicomodel altijd hetzelfde oordeel geeft bij dezelfde klantgegevens. Een ziekenhuis moet erop vertrouwen dat een medisch AI-advies niet zomaar verandert. Zonder determinisme wordt het lastig om te verantwoorden waarom een model een bepaalde beslissing nam. Dit raakt direct aan vertrouwen, wetgeving en aansprakelijkheid.
De onderzoekers van Thinking Machines hebben een manier gevonden om de bouwstenen van de berekeningen zo aan te passen dat de uitkomst niet meer afhankelijk is van batchgrootte of serverdruk. Deze aangepaste kernels voeren de berekeningen op een consistente manier uit, ongeacht de omstandigheden. Het effect is dat je bij dezelfde vraag altijd hetzelfde antwoord krijgt. Dat maakt het model voorspelbaarder en betrouwbaarder, wat cruciaal is in omgevingen waar controle en verantwoording belangrijk zijn. Het nadeel is dat dit extra rekenkracht en tijd kost, waardoor het model trager wordt.
Binnen Europa wordt gewerkt met de AI Act, een wet die eisen stelt aan transparantie en betrouwbaarheid van AI-systemen, vooral in sectoren met hoog risico zoals zorg, rechtspraak en financiën. Daarin is reproduceerbaarheid een sleutelbegrip: een organisatie moet kunnen laten zien dat een beslissing steeds hetzelfde uitpakt bij dezelfde input. Zonder die zekerheid wordt het vrijwel onmogelijk om audits of juridische verantwoording af te leggen. De aanpak van Thinking Machines sluit precies aan bij deze behoefte. Voor Europese bedrijven kan dit betekenen dat deterministische AI geen luxe is, maar een vereiste om überhaupt aan de wet te voldoen en vertrouwen van klanten en toezichthouders te behouden.
Reacties