Een derde van alle AI -antwoorden is fout
Terwijl miljoenen gebruikers dagelijks vertrouwen op kunstmatige intelligentie voor alles van medisch advies tot financiële beslissingen, blijkt uit baanbrekend onderzoek van Google een ontnuchterende waarheid: zelfs de beste AI-systemen scoren nog geen voldoende voor betrouwbaarheid. En dat terwijl ze hun antwoorden met absolute zekerheid presenteren.
Kort na de publicatie van ons artikel gisteren, Waarom AI nog steeds liegt, ook al zegt het nu ‘weet ik niet’, verscheen er nieuw onderzoek dat de inherente hallucinaties van AI met harde cijfers onderstreept.
Geen enkele AI haalt de 70% feitelijkheid
Googles nieuwe benchmark, de FACTS benchmark die in december 2025 werd gelanceerd, legt de vinger op de zere plek. In tegenstelling tot de vele tests die gericht zijn op programmeren, browsen, toolgebruik en het opvolgen van instructies, draait FACTS maar om één ding: feitelijkheid. Het onderzoek toetste vijftien versies van de populairste AI-modellen op vier cruciale vaardigheden: algemene kennis, zoekvaardigheid, het verwerken van documenten en het herkennen van afbeeldingen. Het resultaat? Zelfs koploper Gemini 3 Pro blijft steken op 69 procent nauwkeurigheid. Dat betekent dat bijna één op de drie antwoorden pertinent onjuist is.
De concurrentie doet het niet beter. ChatGPT-5 scoort 62 procent – nauwelijks beter dan een gok. Claude zakt met 51 procent naar een twijfelachtig niveau, terwijl Grok op 54 procent blijft hangen. Pascal Wiggers, lector verantwoorde IT aan de Hogeschool van Amsterdam, waarschuwt: “Je moet oppassen als je denkt: het klinkt best plausibel. Mensen nemen gelukkig niet klakkeloos over wat AI zegt, maar subtiele foutjes herken je niet zo snel.” Het is dan ook niet verrassend dat “hallucineren” werd uitgeroepen tot woord van het jaar 2025.
Plaatjes lezen? Vergeet het maar
De zwakste schakel is misschien wel de meest verontrustende: het interpreteren van afbeeldingen, grafieken en diagrammen. Hier zakken zelfs de beste systemen door het ijs. Gemini 2.5 Pro, de beste in deze categorie, behaalt slechts een nauwkeurigheid van 46,9 procent bij taken met afbeeldingen. De meeste andere systemen scoren zelfs lager dan 50 procent.
Dit is geen theoretisch probleem. In de financiële sector, de gezondheidszorg en de juridische dienstverlening worden AI-systemen ingezet om facturen te scannen, medische beelden te analyseren en juridische documenten te verwerken. Een foutmarge van meer dan 50 procent betekent dat je net zo goed een muntje kunt opgooien.
Nederlands onderzoek van de Consumentenbond uit oktober 2025 bevestigt deze problemen in de praktijk. Van de honderd complexe vragen die aan Google werden gesteld, gaf de zoekmachine bij zeventig een automatisch gegenereerd antwoord. Twintig daarvan waren te commercieel, te stellig, te ongenuanceerd of simpelweg achterhaald. Zo adviseerde Google bijvoorbeeld om “duurzame cruises” te boeken, terwijl cruiseschepen tot de meest vervuilende vervoersmiddelen behoren. Een ander overzicht toonde een stappenplan voor Skype, maanden nadat de dienst offline was gegaan.
Nepnieuws verdubbeld in één jaar
Waar AI’s aanvankelijk nog terughoudend waren en bij gevoelige onderwerpen weigerden te antwoorden, reageren ze nu “veel sneller en uitgebreider”, aldus onderzoek van de Amerikaanse waakhond NewsGuard uit september 2025. Het gevolg is een explosie aan desinformatie. In augustus 2024 herhaalden de tien grootste AI-modellen in 18 procent van de gevallen foutieve beweringen over het nieuws. Een jaar later, in augustus 2025, was dit gestegen naar 35 procent. Dat is bijna een verdubbeling van nepnieuws in twaalf maanden tijd.
De verschillen tussen de systemen zijn groot. Twee specifieke diensten zijn de grootste boosdoeners: meer dan de helft van hun antwoorden op nieuwsgerelateerde vragen bevat onjuistheden (respectievelijk 56,7 en 46,7 procent). Andere bekende diensten geven in 40 procent van de gevallen verkeerde informatie. Slechts één systeem presteert redelijk, met “slechts” 10 procent foutieve antwoorden.
Een afzonderlijk onderzoek van 22 mediaorganisaties wereldwijd, waaronder VRT NWS, bracht in oktober 2025 nog meer problemen aan het licht. Bij vragen over nieuws en actualiteit gaven de vier grootste AI’s in 45 procent van de gevallen een problematisch antwoord. Het grootste struikelblok? Foutieve bronvermelding (31 procent), gevolgd door onjuiste informatie (20 procent) en een gebrek aan context (14 procent).
Karel Degraeve, deskundige innovatie bij VRT NWS, vat het treffend samen: “Het is problematisch dat chatbots zo onzorgvuldig met onze inhoud omspringen. Niet alleen de betrouwbaarheid van deze systemen, maar ook de geloofwaardigheid van VRT NWS lijdt eronder.”
De waarschijnlijkheidsmachine die niet denkt
Het fundamentele probleem is dat kunstmatige intelligentie niet begrijpt wat het genereert. Marleen Stikker, directeur van onderzoeksinstituut WAAG Futurelab, legt uit: “Kunstmatige intelligentie denkt niet, voelt niet en redeneert niet. Het kan dus ook geen oordeel vellen over de juistheid van informatie. Het is een waarschijnlijkheidsmachine die data bij elkaar raapt op basis van statistiek en dit in een grammaticaal correct jasje giet.”
Dit verklaart waarom identieke zoekopdrachten steeds andere antwoorden opleveren. Google beweerde begin deze week dat een tussenwoning “kan variëren tussen de 90.000 en 225.000 euro” – een bedrag dat ver afstaat van de Nederlandse realiteit, waar de gemiddelde prijs ver boven de drie ton ligt. Het woord ‘pilot’ kreeg de ene keer het geslacht onzijdig (correct volgens de Taalunie) en de andere keer mannelijk (correct volgens Van Dale).
Commerciële belangen vertroebelen het beeld
Het wordt nog problematischer wanneer commerciële belangen een rol spelen. Bij medische vragen baseerden de Nederlandstalige automatische antwoorden van Google zich soms op websites van wijn- en chocoladewinkels, in plaats van op erkende medische bronnen. Vragen over de gezondheidseffecten van chocolade en wijn leverden zo antwoorden op die verdacht veel weg hadden van reclame.
Stikker waarschuwt: “In het begin beloofde Google je naar de juiste informatie te leiden, inclusief bronvermelding. De afgelopen jaren kwam die belofte al onder druk te staan doordat advertenties de overhand namen. Nu dreigt de kwaliteit van zoekresultaten nog verder af te nemen.”
Sandra Molenaar, directeur van de Consumentenbond, noemt de situatie “kwalijk, zeker als de antwoorden niet kloppen.” Ze wijst er bovendien op dat het genereren van automatische antwoorden veel meer energie en CO2-uitstoot kost dan traditionele zoekresultaten – een milieuaspect waar vooralsnog weinig oog voor is.
Gebruikers te onkritisch
Het grootste gevaar schuilt misschien wel in de manier waarop gebruikers met deze informatie omgaan. Uit onderzoek van het Radar Panel in oktober 2025 blijkt dat de helft van de ruim 16.500 ondervraagde Google-gebruikers doorgaans vertrouwt op de informatie in de automatische overzichten. Bijna één op de tien neemt de informatie zelfs zonder enige twijfel voor waar aan.
En dat terwijl Wiggers waarschuwt: “Grove fouten worden door de meeste mensen nog wel herkend, maar juist in de kleine missers, zoals een verkeerd jaartal, zit het gevaar. Het fundamentele probleem is dat je materie moet begrijpen om te kunnen controleren of het klopt. En dat kunnen computers nu eenmaal niet.”
De AI-industrie erkent de problemen, maar benadrukt vooral de vooruitgang. Een woordvoerder van Google stelt dat de feitentoets “logisch” lager scoort omdat het een “extra zware test” is, ontworpen omdat “veel systemen bij vergelijkingen tegenwoordig tegen de 100 procent scoren.” Een opmerkelijke verklaring, gezien hun eigen topmodel de 70 procent niet eens haalt.
Behulpzaam, maar geen orakel
Google concludeert zelf dat “blind vertrouwen nog steeds een slecht idee is.” Hoewel de systemen verbeteren, kunnen we AI – totdat er betere veiligheidsmaatregelen en menselijk toezicht zijn – het beste behandelen als “behulpzame assistenten, maar niet als orakels van de waarheid.”
Maar is dat genoeg? Met 987 miljoen mensen wereldwijd die AI-chatbots gebruiken, en voorspellingen dat tegen 2027 een kwart van alle bedrijven deze systemen als primair communicatiemiddel inzet, lijkt ‘de kat uit de boom kijken’ geen optie meer. De vraag is niet óf deze systemen fouten maken – dat doen ze massaal – maar hoe we als samenleving omgaan met technologie die zelfverzekerd liegt terwijl ze denkt te helpen.
Het Reuters Instituut meldde in juni 2025 dat 7 procent van de ondervraagden in 48 landen kunstmatige intelligentie gebruikt voor nieuwsgaring. Dat percentage zal alleen maar groeien. Ondertussen blijft één op de drie antwoorden simpelweg fout. In de medische sector, bij juridische kwesties en voor financiële beslissingen – overal waar nauwkeurigheid essentieel is, blijkt de technologie waarop we steeds meer leunen fundamenteel onbetrouwbaar.
De AI-revolutie is in volle gang. Maar wie controleert de controleurs, als die controleurs niet eens weten wat controle betekent?



Reacties