De nieuwe AI-tool van Google, AI Overviews, kan indrukwekkende antwoorden geven op zoekopdrachten. Maar hij verzint ook feiten, en oppert bijvoorbeeld dat mensen stenen eten. Kan Google dit probleem nog oplossen, of moeten ze AI Overviews helemaal schrappen?

Google probeert de manier waarop we op het internet naar informatie zoeken te veranderen. Nu geeft de zoekmachine nog gewoon links naar andere websites. In de VS is daar echter al verandering in gekomen.

De nieuwe zoekfunctie AI Overviews vat in een keer informatie samen over een zoekopdracht. Dat gaat echter met wisselend succes. Op sociale media gaan berichten rond van Amerikanen die te horen kregen dat ze kaas op hun pizza moesten lijmen of stenen moesten eten.

Iedereen kan overweg met een 'derde duim'
LEES OOK

Iedereen kan overweg met een 'derde duim'

Iedereen kan wennen aan een extra robotduim, van kinderen tot senioren. Dat stelden Britse onderzoekers vast bij een wetenschapsfestival.

Buiten de VS is AI Overviews nog niet beschikbaar. Het is nog onduidelijk wanneer het naar Nederland komt. De vraag is nu of Google de foute antwoorden van AI Overviews kan fiksen, of gedwongen wordt om de AI-tool af te sluiten. Experts zijn verdeeld over de vraag of dit een fundamenteel probleem is van de generatieve AI-technologie die de nieuwe zoekfunctie aandrijft, of dat het gewoon kinderziektes zijn die opgelost kunnen worden.

Amerikaanse internetgebruikers uitten op X hun frustratie over Google’s nieuwe AI-zoekfunctie. Als je vraagt hoe je kaas beter kan laten plakken op pizza, dan raadt Google’s AI Overview aan om lijm te gebruiken.

Large Language Models

De grote taalmodellen, zogeheten Large Language Models (LLM’s) die Google en andere bedrijven gebruiken, zullen altijd fouten maken als ze feitelijke informatie moeten geven, zegt computerwetenschapper Noura Al Moubayed van de Universiteit van Durham in het Verenigd Koninkrijk.

Dat komt door hun statistische aard. LLM’s zijn getraind op enorme hoeveelheden tekst van het internet. Zij stellen een output samen op basis van welk woord het meest waarschijnlijk als volgende past. De oorsprong van AI Overviews’ suggestie om lijm op pizza’s te gebruiken, kan bijvoorbeeld getraceerd worden naar een tien jaar oude grap op het internetforum Reddit.

De foute antwoorden die AI Overviews geeft zijn een ‘inherente eigenschap’ van dergelijke AI-modellen, zegt Google CEO Sundar Pichai in een recent interview met The Verge. Hij prees het vermogen van LLM’s om ‘ongelooflijk creatief’ te zijn. De keerzijde daarvan is echter dat er altijd een risico is dat de AI plausibel klinkende output geeft die eigenlijk feitelijk onjuist is.

Technologiebedrijven haasten zich om AI-modellen zo snel mogelijk uit te rollen, zegt Al Moubayed. Dit doen ze uit angst om achter te blijven, aangespoord door aandeelhouders. Dit betekent echter ook dat technologiebedrijven producten lanceren voordat die betrouwbaar zijn. Er kunnen wel oplossingen gevonden worden, zegt Al Moubayed, maar daar zoeken de bedrijven niet serieus naar.

‘Het is mogelijk om de problemen op lange termijn op te lossen’, zegt ze. ‘Maar als je ziet hoe weinig interesse grote bedrijven eigenlijk hebben in het repareren van de taalmodellen, en hoe veel interesse in geld verdienen aan de taalmodellen, zal dit waarschijnlijk heel lang duren.’

Betrouwbaar

‘Ik ben niet echt tegen het idee [van zoekmachines met AI]. Maar het moet geleidelijk en op een transparante manier gebeuren, vanwege de impact die het op de wereld zal hebben. Het gebrek aan transparantie is nogal alarmerend’, zegt Al Moubayed.

Zij is van mening dat overheden moeten ingrijpen om te voorkomen dat bedrijven deze modellen vrijgeven voordat bewezen is dat ze accuraat en betrouwbaar zijn. Maar ondanks herhaalde toezeggingen, ziet ze dat er nog geen concrete resultaten zijn.

AI-onderzoeker Eric Atwell van de Universiteit van Leeds in het VK heeft er vertrouwen in dat technologiebedrijven mettertijd de neiging van LLM’s om dingen te verzinnen zullen overwinnen. Een mogelijke oplossing is een techniek die Retrieval-Augmented Generation (RAG) wordt genoemd, zegt Atwell. Daarbij wordt de AI geïnstrueerd om feitelijke informatie alleen uit een kleine zeer betrouwbare gegevensbron te halen, en geen antwoorden op vragen te verzinnen als het antwoord niet in die gegevens staat.

‘Er is een tendens om te focussen op een paar tegenvoorbeelden, in plaats van op de overgrote meerderheid van gevallen waar de AI-tool prima werkt. Het doet echt nuttige dingen’, zegt Atwell. ‘Mensen rijden in auto’s en doden daardoor andere mensen. [Dat] betekent echter niet dat je moet stoppen met autorijden. Helaas werkt het af en toe gewoon niet goed. Technologie gaat zo snel. Waarom zou je het willen vertragen alleen omdat er een paar fouten in zitten?’

Oplossing

Op RAG gebaseerde zoekmachines bestaan al, zegt computerwetenschapper Philip Feldman van de Universiteit van Maryland in de VS. De zoekmachine Perplexity.ai verzint, in zijn ervaring, bijvoorbeeld veel minder vaak dingen, en toont ook citaten voor feitelijke informatie. Feldman denkt dat Google een vergelijkbaar model zou kunnen bouwen, maar dat het onder druk staat om in plaats daarvan een AI te maken die meeslepende en conversationele tekst genereert.

‘Ze zijn minder gericht op de nauwkeurigheid en meer op de glans van het model, hoe indrukwekkend het is. Het is een soort filosofisch verschil tussen waarde onttrekken en waarde leveren. Ja, je kunt op de korte termijn veel meer geld verdienen als je waarde onttrekt, maar uiteindelijk vergiftig je de bron’, zegt hij.

RAG is echter zelfs geen volledige oplossing, zegt Feldman. Hoewel het de frequentie van onjuiste informatie kan verminderen, kan het deze niet volledig elimineren. Paradoxaal genoeg kan een kleine kans op fouten de schade juist vergroten. De meeste mensen zullen namelijk niet de moeite nemen om de nauwkeurigheid te controleren van een tool die meestal extreem betrouwbaar is.

De ultieme oplossing is misschien om nóg een laag van RAG-achtige systemen toe te voegen, om de eerste laag in toom te houden, zegt Feldman. Misschien zijn zelfs er meer en meer lagen nodig om op elk niveau steeds zeldzamere fouten op te vangen.

Google heeft niet gereageerd op een verzoek om commentaar.