Het AI-taalmodel GPT-4 is in staat om websites te hacken. Dat maakt het aanzienlijk makkelijker voor mensen zonder hackerskennis om cyberaanvallen uit te voeren.

Onderzoekers hebben geconstateerd dat het AI-taalmodel GPT-4 van het bedrijf OpenAI in staat is websites te hacken en informatie uit onlinedatabases te stelen. Dat kan de AI zonder menselijke sturing. Dit betekent dat individuen of organisaties zonder kennis op het gebied van hacken AI kunnen gebruiken om cyberaanvallen uit te voeren.

‘Je hoeft letterlijk niets te begrijpen, je kunt AI gewoon zelf de website laten hacken’, zegt computerwetenschapper Daniel Kang van de Universiteit van Illinois Urbana-Champaign. ‘We zijn van mening dat er hierdoor echt minder expertise nodig is om deze geavanceerde taalmodellen op kwaadaardige wijze te gebruiken.’

‘Een AI-systeem moet kunnen zeggen: dat is geen goed idee’
LEES OOK

‘Een AI-systeem moet kunnen zeggen: dat is geen goed idee’

Het is belangrijk dat we AI-systemen kunnen vertrouwen. AI-onderzoeker Pınar Yolum stelt dat betrouwbare AI-systemen bezwaar moeten kunnen maken tege ...

Autonome hackers

Kang en zijn collega’s wilden zien hoe goed GPT-4 en andere grote taalmodellen die chatbotdiensten aandrijven, kunnen presteren als autonome hackers. Daarom besloten ze tien verschillende AI-modellen te testen, waaronder OpenAI’s GPT-4 en GPT-3.5. Ook testten ze verschillende versies van Meta’s LLaMA-modellen.

Zulke taalmodellen zijn meestal ontworpen om tekstvragen van menselijke gebruikers te beantwoorden. Maar de onderzoekers gebruikten aangepaste versies, die voor iedereen beschikbaar zijn, bedoeld voor ontwikkelaars die AI-apps bouwen. Deze kunnen communiceren met webbrowsers, documenten lezen over de algemene principes van hacken en tijdens hackpogingen toekomstige zetten plannen.

Hackuitdagingen

De AI-modellen kregen vijftien verschillende uitdagingen gerelateerd aan het hacken van websites. Deze uitdagingen varieerden van makkelijk tot moeilijk. Ze wisten van tevoren niet waar de kwetsbaarheden van de websites zaten. Een voorbeeld van een gemakkelijke taak was het verkrijgen van ongeautoriseerde toegang tot een online database met behulp van een SQL-code. Dat is een programmeertaal voor het opslaan en verwerken van informatie in bepaalde databases. Moeilijke taken waren onder andere het manipuleren van een JavaScript-broncode, om informatie van gebruikers van webpagina’s te stelen.

De meeste AI-modellen konden geen van de uitdagingen volbrengen. Maar GPT-4 slaagde in elf van de vijftien taken. Dat is een succespercentage van 73 procent. Ook vond GPT-4 zelfs een zwakke plek in een echte website die geen deel uitmaakte van de uitdagingen.

De geschatte kosten van het gebruik van zo’n AI-model zouden iets meer dan 9 euro per hackpoging zijn. Een cyberbeveiligingsanalist betaal je ongeveer 75 euro per poging, stelt Kang.

Tegenstrijdige resultaten

Los van dit onderzoek publiceerden OpenAI en Microsoft op 14 februari een rapport waarin ze beschrijven hoe ze hebben samengewerkt om hackers te verijdelen. Deze hackers gebruikten de grote taalmodellen van OpenAI om informatie te vinden over potentiële doelwitten en om hun malware, kwaadaardige software, te verbeteren. Maar dat rapport gaat niet in op de mogelijkheid dat AI-modellen zelfstandige hackers in staat stellen om aan de slag te gaan.

Kang en zijn collega’s hebben hun bevindingen gedeeld met OpenAI. Het bedrijf heeft niet gereageerd op het verzoek van New Scientist voor commentaar.

‘De bevindingen van het onafhankelijke onderzoek zijn bijzonder opvallend, zeker als je ze naast andere bevindingen legt die onlangs zijn vrijgegeven door OpenAI en Microsoft. Daarin stellen ze dat hun modellen ‘slechts beperkte, geleidelijk toenemende mogelijkheden bieden voor kwaadaardige cybersecuritytaken”, zegt AI-beleidsspecialist Jessica Newman van de Universiteit van Californië, Berkeley. ‘Dat deze conclusies elkaar tegenspreken, benadrukt de noodzaak voor de onafhankelijke beoordeling van eventuele schade in de echte wereld.’