Een simpel trucje misleidt ChatGPT ertoe om persoonlijke informatie te onthullen. Dit vormt een gevaar voor de dataprivacy op het internet.

De bekende chatbot ChatGPT onthult gevoelige persoonsgegevens van internetgebruikers. Dat zeggen computerwetenschappers Milad Nasr en zijn collega’s van Google in een voorpublicatie op de website arXiv.

Trainingsdata

ChatGPT is een chatbot van het Amerikaanse techbedrijf OpenAI. Het taalmodel achter de chatbot is getraind met gigantische hoeveelheden tekst, de zogeheten trainingsdata. Een AI zoekt patronen in die teksten, om vervolgens te voorspellen wat het volgende woord in een zin moet zijn. Als ChatGPT bijvoorbeeld gevraagd wordt om de zin ‘To be or not…’ aan te vullen, dan zal het reageren met ‘to be’, zegt computationeel lexicoloog Piek Vossen van de Vrije Universiteit in Amsterdam. Dat komt doordat die woorden vaak samen voorkomen in de trainingsdata.

Hoe drinkbaar is de stijgende zeespiegel?
LEES OOK

Hoe drinkbaar is de stijgende zeespiegel?

Een tekort én een overschot aan water bedreigen tegelijkertijd de menselijke beschaving. Kunnen die de zee ooit drinkbaar maken?

Niemand, behalve de makers van de AI, weet wat er precies in de trainingsdata staat. Nasr en zijn collega’s zochten een manier om die trainingsdata te onthullen. Ze ontdekten dat het laten herhalen van een woord als poem in ChatGPT (gpt-3.5-turbo), de AI zodanig verwart dat het zijn eigen trainingsdata – of iets dat erop lijkt – gaat uitspuwen. Het programma begint dan zinnen te noemen die soms overeenkomen met bestaande teksten.

De onderzoekers denken dat dit werkt, doordat het herhaaldelijk noemen van een woord een zogeheten endoftext-instructie nabootst. Het programma denkt dan dat het aan het einde van zijn tekst is gekomen en begint nieuwe dingen te verzinnen die niks met de voorgaande zinnen te maken hebben. Het resultaat is een rits aan teksten zonder onderlinge samenhang, die soms verdacht veel lijken op trainingsdata.

Het laten herhalen van een woord in ChatGPT kan er mogelijk voor zorgen dat het programma persoonsgegevens onthult. Beeld: arXiv/Nasr. et al. (2023)/arXiv:2311.17035 [cs.LG]

Dataprivacy

16,9 procent van deze gegenereerde teksten bleek persoonsgegevens te bevatten zoals telefoonnummers, namen, faxnummers en adressen. Volgens de onderzoekers vormt dit een mogelijk gevaar voor de dataprivacy. Iemand met genoeg geld, tijd en rekenkracht kan zo op grote schaal persoonlijke data van mensen opgraven.

Voor de willekeurige internetgebruiker valt het gevaar waarschijnlijk wel mee. ‘Dat er dingen uit komen die persoonlijk zijn, vind ik wel zorgwekkend’, zegt Vossen, die niet betrokken was bij het onderzoek. ‘Maar als ik heel bewust informatie over jou uit het systeem wil halen, dan moet ik echt enorm mijn best doen om de goeie associaties te krijgen.’ De kans dat jouw informatie in die teksten opduikt, is dus heel klein. ‘Maar het kan wel gebeuren dat iemand per toeval de klos is, omdat zijn informatie eruit komt rollen’, zegt Vossen.

Het artikel van Nasr en zijn collega’s is pas een voorpublicatie. Dat betekent dat het nog gecheckt moet worden door collega-wetenschappers. Wel hebben de onderzoekers alvast het bedrijf achter ChatGPT gewaarschuwd over de mogelijke kwetsbaarheid in hun systeem. ‘We hopen dat onze resultaten een waarschuwing zijn voor degenen die toekomstige modellen trainen en inzetten’, zeggen de onderzoekers.