Kunstmatige intelligentie (AI) genereert teksten in een handomdraai. Hierdoor zullen AI-detectoren net zo slecht zijn in het herkennen van een AI-tekst als iemand die een muntje opgooit.

Betrouwbaar bepalen of een tekst door AI gemaakt is of niet, is wellicht onmogelijk. Dat blijkt uit nieuw wiskundig bewijs.

Het gemak waarmee AI-modellen teksten genereren die niet van menselijke teksten te onderscheiden zijn, leidt nu al tot problemen: leerlingen laten hun opstellen uit chatGTP rollen, en er worden masale desinformatiecampagnes op poten gezet.

Waarom je beter voor drie dagen boodschappen kunt doen dan voor een hele week
LEES OOK

Waarom je beter voor drie dagen boodschappen kunt doen dan voor een hele week

‘Weggooien is zonde’, meldt de supermarkt als een product bijna over de datum is. Klopt, maar zodra aan het woord ‘afva ...

Ideeën om zulk misbruik tegen te gaan zijn bijvoorbeeld een soort watermerk verstopt in AI-teksten, of het doorzoeken van teksten op patronen die alleen een AI zou produceren.

Computerwetenschapper Soheil Feizi en zijn collega’s van de Universiteit van Maryland in de Verenigde Staten, beweren nu dat ze wiskundig hebben bewezen dat deze AI-ontmaskeringstechnieken niet betrouwbaar zijn. Dat komt door de combinatie van parafraseerprogramma’s en AI-modellen. Als een leerling een opstel laat schrijven door chatGTP, en het daarna door een parafraseerprogramma haalt, vermindert dat de effectiviteit van een watermerk drastisch. Ook zullen de teksten van taalmodellen wiskundig gezien steeds meer overeenkomen met menselijke taal naarmate de modellen verbeteren.

Detectorfouten

Om dit te laten zien, gebruikten Feizi en zijn team AI-gebaseerde parafraseerprogramma’s om een AI-gegenereerde tekst anders te verwoorden. Die nieuwe tekst voerden ze in bij meerdere AI-tekstdetectoren. Het gros van de detectoren had daarna nog slechts een efficiëntie van 50 procent. ‘We zien een gigantische daling in de prestaties van de detectoren. Die dalen tot ongeveer de nauwkeurigheid van een willekeurige voorspeller’, zegt Feizi.

De onderzoekers hebben met behulp van een wiskundig bewijs, het zogenoemde impossibility result, laten zien dat AI-detectoren het steeds moeilijker gaan krijgen. De reden is dat de woordkeuze van AI-modellen steeds menselijker wordt. Daarom gaan de detectoren ófwel te veel teksten onterecht als AI bestempelen, ofwel juist te weinig, waardoor de echte AI-teksten er niet meer uitgepikt worden. Het wiskundige bewijs is een voorpublicatie, dus heeft nog geen peer review ondergaan.

Consequenties

‘Voor alle praktische doeleinden zal zelfs de beste detector, of die nu al bestaat of nog moet worden ontwikkeld, niet erg goed zijn’, zegt Feizi. ‘Zo’n model zal eigenlijk erg dicht in de buurt zitten van gewoon een muntje opgooien. We zullen nooit in staat zijn om betrouwbaar te kunnen bepalen of een tekst is gemaakt door een mens of door een AI-model. Ik denk dat we met dat feit moeten leren leven’, zegt Feizi.

Computerwetenschapper Yulan He van King’s College in Londen stelt voor dat we moeten proberen om de consequenties van AI-modellen te begrijpen, in plaats van heel veel tijd te besteden aan het maken van AI-detectoren. ‘Wat voor risico’s brengen deze AI-modellen in ons leven en hoe kunnen we ze gebruiken als nuttige AI’s voor onszelf?’