Geanonimiseerde gegevens zijn minder anoniem dan gedacht. Een groep onderzoekers liet zien dat kunstmatige intelligentie (AI) informatie uit geanonimiseerde datasets kon herleiden tot individuele personen. Beleidsmakers moeten meer doen om persoonlijke gegevens te beschermen, schrijven de onderzoekers.

Uit hun model blijkt dat een getraind, kunstmatig intelligent computersysteem slechts vijftien karakteristieken nodig heeft om 99,98 procent van de Amerikanen te kunnen re-identificeren aan de hand van geanonimiseerde gegevens. Hierbij zat bijvoorbeeld informatie over leeftijd, geslacht en burgerlijke staat.

Een fietshelm voor elke fietser?
LEES OOK
Een fietshelm voor elke fietser?

Privé-informatie

Overheidsinstanties, bedrijven en apparaten verzamelen allerlei persoonlijke informatie; van je filmvoorkeur en favoriete yoghurtmerk tot je hartslag en andere medische informatie. Bijna altijd beschikken ze ook over informatie over je geslacht, leeftijd en het gebied waar je woont.

Deze schat aan informatie heeft voordelen. Het leidt tot betere producten, AI’s die leuke filmsuggesties geven en nieuwe ontdekkingen in de geneeskunde en sociale wetenschap.

Maar je hebt liever niet dat een toekomstige werkgever zomaar kan zien welke films je kijkt en hoe gezond je bent. Gelukkig mag de verzamelde informatie niet te herleiden zijn tot individuele personen. Bedrijven en onderzoekers zijn verplicht de gegevens te ontdoen van direct identificeerbare informatie, zoals namen, telefoonnummers en e-mailadressen. Dit is vastgelegd in wetgeving, zoals de General Data Protection Regulation (GDPR) van de Europese Unie en in de California Consumer Privacy Act (CCPA) van de Verenigde Staten.

Toch niet zo anoniem

Nu stellen onderzoekers van de Belgische Université catholique de Louvain (UCLouvain) en het Engelse Imperial College London dat dit niet voldoende is.

Ze ontwikkelden een AI-programma dat kon nagaan hoeveel kenmerken van een individu er nodig zijn om hem of haar aan te wijzen als je beschikt over informatie van miljarden mensen. ‘Er zijn misschien veel mensen die in New York wonen, dertig zijn en man. Maar veel minder van hen zijn geboren op 5 januari, rijden in een rode sportwagen en leven met twee kinderen en een hond’, zegt Luc Rocher van UCLouvain.

Hoeveel kenmerken je nodig hebt om een bij een persoon uit te komen, hangt af van de zeldzaamheid van de persoonlijke kenmerken. Er zijn waarschijnlijk meer vaders van veertig dan vaders die nog maar zestien jaar oud zijn. Verder hangt het af van het aantal mensen in de dataset. Hoe groter de groep, hoe meer kans je hebt dat er meer vaders van zestien bij zitten. Dat maakt het lastiger om aan de hand van die twee kenmerken iemand aan te wijzen.

Uit het onderzoek blijkt dat een tiental kenmerken genoeg is om zelfs in een groep van miljoenen mensen een individu aan te wijzen met grote zekerheid. Er werd gekeken naar kenmerken waar bedrijven regelmatig naar vragen en die ze door mogen geven aan derden.

‘We worden er vaak van verzekerd dat anonimisering deze persoonlijke gegevens veilig houdt’, zegt Julien Hendrickx van de UCLouvain. ‘Ons artikel laat zien dat dit lang niet genoeg is om de privacy van gegevens van mensen te beschermen.’

Online test

Om het risico te demonstreren, ontwikkelden de wetenschappers een website waar je het zelf uit kunt proberen (hoewel de online test momenteel alleen werkt voor Engeland en de Verenigde Staten). Je vult het gebied waar je woont in, je geslacht en je geboortedatum. De website laat dan zien hoe groot de kans is dat dat jij het bent, als bijvoorbeeld je werkgever in een dataset zoekt naar iemand met die kenmerken. Vervolgens kun je zien hoe de kans dat jij uit de data komt rollen groeit als je meer kenmerken invult, zoals burgerlijke staat en het aantal auto’s in je bezit. De website slaat deze persoonlijke informatie niet op. Kijken hoe vindbaar je bent, draagt dus niet bij aan je vindbaarheid.