Kunstmatige intelligentie vindt je, zelfs als je gegevens anoniem verwerkt zijn

Geanonimiseerde gegevens zijn minder anoniem dan gedacht. Een groep onderzoekers liet zien dat kunstmatige intelligentie (AI) informatie uit geanonimiseerde datasets kon herleiden tot individuele personen. Beleidsmakers moeten meer doen om persoonlijke gegevens te beschermen, schrijven de onderzoekers.

Uit hun model blijkt dat een getraind, kunstmatig intelligent computersysteem slechts vijftien karakteristieken nodig heeft om 99,98 procent van de Amerikanen te kunnen re-identificeren aan de hand van geanonimiseerde gegevens. Hierbij zat bijvoorbeeld informatie over leeftijd, geslacht en burgerlijke staat.

‘Een overheidsbank voorkomt problemen bij een bankencrisis’

Al ons betalingsverkeer verloopt via commerciële banken. Dat kan tot grote problemen leiden, zegt rechtswetenschapper Bart Joosen.

Privé-informatie

Overheidsinstanties, bedrijven en apparaten verzamelen allerlei persoonlijke informatie; van je filmvoorkeur en favoriete yoghurtmerk tot je hartslag en andere medische informatie. Bijna altijd beschikken ze ook over informatie over je geslacht, leeftijd en het gebied waar je woont.

Deze schat aan informatie heeft voordelen. Het leidt tot betere producten, AI’s die leuke filmsuggesties geven en nieuwe ontdekkingen in de geneeskunde en sociale wetenschap.

Maar je hebt liever niet dat een toekomstige werkgever zomaar kan zien welke films je kijkt en hoe gezond je bent. Gelukkig mag de verzamelde informatie niet te herleiden zijn tot individuele personen. Bedrijven en onderzoekers zijn verplicht de gegevens te ontdoen van direct identificeerbare informatie, zoals namen, telefoonnummers en e-mailadressen. Dit is vastgelegd in wetgeving, zoals de General Data Protection Regulation (GDPR) van de Europese Unie en in de California Consumer Privacy Act (CCPA) van de Verenigde Staten.

Toch niet zo anoniem

Nu stellen onderzoekers van de Belgische Université catholique de Louvain (UCLouvain) en het Engelse Imperial College London dat dit niet voldoende is.

Ze ontwikkelden een AI-programma dat kon nagaan hoeveel kenmerken van een individu er nodig zijn om hem of haar aan te wijzen als je beschikt over informatie van miljarden mensen. ‘Er zijn misschien veel mensen die in New York wonen, dertig zijn en man. Maar veel minder van hen zijn geboren op 5 januari, rijden in een rode sportwagen en leven met twee kinderen en een hond’, zegt Luc Rocher van UCLouvain.

Hoeveel kenmerken je nodig hebt om een bij een persoon uit te komen, hangt af van de zeldzaamheid van de persoonlijke kenmerken. Er zijn waarschijnlijk meer vaders van veertig dan vaders die nog maar zestien jaar oud zijn. Verder hangt het af van het aantal mensen in de dataset. Hoe groter de groep, hoe meer kans je hebt dat er meer vaders van zestien bij zitten. Dat maakt het lastiger om aan de hand van die twee kenmerken iemand aan te wijzen.

Uit het onderzoek blijkt dat een tiental kenmerken genoeg is om zelfs in een groep van miljoenen mensen een individu aan te wijzen met grote zekerheid. Er werd gekeken naar kenmerken waar bedrijven regelmatig naar vragen en die ze door mogen geven aan derden.

‘We worden er vaak van verzekerd dat anonimisering deze persoonlijke gegevens veilig houdt’, zegt Julien Hendrickx van de UCLouvain. ‘Ons artikel laat zien dat dit lang niet genoeg is om de privacy van gegevens van mensen te beschermen.’

Online test

Om het risico te demonstreren, ontwikkelden de wetenschappers een website waar je het zelf uit kunt proberen (hoewel de online test momenteel alleen werkt voor Engeland en de Verenigde Staten). Je vult het gebied waar je woont in, je geslacht en je geboortedatum. De website laat dan zien hoe groot de kans is dat dat jij het bent, als bijvoorbeeld je werkgever in een dataset zoekt naar iemand met die kenmerken. Vervolgens kun je zien hoe de kans dat jij uit de data komt rollen groeit als je meer kenmerken invult, zoals burgerlijke staat en het aantal auto’s in je bezit. De website slaat deze persoonlijke informatie niet op. Kijken hoe vindbaar je bent, draagt dus niet bij aan je vindbaarheid.

Over de auteur

Dorine Schenk

Dorine Schenk is freelance wetenschapsjournalist voor o.a. NRC en New Scientist. Ze studeerde (astro-)deeltjesfysica aan de Universiteit van Amsterdam. Daarnaast houdt ze van roeien. Volg haar op Twitter/X via @dorineschenk.

Reacties

Reacties tonen

Tijl schreef:

2 augustus 2019 om 18:20

Onlangs gehoord op wetenschapsprogramma dat de FBI een programma heeft met AI dat op basis van een iris foto of scan kan bepalen op de persoon man of vrouw is.
Uit de megadata van onze pin card kan nu al heel veel data worden gedistilleerd waarmee handelaars en producenten hun verkoopstrategie mee kunnen bepalen.
AI zal steeds meer ons leven gaan bepalen willen of niet.
Da angst van overname van de mens door AI is meer dan gegrond. Gaan we dit kunnen beheersen of niet is de vraag. De geschiedenis leert ons dat gevaarlijke uitvindingen haast altijd een donkere en negatieve zijde hebben, we zijn gewaarschuwd.

Beantwoorden

Kunstmatige intelligentie vindt je, zelfs als je gegevens anoniem verwerkt zijn

‘Een overheidsbank voorkomt problemen bij een bankencrisis’

Privé-informatie

Toch niet zo anoniem

Online test

Delen:

Over de auteur

Reacties
Reacties tonen

Plaats een reactie Reactie annuleren

Subtotaal	€ 0,00
Totaal	€ 0,00

Kunstmatige intelligentie vindt je, zelfs als je gegevens anoniem verwerkt zijn

‘Een overheidsbank voorkomt problemen bij een bankencrisis’

Privé-informatie

Toch niet zo anoniem

Online test

Delen:

Over de auteur

Reacties Reacties tonen

Plaats een reactie Reactie annuleren

Gerelateerde artikelen

Razendsnel informatie opslaan met laserpulsen en een magnetische racebaan

Gekloonde apen controversiële stap richting betere kankertherapie

Android-apps delen informatie met elkaar zonder jouw toestemming

Reacties
Reacties tonen