Kunstmatige intelligentie MuZero verslaat schaakmeesters zonder de regels te kennen

Het kunstmatig intelligente systeem MuZero is in staat om ieder mens te verslaan in potjes schaken, go en zelfs Atari-computerspelletjes. Om dat voor elkaar te krijgen, hoeft het systeem niet eens de regels te kennen.

Het door DeepMind ontwikkelde MuZero is daarmee nog indrukwekkender dan zijn voorganger AlphaZero. Dat AI-systeem leerde hoe hij zijn tegenstanders te slim af kon zijn op een schaakbord, bij een potje van de Japanse schaakvariant shogi en bij het Chinese bordspel go. Bij alle drie de spellen wist AlphaZero de beste menselijke spelers te verslaan.

De strategie daarbij was vrij eenvoudig: leer het systeem alle regels van het spel en laat het vervolgens miljoenen potjes spelen. Gaandeweg leert het programma wat de succesvolle zetten zijn en welke acties leiden tot een nederlaag. Zo wordt het steeds een beetje beter, totdat het een ware schaakmeester (of go-meester, of shogi-meester) is. Het is een vorm van machinaal leren: een techniek waarbij kunstmatige intelligentie zichzelf steeds bijstelt op basis van zijn eerdere ervaringen.

Iedereen kan overweg met een 'derde duim'

Iedereen kan wennen aan een extra robotduim, van kinderen tot senioren. Dat stelden Britse onderzoekers vast bij een wetenschapsfestival.

Vallen en opstaan

Ook MuZero maakt gebruikt van machinaal leren. Maar in plaats van het systeem de regels te vertellen, lieten de makers MuZero gewoon lekker zijn gang gaan. Met vallen en opstaan leerde het zelf de regels – en wist het de juiste winstrategie te bepalen.

AlphaZero maakte gebruik van een volledig model van het spel: het kende het hele spelbord, alle mogelijke zetten en alle regels. MuZero kijkt daarentegen alleen naar de informatie die belangrijk is om een volgende zet te maken. Hoe goed is de huidige positie op het bord? Wat is de beste vervolgactie? En hoeveel leverde de vorige actie op? Bij elke stap voorspelt het model wat de waarde is van een actie en de nieuwe positie. Dit proces wordt constant geüpdatet met nieuwe informatie. Zo zoekt de AI stap voor stap de beste spelstrategie uit.

Ms. Pac-Man

MuZero is net zo goed in schaken, go en shogi als AlphaZero, maar hoeft dus niet voorgeprogrammeerd te worden met de spelregels. Bij deze spellen, die allemaal duidelijke regels kennen, levert dat geen duidelijk voordeel op: je kunt je AI net zo goed even de spelregels laten lezen. Maar bij complexere spelletjes is MuZero dankzij zijn nieuwe strategie in het voordeel.

Denk bijvoorbeeld aan Atari-computerspelletjes zoals Ms. Pac-Man, waarbij elke pixel van het scherm informatie geeft. Het is onmogelijk om een AI-systeem van te voren te voorzien van alle mogelijke regels, zetten en mogelijkheden. Doordat MuZero, in tegenstelling tot AlphaZero, gaandeweg de regels van het spel doorgrondt, heeft het die informatie ook niet nodig. Het systeem zit niet vast aan een vooraf bedacht model en is daardoor in staat om ook bij zulke complexere spellen een goede winstrategie te vinden.

Rommelig

Volgens de makers van DeepMind is dat niet alleen handig voor Atari-spelletjes. Ook bij toepassingen in de echte wereld is het onmogelijk om AI van te voren de regels te geven. ‘Problemen in de echte wereld zijn rommelig, complex, en moeilijk om in simpele regels te vangen’, schrijven ze in een blog op deepmind.com. Als je in de toekomst bijvoorbeeld zelfrijdende auto’s wil voorzien van AI, heb je een flexibele leerstrategie nodig waarbij het system niet alle details van te voren hoeft te weten.

De makers publiceerden hun werk afgelopen woensdag in het wetenschappelijke tijdschrift Nature.

Special kunstmatige intelligentie — **Leestip:** deze special gaat over de onbegrensde mogelijkheden die slimme machines ons bieden, maar ook over hoe ze ons – al dan niet terecht – beangstigen. Bekijk in onze webshop!

Over de auteur

Ans Hekkenberg

Ans is redacteur bij New Scientist. Ze studeerde natuur- en sterrenkunde en wetenschapscommunicatie. Ze is fanatiek gamer en stripboekenfanaat. Volg Ans (@GirlForScience) ook op Twitter en Instagram.

Reacties

Reacties tonen

Dextera Domini schreef:

26 december 2020 om 16:21

Juist, en zo is er dus ook geen controle meer over de plannen die kunstmatige intelligentie zou kunnen maken, want dan zijn er geen situaties meer waarbij deze vast zou kunnen lopen op iets onbekends/niet voorgeprogrammeerd. Als het de ‘spelregels’ niet hoeft te kennen, kunnen die zelf ingevuld worden, en wat dan als blijkt dat de best werkende strategie niet zo vredelievend is? Moralen zijn toch niet van toepassing, regels zijn immers niet voorgeprogrammeerd…

Beantwoorden
Jan Roos schreef:

27 januari 2021 om 21:42

Zou zelflerende AI in de toekomst in staat kunnen zijn om ons inzicht te geven in het oplossen van de grote universele theorie, waarin de zwaartekracht past naast de andere drie fundamentele krachten?

Jan Roos.

Beantwoorden

Kunstmatige intelligentie MuZero verslaat schaakmeesters zonder de regels te kennen

Iedereen kan overweg met een 'derde duim'

Vallen en opstaan

Ms. Pac-Man

Rommelig

Delen:

Over de auteur

Reacties
Reacties tonen

Plaats een reactie Reactie annuleren

Subtotaal	€ 0,00
Totaal	€ 0,00

Kunstmatige intelligentie MuZero verslaat schaakmeesters zonder de regels te kennen

Iedereen kan overweg met een 'derde duim'

Vallen en opstaan

Ms. Pac-Man

Rommelig

Delen:

Over de auteur

Reacties Reacties tonen

Plaats een reactie Reactie annuleren

Gerelateerde artikelen

Is een quantumversie van go de volgende beproeving voor AI?

Luisteren naar eiwitmelodieën

Razendsnel informatie opslaan met laserpulsen en een magnetische racebaan

Reacties
Reacties tonen