Znanost

7. 12. 2020 – 7.05

Curly: robot, ki igra curling

Uporaba adaptivnega vzpodbujevalnega učenja omogoči robotu igranje curlinga v resničnem svetu

Začetek novega tedna tokrat posvečamo našim mehanskim prijateljem. V reviji Science Robotics so raziskovalci predstavili novega pametnega robota, ki je z uporabo adaptivnega vzpodbujevalnega učenja zmožen igrati curling na ravni človeške zmogljivosti. Robot po imenu Curly je svoje sposobnosti preizkusil v tekmah s tremi najboljšimi južnokorejskimi ženskimi moštvi in južnokorejsko paraolimpijsko ekipo. V soočanjih je Curlyjeva ekipa slavila zmago v kar treh od štirih tekem.

Curling je zimski šport, podoben balinanju, ki se ga igra na ledu. Cilj igre je spraviti svoje kamne čim bližje centru tarče na drugi strani steze. Najbolj prepoznaven je po pometanju ledene steze pred drsajočimi se kamni. Curling je ekipni šport, zato je Curly potreboval soigralce. Njegovi ekipi so se tako pridružile tri profesionalne igralke curlinga, ki so bile zadolžene za pometanje steze, Curly pa je v ekipi prevzel vlogo metalca in skiperja, ki je zadolžen za planiranje strategije igre. Strategijo je človeškim soigralkam predstavil s pomočjo vizualizacije na računalniškem zaslonu. Uspeh mešane ekipe robota in ljudi je tako pokazal, da je predstavljeni robotski sistem zmožen tudi učinkovitega sodelovanja z ljudmi.

Curly opravlja svojo vlogo v moštvu v štirih korakih. V prvem koraku pregleda trenutno stanje na igrišču, nato glede na položaje kamnov v simulaciji določi najboljšo strategijo meta. V tretjem koraku prilagodi strategijo iz simulacijskega okolja na resnični svet, na koncu pa met tudi izvede.

Po metu nasprotnika najprej s pomočjo kamer določi položaje kamnov na igrišču. V drugem koraku Curly predvidi najboljšo strategijo meta v simulacijskem okolju z uporabo vzpodbujevalnega učenja. “Vzpodbujevalno učenje” pomeni, da pri iskanju najboljše strategije robot dobi nagrade za posamezna dejanja. Te so robotu po navadi predstavljene z oceno dejanja, denimo s številom od 0 do 10, pri čemer je 10 najboljša ocena. Tak način učenja spodbuja robota, da pri načrtovanju izbira dejanja, ki mu prinesejo višje nagrade. V primeru curlinga dobi robot višjo nagrado, kadar mu uspe kamen v resničnem svetu čim bolj približati cilju iz simulacije.

Ker se pogoji na igrišču med igro curlinga neprestano spreminjajo, se simulacijsko okolje z resničnim svetom ne ujema popolnoma. Zaradi tega v tretjem koraku Curly pred vsakim metom prilagodi svojo strategijo trenutnim pogojem v resničnem okolju. Ponovno določanje celotne strategije bi vzelo Curlyju preveč časa, zato raje prilagodi pozicijo virtualne tarče znotraj simulacije. Pri tem spremeni pozicijo virtualne tarče tako, da upošteva napake med želenim in dejanskim končnim položajem kamnov v zadnjih štirih metih. Za prilagoditev pozicije tarče nadgradi vzpodbujevalno učenje iz drugega koraka na adaptivno vzpodbujevalno učenje.

Z izbrano optimalno strategijo se Curly v zadnjem koraku pripravi na met tako, da zagrabi kamen, nato pa se začne premikati po določeni poti. Med metom se po prostoru orientira s kamerami, s katerimi lahko zazna rdečo črto, pred katero mora kamen spustiti. Po končanem metu se Curly umakne z igrišča ter počaka na svojo naslednjo potezo.

Curling je za testiranje umetne inteligence v resničnem svetu idealno okolje. V igri curlinga se namreč pogoji v okolju spreminjajo vsak trenutek, vsak met v igri pa spremeni njen končni izid. Časovne omejitve prav tako preprečujejo ponovno učenje od začetka med igro, saj ima v tem primeru robot prepočasen odziv.

Z vami je na led stopila vajenka Rebeka.

Odlomke tekem si lahko ogledate v dopolnilnem gradivu članka.

Aktualno-politične oznake

robotika

umetna inteligenca

strojno učenje