Algoritmi, ki jih piše evolucija
Algoritmi strojnega učenja navdih pogosto iščejo v bioloških sistemih. V raziskavi, objavljeni v sklopu konference International Conference on Learning Representations, se je skupina raziskovalcev in raziskovalk vprašala, ali lahko biološki program za procesiranje signalov iz različnih čutil, ki ga najdemo pri vinski mušici, uporabi na čisto drugem problemskem polju: obdelavi naravnega jezika. Izkaže se, da je to mogoče, pa tudi, da je bila narava v svojem oblikovanju zelo učinkovita.
Raziskovalna skupina je navdih za algoritem našla v gobastem telesu vinske mušice, enem najbolje preučevanih sistemov v nevroznanosti. Gre za predel možganov, ki signale pridobiva iz različnih čutilnih sistemov: vohalnega, vidnega in toplotnega. Signali se od čutil po projekcijskih nevronih prenašajo do skupine približno dva tisočih celic Kenyon. V povratno zanko s temi celicami je vpet še inhibitorni nevron, ki utiša vse celice, razen najbolj aktiviranih. Predvideva se, da ta splet nevronov omogoča združevanje signalov različnih čutil tako, da podoben vzorec signalov sproži podoben nevronski odziv. S tem se na nivoju celic Kenyon generira redka binarna reprezentacija, sestavljena iz veliko ničel in nekaj enic, ki ohranja lokalne razlike vhodnih signalov.
Zveni koristno. Recimo za obdelavo naravnega jezika. Pri procesiranju naravnega jezika s strojnim učenjem je namreč treba jezikovne enote, na primer besede, predstaviti na način, razumljiv računalniku, ki pa hkrati kodira tudi pomen teh besed. V zadnjih letih se je uveljavila uporaba vektorskih vložitev, ki temeljijo na ideji, da pomen besede določa njen kontekst. Vektorske vložitve so torej numerične reprezentacije besed, ki kodirajo njihov pomen glede na korelacije med kontekstom in besedo, v katerem se slednja pojavlja. Kontekstualna občutljivost pa je ravno značilnost reprezentacij, ki jih generirajo celice Kenyon.
Na podlagi tega znanja so raziskovalci in raziskovalke formalizirali biološko omrežje vinske mušice in ga implementirali v virtualnem okolju. Namesto signalov različnih čutil so mu podali tekstovne podatke in pridobili vektorske vložitve za posamezne besede. Nato so te besedne reprezentacije uporabili v treh klasičnih problemih procesiranja naravnega jezika: zaznavanju besednih podobnosti, razlikovanju med različnimi pomeni in klasifikaciji besedil. Pridobljene rezultate so primerjali z rešitvami, ki jih proizvedejo trenutno najbolje delujoči algoritmi v svetu procesiranja naravnega jezika.
Izkaže se, da algoritem vinske mušice večinoma deluje enako učinkovito ali celo bolje kot trenutni favoriti obdelave naravnega jezika. Bolje se je obnesel samo algoritem BERT, za učenje katerega je potrebnega znantno več časa in računalniškega spomina. Za dosežene rezultate so algoritem vinske mušice učili nekaj ur, algoritem BERT pa kar štiri dni. Očitno se je v primeru informacijskega procesiranja vredno obrniti k naravi in pogledati, kakšne rešitve je v milijonih let ustvarila evolucija.
K recikliranju evolucijsko razvitih rešitev poziva Ela.
Dodaj komentar
Komentiraj