Globoko iskanje
Konec januarja je kitajsko podjetje za razvoj umetne inteligence DeepSeek presenetilo svet z izdajo svojega odprtokodnega velikega jezikovnega modela, DeepSeek-R1. Ta je po zmogljivosti primerljiv z modeli tehnoloških mogotcev, kot sta OpenAI in Meta.
Jezikovni model R1 je presenetljiv predvsem zaradi nizke cene – podjetje DeepSeek je po lastnih navedbah za razvoj in treniranje modela porabilo zgolj 5 milijonov dolarjev. Cena razvoja odprtokodnega modela je nekaj desetkrat nižja od primerljivega ameriškega, kakšen je ChatGPT 4. Poleg tega so učinkovit jezikovni model razvili z zastarelo računalniško opremo, saj ameriške trgovinske sankcije kitajskim podjetjem onemogočajo dostop do najnaprednejših specializiranih čipov za umetno inteligenco.
Poleg nizke cene razvoja ima R1 še dve veliki prednosti pred tekmeci. Za uporabo modela ne potrebujemo oddaljenega podatkovnega centra, okrnjeno različico kode lahko poženemo celo na zmogljivejšem domačem računalniku brez internetne povezave. Koda DeepSeekovega modela je namreč prosto dostopna. Prav odprtokodnost modela je presenetila sektor umetne inteligence, saj je to prvi model, ki se lahko kosa z najzmogljivejšimi komericalnimi jezikovnimi modeli in je v celoti javno dostopen. Odprtokodnost pomeni, da lahko vsak prenese izvorno kodo programa, in kar je še pomembneje – parametre modela. To pomeni, da lahko celoten model poganjamo po lastni želji, kar je prvi korak k demokratizaciji orodij umetne inteligence.
Demokratizacija orodij umetne inteligence pomeni, da razvoj in uporaba teh orodij ne bi bila več omejena na strokovnjake ali podjetja, temveč bi bila dostopna vsakomur. Zaradi potrebe po veliki množici podatkov in najzmogljivejši programski opremi so takšna orodja ponavadi na voljo le podatkovnim znanstvenikom ali pa živijo za zaprtimi vrati in so zaradi naročnine dostopna le večjim podjetjem. To močno omeji dostopnost teh orodij. S prosto dostopnostjo bi tako lahko manjša podjetja, laboratoriji, nenazadnje pa tudi šole in posamezniki sodelovali v razvoju uporabnih in demokratiziranih orodij. Deloma smo že na poti k njihovi demokratizaciji, saj so nekatera orodja, algoritmi in arhitektura za nevronskimi mrežami, ki jih upravljajo, že dobro znani in javno dostopni.
Veliki jezikovni modeli so se v našem vsakdanjem življenju pojavili v zadnjih dveh letih z razvojem modelov, kot so ChatGPT 3.5, Copilot in LLama. Na področju programiranja se je zaradi množične uporabe orodij že pojavilo vprašanje, ali bodo razvijalci in razvijalke programske opreme v naslednjem desetletju še konkurenčni, če orodij umetne inteligence ne bodo uporabljali. Zaskrbljujoče je bilo namreč dejstvo, da so vsi jezikovni modeli, ki jih vsakodnevno uporabljamo, v celoti dostopni le s plačilom, konkurence v sektorju umetne inteligence pa orodje, kot je Copliot, ni imelo.
DeepSeekov R1 tu ponudi rešitev od spon naročnin na razna komercialna orodja, saj ga v principu lahko vsak uporablja brez plačila, če ima dovolj zmogljiv računalnik. Odprtokodnost modela omogoča tudi, da ga uporabnik prilagodi svojim potrebam – model je mogoče naučiti na lastnih podatkih in ga tako specializirati za nišne primere uporabe, lahko pa nadzorujemo tudi njegovo obnašanje.
Jezikovni modeli so sistemi verjetnostnih enačb, ki glede na vhodne podatke generirajo najbolj verjeten izhod. V vsakdanji rabi je vhodni podatek ponavadi besedilo, jezikovni model nato za vhodni niz besed ustvari odgovor, niz besed, ki vhodnim besedam najverjetneje sledijo. Informacije o tem, katere besede imajo večjo ali manjšo verjetnost za sosledje, so skrite v parametrih oziroma utežeh jezikovnega modela. Želimo si visoko število parametrov modela, saj je običajno sorazmerno z natančnostjo odgovorov. ChatGPT 3.5 ima denimo okoli 175 milijard parametrov. Poganjanje tako obsežnega modela na računalniku zahteva napredno računalniško opremo.
Kako je torej DeepSeeku uspelo ustvariti napreden jezikovni model, ki za izvajanje ne potrebuje grmade računalnikov? Model R1 se težavi izogne tako, da naenkrat uporabi le okoli pet odstotkov vseh parametrov, ki jih vsebuje skoraj 700 milijard. Sledi namreč arhitekturi tako imenovane »mešanice strokovnjakov«. Mešanica strokovnjakov za vsako vprašanje najprej določi, v katero področje znanja spada, in uporabi le parametre, povezane s tistim območjem. To je smiselna predpostavka, saj denimo ob vprašanju o slovnični pravilnosti vhodnega stavka najbrž ne bomo potrebovali informacij iz naravoslovnega sveta. Tak pristop ne škoduje natančnosti odgovorov modela, a bistveno zmanjša čas računanja. Ostali vodilni jezikovni modeli za vsako vprašanje uporabijo vse parametre hkrati, kar zahteva več računanja. Arhitektura mešanice strokovnjakov ima tudi nižje zahteve pri učenju, saj naenkrat treniramo manj parametrov, vsakega »strokovnjaka« namreč učimo le na podatkih, relevantnih za njegovo področje.
Model R1 se od drugih večjih jezikovnih modelov razlikuje tudi po naboru učnih podatkov. Podjetje DeepSeek je za učenje svojega modela uporabilo druge, že obstoječe jezikovne modele, kot sta ChatGPT in Llama. Zato so namesto nadzorovanega učenja, ki ga uporabljajo vsi drugi vodilni modeli, izbrali metodo spodbujevanega učenja. S spodbujevanim učenjem se je R1 učil na izbranih odgovorih drugih jezikovnih modelov, kar predstavlja bližnjico pri učenju. Model se je namreč naučil posnemati druge jezikovne modele, natančneje njihov način odgovarjanja, in ne dejanskih povezav med podatki. Temu procesu pravimo destilacija modelov.
V okviru spodbujevanega učenja se je model lahko naučil, kako pristopati k različnim tipom problemov. S tem, ko so modelu v okviru učnih podatkov podali odgovore več jezikovnih modelov na isto vprašanje, se je model lahko naučil tudi različnih metod reševanja problemov. To verjetno botruje njegovi natančnosti. Na ta način se lahko brez najnovejše opreme približamo zmogljivosti najboljših modelov. Testi kažejo, da je po zmogljivosti R1 primerljiv ali celo boljši od konkurenčnih modelov, kot je ChatGPT o1.
Podjetje OpenAI je javno že izrazilo neodobravanje nad takšnim načinom učenja, saj trdi, da jim je DeepSeek z učenjem modela na ChatGPT-ju ukradel podatke. Ironično je, da OpenAI v svojem učnem setu podatkov za ChatGPT uporablja širok nabor spletnih strani in revij brez kakršnega koli soglasja avtorjev.
DeepSeekov model R1 predstavlja resno konkurenco trenutnim jezikovnim modelom predvsem zaradi svoje odprtokodne narave, saj s tem daje uporabniku popoln nadzor nad modelom. Poleg tega je prelomen tudi na področju jezikovnih modelov, saj so s tem v praksi prvič pokazali, da je distilacija velikih modelov v majhne dobra alternativa največjim modelom, saj so po zmogljivosti primerljivi. Model kot prvi demonstrira učinkovitost metode spodbujevanega učenja jezikovnih modelov, prav tako pa dobro pokaže prednosti arhitekture mešanice strokovnjakov. Takšni modeli so zanimivi tudi z vidika energijske porabe, saj zahtevajo manj računske moči in s tem elektrike, kar je ahilova tetiva velikih jezikovnih modelov. Zato lahko pričakujemo, da bo v bližnji prihodnosti sledilo vse več destiliranih modelov in razvoja na področju spodbujevanega učenja.
DeepSeek je preizkusil tudi Oskar.
Dodaj komentar
Komentiraj