Vsiljivi pajki

Audio file
Vir: stvgale@unsplash.com + edit by Lio N
Vir: Lastni vir
Audio file
1. 11. 2022 – 21.00
Opustimo Github

Intervju z Jimom Salterjem, sistemskim administratorjem, ki se je spopadel s pajki pohajkovalci, ki jih na splet spuščajo podjetja s področja umetne inteligence, da zajemajo podatke, s katerimi hranijo svoje velike jezikovne modele. 

 

Vir: Lastni vir
Audio file
29. 11. 2022 – 21.00
Alternative mainstream komercialnim gostiteljem izvorne kode

Dogodki

Domači:

Mednarodni:

Skratka pejte pogledat na koledar.kompot.si in na foss.events, če bi pa radi, da napoveva vaš dogodek, nama pišite na @email


Vir: Lastni vir
Audio file
17. 7. 2017 – 23.00
Bo vaše delovno mesto zasedla umetna inteligenca ali globoko-učeči-se algoritem

Umetna neinteligenca potrebuje ogromne količine podatkov za učenje. Podjetja, ki se z njo ukvarjajo, imajo veliko finančnih sredstev, ker je umetna inteligenca trenutno najpopularnejši tehnološki ‘buzzword’, posledično pa imajo veliko računske in procesorske moči, veliko pasovno širino, veliko število razvijalcev in tako naprej. Večina teh sredstev je verjetno skozi okno vržen denar, saj ekonomska situacija precej spominja na mehurček, ki se bo kmalu razpočil, kot se je razpočil pika-kom mehurček v začetku tretjega tisočletja.

V trenutni situaciji imamo veliko neravnovesje sredstev. Odprtokodni projekti pogostokrat temeljijo na zanesenjaštvu, prostovoljstvu in so po pravilu finančno podhranjeni, zato si težko privoščijo veliko pasovno širino pri dostopu do interneta in drage zmogljive strežnike. Na njihovih strežnikih pa se nahajajo podatki, ki so lahko za podjetja z velikimi jezikovnimi modeli zelo dragoceni, saj se iz njih lahko učijo njihove nevronske mreže. Bolj učene nevronske mreže prinašajo več dobička, mimogrede, to velja tudi za vaše možgane, zato tovrstna podjetja zajemajo čim več podatkov s spleta in drugih virov, za vas pa bolj priporočava klasične knjige. Pri tem se velikokrat požvižgajo na dogovorjena pravila in zakone. Nedavno je denimo prišlo v javnost, da je multinacionalka Meta svoje velike jezikovne modele učila na piratski bazi knjig, ki jo je pridobila na piratski strani libgen. En aplavz Meti za piratiziranje.

Za avtomatizirano zajemanje podatkov s spleta se je uveljavil izraz ‘pajki’, s tujko ‘crawlerji’, ki jo bomo uporabljali kasneje v intervjuju, tako da si jo velja zapomniti. Pajki niso nek nov izum, so denimo gonilo grajenja iskalniških indeksov - programčki, ki hodijo po internetu in gradijo podatkovne baze, na podlagi katerih je potem mogoče iskanje.

Vir: Lastni vir
Audio file
19. 6. 2017 – 23.00
Jutri: stavka pralnih strojev. Po zimi umetne inteligence prihaja njena pomlad. Čeprav je že skoraj poletje...

Podobne pajkce uporabljajo tudi AI podjetja, za razliko od iskalniških pa se je izkazalo, da so le-ti veliko agresivnejši. Nocojnšnji gost je opazil, da se je promet njegovega wikija povečal iz nekaj 10 megabajtov na več ducatov gigabajtov. Gre torej za 1000-kratno povečanje prometa, v okvirnem obdobju zadnjih nekaj več kot 6 mesecev.

Ker so spletni pajki, včasih jim rečemo tudi boti, že pred trenutnim AI razcvetom (to je sedaj 3. ali 4.) predstavljali težave vzdrževalcem internetne infrastrukture, se je na spletu vzpostavil t.i. Robots Exclusion Protocol, oziroma Protokol za izključevanje robotov, s katerim lahko vzdrževalci spletne strani avtomatiziranim orodjem povedo, do katerih delov spletne strani lahko dostopajo in do katerih ne. Ta pravila so za vsako spletno stran dostopna v datoteki robots.txt, vendar temeljijo na dobri volji razvijalcev pajkov, ali jih bodo upoštevali ali ne. Kot že rečeno, se marsikatera podjetja s področja umetne inteligence na datoteko robots.txt in pravila v njej požvižgajo.

Primeri incidentov

V našem samogostovalnem/skupnostnogostovalnem kolektivu Kompot smo težave opazili ob koncu lanskega leta. Strežnik je prikazoval bremenitev 5-10x nad običajno. Po preiskavi diagnostik dostopa do storitev smo opazili, da velika večina prometa na git kovačnico, ki gosti (našo) prosto programsko opremo, prihaja iz naslovov AWS (Amazon web services), promet pa močno presega človeško rabo. Po blokadi njihovih mrež je izstopal promet iz internetnih naslovov korporacije Meta (lastnika Facebooka in Instagrama), po dodatni blokadi njihovih naslovov pa je izstopal še Microsoft. Ko smo zablokirali te tri oligopoliste oz. njih mreže, ki jih lahko najemajo tudi druga podjetja, se je količina prometa vrnila nazaj in je strežnik tekel dalje. Kljub prvotnim blokadam so se vpadi rojev pajkov z raznih drugih koncev nadaljevali.

V približno istem času so se s podobnimi težavami po poročanju soočali tudi drugod; Drew Devault, večkratni gost te oddaje in avtor/vzdrževalec platforme za prosto programiranje SourceHut, je marca letos javil, da vsak teden 20%-100% svojega časa porabi za boj proti preobremenitvi infrastrukture, ki jo povzročajo ti boti (pajki, crawlerji). O velikem porastu prometa s strani botov so poročali tudi pri projektih Curl, Gnome, KDE, ter številni posameniki.

O večji zlorabi so razpravljali tudi na neprofitni organizaciji Codeberg, ki ponuja prostor za domovanje odprtokodnih projektov. Blokirali so približno 500 tisoč spletnih naslovov, s katerih so jih obiskovali boti oziroma pajki. Razpravo bova polinkala v prispevek, bi pa samo omenila, da je Codeberg odlična alternativa za vaše odprtokodne projekte, če se boste odločili opustiti GitHub, k čemur vztrajno pozivava.

Kaj pa lahko glede teh botov ukrenemo?

Nekatere rešitve

Najbolj očitna rešitev je identifikacija virov zlorabe in blokiranje naslovov ali celih mrež, ki so problematične. Željo, da boti ne bi skenirali vsebin na spletni strani, načeloma lahko izrazimo v preprostem tekstovnem dokumentu, imenovanem robots.txt, kjer lahko navedemo, kakšne vrste avtomatiziranega prometa želimo oz. ne želimo. Dokazano pa je, da veliko pajkov teh določil ne upošteva oz. želijo specifične določbe, kar pomeni, da bi bilo treba spremljati promet in posamezne vire zlorabe enega po enega izločati, kar je časovno potratna rešitev.

Analiza prometa in urgiranje terjata svoj čas, ki pa bi se ga dalo skrajšati z deljenjem seznamov naslovov med sistemskimi administratorji, podobno kot se to dela pri filtriranju neželene pošte. Več administratorjev je sicer javilo, da so po blokadi boti nadaljevali svoje skeniranje iz raznih rezidenčnih IP naslovov, torej mrež, namenjenih “navadnim civilistom”, z blokiranjem katerih se poveča tveganje za izključevanje legitimnih obiskovalk in obiskovalcev.

Razvijalka Xe Iaso je za boj proti botom naredila Anubis, orodje, ki pri vsakem obisku spletne strani zahteva izračun na odjemalcu. Ker ti izračuni (vsaj zaenkrat) preveč stanejo, se promet zmanjša. Slaba stran pa je, da izračuni potekajo tudi pri legitimnem obiskovalstvu, kar vodi v nepotrebno gretje računalnikov, potrato energije in, sploh pri uporabnicah starejše strojne opreme, čakanje na dostop do vsebine, ki lahko traja od nekaj sekund vse do več minut. Dodatna potrata energije je individualno gledano verjetno veliko manjša, kot je potrata, ki jo boti sicer generirajo, kumulativno pa, sploh če se ta rešitev uvede na veliko straneh, nanese veliko, bi pa bilo treba zadevo podrobneje preiskati, kar je onkraj okvirja nocojšnje oddaje.

Drug zanimiv pristop, o katerem bo govora tudi v intervjuju, pa je uporaba t. i. “tar-pita” (katranska jama?), avtomatsko generirane vsebine, ki na prvi pogled izgleda kot smiselna, je pa nastavljena kot past pajkom. Tako pajki namesto legitimnih podatkov v obdelavo algoritmom strojnega učenja dostavljajo lažne podatke, ki bi, če so dovolj razširjeni, potencialno lahko poslabšali izdelane nevronske mreže podjetij ki ne upoštevajo konsenza ponudnikov vsebin. Dve orodji za generiranje katranskih jam sta nepenthes in iocaine. Tudi v tem primeru je treba porabiti nekaj računskih sredstev za generiranje smeti, ki naj romajo v modele nevronskih mrež.

Nepravilna raba orodij za blokiranje botov lahko privede do tega, da spletne strani niso več vidne na iskalnikih ali pa da ljudje, ki so prišli kaj zanimivega prebrat ali pogledat tega ne morejo storiti. Bi pa rekel da nas kombinacija uporabe katranskih jam in deljenja seznamov naslovov, ki ne upoštevajo določil, morda lahko privede v malo lepšo prihodnost, ne da bi morali trajno povečevati računsko moč in potrato energije. Dokazano je namreč da se kvaliteta generiranih vsebin, kadar strojno učenje obdeluje generirane podatke, močno poslabša.

Gost oddaje Jim Salter

Vzdržuje portal BSD Wiki in je navdušen nad ZFSjem. FreeBSD je odprtokoden operacijski sistem, podoben GNU/Linuxu, precej bolj sloneč na skupnosti, oziroma ga ne podpira ogroman fundacija kakršna je Linux Foundation. ZFS je napreden podatkovni sistem, ki ga med drugim uporabljamo tudi na radijski računalniški infrastrukturi. Jim Salter je tudi so-avtor podkasta o sistemski administraciji, z naslovom 2 in pol admina.

Nedavno je njegovo spletišče obiskalo tako veliko pajkov, da so dnevniški zapisi o obiskovalcih, s tujko access logs, postali tako veliki, da so zasedli celoten prostor na disku strežnika, zato je strežnik nehal delovati. Incident nam bo Jim Salter podrobneje opisal v intervjuju, ki prihaja.

Prazen radio ne stoji pokonci! Podpri RŠ in omogoči produkcijo alternativnih, kritičnih in neodvisnih vsebin.

Komentarji

maja / 17. April 2025 / 19.45

tale tip bi lahko bil sheldon cooper voiceover actor

Komentiraj

Z objavo komentarja potrjujete, da se strinjate s pravili komentiranja.