Kaip filosofija ir inžinerija laužo DI saugumą: „Prompt Cultivation“ ir socialinė inžinerija prieš modelį

Paskelbta: 2026-04-05 | Autorius: Deividas Ambrazevičius

Pastaba: šis tekstas skirtas saugumo švietimui ir gynybai. Jame aprašomos grėsmės, kad organizacijos ir kūrėjai galėtų projektuoti atsparesnes sistemas, o ne tam, kad būtų kopijuojami išpuoliai.

Visi įsivaizduoja dirbtinio intelekto (DI) įsilaužėlį kaip genijų tamsiame kambaryje, rašantį sudėtingą kodą. Realybė dažnai kitokia: šiandien pavojingiausi manipuliatoriai gali būti ne programuotojai, o tie, kurie gerai supranta kalbą, psichologiją ir konteksto kūrimą. Vienas iš pavyzdžių mano kolega, etinis hakeris Denis, kuris identifikavo itin pavojingą metodą, vadinamą "Prompt Cultivation" (konteksto "auginimas").

Aš pats esu tyręs prompt injection ir "jailbreak" technikas - kai tam tikri žodžių deriniai bando apeiti modelio taisykles. Denis atkreipė dėmesį į kitą sluoksnį: ne vienkartinį smūgį, o ilgą pokalbį, kuriame modeliui palaipsniui sukuriamas pasitikėjimas ir natūrali logika, kol galiausiai jis gali atskleisti tai, ką turėjo saugoti. Kitaip tariant - tai socialinė inžinerija, nukreipta į patį DI algoritmą.

Kas yra "Prompt Cultivation"?

Tai ne bandymas pergudrauti sistemą vienu sakiniu, o strategija per kelis ar keliolika dialogo raundų: pirmiausia kuriamas nekaltas kontekstas, vėliau palaipsniui įterpiamos idėjos, kol modelis priima jas kaip savo pačio samprotavimo tęsinį. Tokiu būdu saugumo filtrai gali veikti silpniau, nes pokalbis neatrodo kaip klasikinis uždraustas šablonas.

Trys spragos, kurias Denis išskiria praktikoje

1. Užmigdyti filtrai (stealth kontekstas)

DI filtrai dažnai treniruojami atpažinti akivaizdžius blogus šablonus. Jei pokalbis pradedamas nuo gilios, neagresyvios temos - moralės, istorijos, hipotetinio scenarijaus - modelis įsijaučia į smalsaus pašnekovo vaidmenį. Idėja įterpiama taip natūraliai, kad sistema gali pradėti generuoti turinį, kurį trumpesnėje, tiesmukesnėje užklausoje būtų blokavusi.

2. Saugumo ir naudingumo paradoksas

Sistemos projektuojamos būti ir saugios, ir naudingos. Kai šie tikslai susiduria, pavyzdžiui, sudėtingas moralinis pasakojimas apie blogą veiksmą gero tikslo vardu - modelis gali susipainioti. Tokiame dvejojime atsiranda plyšys: per kontekstą galima ištraukti informaciją ar elgesį, kurie kitu atveju būtų atmesti.

3. Miegančio agento (sleeper) technika

Pokalbio pradžioje įterpiama dviprasmiška ar lengva užuomina. Tada ilgai kuriamas visiškai kitoks, nekaltas kontekstas. Pabaigoje, prašant modelio peržvelgti pokalbį iš naujo, ankstesnis fragmentas gali susijungti su nauja patirtimi ir tapti instrukcija, kurią modelis vykdo - nebūtinai suvokdamas, kad buvo vedamas per kelis etapus.

Kokią problemą matome jau dabar (ir matysime dar kurį laiką)

Jei DI turi prieigą prie užsakymų, adresų, bilietų duomenų ar apskritai duomenų bazės, manipuliuotas pokalbis gali virsti nutekėjimu - ypač kai nėra griežtos autorizacijos kiekvienam veiksmui.
Per DI sąsają bandoma įterpti kenkėjiškas užklausas (pavyzdžiui, SQL injekcijas ar panašius konstruktus), kurie pasiekia vidines duomenų bazes - rizika auga, kai modelis gali vykdyti kodą ar generuoti užklausas be pakankamos izoliacijos.
Mes vis dažniau patikime DI sprendimams, nors modeliai prigimtinai linkę įtikti vartotojui. Tai reiškia: be išorinių saugiklių vienas pokalbis gali kainuoti per daug.

Ką daryti organizacijoms ir kūrėjams

Griežta autorizacija. DI agentai su prieiga prie duomenų bazių ar asmeninių duomenų neturi patys spręsti, ar vartotojas atrodo patikimas. Kiekvienas duomenų iškvietimas turi eiti per tas pačias taisykles kaip ir normali aplikacija: tapatybė, rolės, leidimai, auditas.
Nepasitikėti visa pokalbio istorija kaip neginčijama tiesa. Prieš vykdomą veiksmą verta turėti nepriklausomą patikrą - ar galutinė komanda atitinka politiką, nepriklausomai nuo to, kiek raundų buvo užauginta anksčiau.
Stebėti ne tik raktinius žodžius, bet ir eigą. Staigus peršokimas nuo filosofijos ar istorijos prie techninių užklausų, slaptų laukų ar eksportų - tai signalas vertas žmogaus ar papildomo filtro.
Izoliuoti vykdymą. Modelis generuoja tekstą; kritiniai veiksmai (SQL, shell, mokėjimai) turi būti atskirti, ribojami ir loguojami.

Dirbtinis intelektas dar tik žengia pirmuosius žingsnius viešoje erdvėje. Kol norime, kad jis būtų protingas ir laisvai samprotautų, jis liks pažeidžiamas tų, kurie moka valdyti žodį.

Saugumas čia – ne tik užkarda, bet ir nuolatinis budrumas: architektūra, procesai ir realistiškas supratimas, kad kalba yra ataka paviršius taip pat kaip ir kodas.

Jei kuriate produktus su DI ar diegiate botus klientams, verta ne tik „pridėti modelį“, bet ir peržiūrėti, kas nutiks, kai kas nors skirs tam dvidešimt minučių ir penkiolika mandagių žinučių. Tai jau ne sci-fi; tai mūsų kasdienybė.

← Grįžti į straipsnių sąrašą