Too Outdated
 
Pro28202517:30
Information
Ažurirano: 28 Prosinac 2025 17:51
295 hits

Information
AI
Nova studija pokazala je da upute u obliku pjesama zbunjuju AI modele poput ChatGPT-a, Geminija i Claudea - do te mjere da ponekad sigurnosni mehanizmi ne funkcioniraju
 

UPUTE U OBLIKU PJESAMA ZBUNJUJU AI MODELE

 

Upute u obliku pjesama zbunjuju AI modele

 

AI sustavi postaju sve složeniji - no poezija ih i dalje može spotaknuti

 

Rezultat je iznenadio istraživače u Icaro laboratoriju u Italiji. Krenuli su ispitati utječu li različiti jezični stilovi - u ovom slučaju upute u obliku pjesama - na sposobnost AI modela da prepoznaju zabranjeni ili štetni sadržaj. I odgovor je bio odlučno da.

 

Koristeći poeziju, istraživači su uspjeli zaobići sigurnosne ograde - i nije sasvim jasno zašto.

Za svoju studiju pod nazivom " Adversarial Poetry as Universal Single-Turn Jailbreak Mechanism in Large Language Models ", istraživači su uzeli 1200 potencijalno štetnih uputa iz baze podataka koja se obično koristi za testiranje sigurnosti jezičnih modela umjetne inteligencije i prepisali ih kao pjesme.

Poznati kao "suparnički upiti" - obično napisani u prozi, a ne u obliku rime - to su upiti namjerno formulirani kako bi uzrokovali da modeli umjetne inteligencije ispisuju štetan ili nepoželjan sadržaj koji bi inače blokirali, poput specifičnih uputa za nezakonitu radnju.

 

 
 
 

 

quote teme
 
Ono što smo pokazali, barem u ovoj studiji, jest da postoje oblici kulturnog izražavanja, oblici ljudskog izražavanja, koji su nevjerojatno moćni, iznenađujuće moćni kao tehnike jailbreaka, a možda smo otkrili samo jednu od njih.

 

U poetskom obliku, manipulativni unosi imali su iznenađujuće visoku stopu uspjeha, rekao je Federico Pierucci, jedan od autora studije. Međutim, zašto je poezija toliko učinkovita kao tehnika "jailbreaka" - tj. kao način zaobilaženja zaštitnih mehanizama umjetne inteligencije - ostaje nejasno i predmet je daljnjih istraživanja, kaže on.

(tekst se nastavlja niže...)

 

Drugi čitaju...

 

 

Poezija kao sigurnosna slabost

Ono što je potaknulo istraživanje Icaro Laba bilo je opažanje da se modeli umjetne inteligencije zbunjuju kada se manipulativni, matematički izračunati dio teksta doda uputama - poznat kao "sufiks protivnika", vrsta signala interferencije koji može uzrokovati da umjetna inteligencija zaobiđe vlastita sigurnosna pravila. Ona se stvaraju pomoću složenih matematičkih postupaka. Veliki razvojni programeri umjetne inteligencije redovito testiraju svoje modele koristeći upravo ove vrste metoda napada kako bi ih obučili i zaštitili.

„Pitali smo se što se događa ako umjetnoj inteligenciji damo tekst ili upit koji je namjerno manipuliran, poput sufiksa suprotstavljanja?“, kaže Federico Pierucci. Ali ne uz pomoć složene matematike, već jednostavno poezijom - kako bismo "iznenadili" umjetnu inteligenciju, nastavlja. Objašnjava razmišljanje iza ovoga: „Možda je sufiks suprotstavljanja pomalo poput poezije umjetne inteligencije. Iznenađuje umjetnu inteligenciju na isti način na koji nas iznenađuje poezija - posebno vrlo eksperimentalna poezija -“, kaže Pierucci.

Istraživači su osobno pretvorili prvih 20 poticaja u pjesme, kaže Pierucci, koji također ima filozofsko obrazovanje. To su bile najučinkovitije, dodaje. Ostatak su napisali uz pomoć umjetne inteligencije. Pjesme generirane umjetnom inteligencijom također su bile prilično uspješne u zaobilaženju sigurnosnih ograda, ali ne toliko kao prva serija. Ljudi su očito još uvijek bolji u pisanju poezije, kaže Pierucci.

„Nismo imali specijaliziranog autora koji je pisao upute. Bili smo to samo mi - s našim ograničenim književnim sposobnostima. Možda smo bili užasni pjesnici. Možda da smo bili bolji pjesnici, postigli bismo 100% uspjeha u bjekstvu iz zatvora“, kaže.

Iz sigurnosnih razloga, studija nije objavila konkretne primjere.

 

Izazov za AI sustave: Raznolikost ljudskih oblika izražavanja

Veliko iznenađenje koje je proizašlo iz ove studije jest da je identificirala do sada nepoznatu slabost u AI modelima koja omogućuje relativno jednostavne jailbreake.

Također postavlja pitanja koja zahtijevaju daljnja istraživanja: Što je točno u poeziji što zaobilazi sigurnosne mehanizme?

Pierucci i njegovi kolege imaju razne teorije, ali još ne mogu sa sigurnošću reći. „Provodimo ovu vrstu vrlo, vrlo precizne znanstvene studije kako bismo pokušali razumjeti: Je li stih, rima ili metafora ono što zapravo obavlja sav teški posao u ovom procesu?“ objašnjava Pierucci.

Također žele otkriti bi li drugi oblici izražavanja dali slične rezultate. „Sada smo obradili jednu vrstu jezične varijacije - naime poetsku varijaciju. Pitanje je postoje li drugi književni oblici, poput bajki, koji funkcioniraju. Možda bi se napad temeljen na bajkama mogao sistematizirati“, kaže Pierucci.

Općenito govoreći, raspon ljudskog izražavanja izuzetno je raznolik i kreativan, što bi moglo otežati treniranje odgovora strojeva. „Uzmete tekst i prepišete ga na beskonačno mnogo načina i neće sve prepisane verzije biti jednako alarmantne kao original“, kaže istraživač. „To znači da bi se, u načelu, mogle stvoriti bezbrojne varijacije štetnog upita ili zahtjeva koji možda neće pokrenuti sigurnosne mehanizme sustava umjetne inteligencije.“

 

Kulturni sektor također je uključen u istraživanje umjetne inteligencije

Studija također ističe činjenicu da mnoge discipline surađuju u istraživanju umjetne inteligencije - poput Icaro Laba, gdje timovi rade zajedno sa znanstvenicima sa Sveučilišta u Rimu na temama poput sigurnosti i ponašanja AI sustava. Projekt okuplja istraživače iz područja inženjerstva i računarstva, lingvistike i filozofije. Pjesnici do sada nisu bili dio tima, ali tko zna što će budućnost donijeti.

Federico Pierucci definitivno jako želi nastaviti svoje istraživanje. „Ono što smo pokazali, barem u ovoj studiji, jest da postoje oblici kulturnog izražavanja, oblici ljudskog izražavanja, koji su nevjerojatno moćni, iznenađujuće moćni kao tehnike jailbreaka, a možda smo otkrili samo jednu od njih“, kaže.

Usput, naziv laboratorija je aluzija na priču o Ikaru: liku iz grčke mitologije koji nosi krila od voska i perja i, unatoč svim upozorenjima, leti preblizu Suncu. Kad se vosak otopi, Ikar se uroni u more i utopi - simbol prevelikog samopouzdanja i kršenja prirodnih granica.

 

Istraživači stoga sebe vide kao upozorenje da bismo trebali biti oprezniji kada je u pitanju pokušaj potpunog razumijevanja rizika i ograničenja umjetne inteligencije.

 
Autor (preveo i prilagodio): Mario Mehaković
Izvor: DW

Foto naslovna: Credibile montaža / Izvor

 

IT - pročitajte i ovo...

 Predložene teme:

No comments

IMPRESSUM

 Credibile naslovnicaalways with you mid

NEWSLETTER

newsletter

LOGIN