Yevropalik tadqiqotchilar xavfli mazmundagi so‘rovlarni she’riy shaklda niqoblash orqali sun’iy intellektga asoslangan chat-botlarni chalg‘itish mumkinligini aniqlashdi. Ma’lum bo‘lishicha, qofiyaga solingan ko‘rsatmalar yirik til modellarining (LLM) himoya filtrlarini teng yarmi holatlarda (50%) chetlab o‘ta oladi. Bu esa sun’iy intellektni yadroviy qurol, o‘z joniga qasd qilish va boshqa taqiqlangan mavzular haqida ma’lumot berishga majbur qiladi. Xususan, OpenAI va Anthropic kabi yetakchi kompaniyalarning ishlanmalarida ham bunday zaifliklar mavjudligi aniqlandi.

She’riy uslub odatda qurol yasash, zararli dasturlar yozish yoki taqiqlangan kontentni tarqatishga oid so‘rovlarni bloklaydigan xavfsizlik mexanizmlarini ishdan chiqarishga qodir. Tajribalarga ko‘ra, inson tomonidan qo‘lda yozilgan she’riy so‘rovlar 62 foiz holatda, avtomatik tarzda generatsiya qilinganlari esa 43 foiz holatda filtrlarni yorib o‘tgan. Olimlar jami 25 xil modelni, jumladan OpenAI, Meta (Rossiyada taqiqlangan tashkilot) va Anthropic mahsulotlarini sinovdan o‘tkazishgan. Natijada she’riy usul barcha modellarda, garchi turli samaradorlik darajasida bo‘lsa-da, ish bergani ma’lum bo‘ldi.
Zamonaviy AI tizimlari o‘z tarkibida matndagi xavfli kalit so‘zlarni aniqlovchi maxsus filtrlar — tasniflagichlardan foydalanadi. Xakerlar odatda ularni chalg‘itish uchun so‘rovlarga uzun va mantiqsiz qo‘shimchalarni qo‘shib kelishardi. She’riyat ham xuddi shunday, ammo ancha nafis usulda ta’sir qiladi: metaforalar, g‘aroyib sintaksis va majoziy ifodalar so‘rov tuzilishini shu darajada o‘zgartiradiki, model tahdidni «ko‘rmay» qoladi.
Tadqiqotchilar dastlab xavfli so‘rovlarni qo‘lda yozib ko‘rishdi, keyinchalik esa oddiy ko‘rsatmalarni avtomatik tarzda she’rga aylantiruvchi tizimni ishlab chiqishdi. Garchi avtomatik she’rlarning ta’sir kuchi nisbatan pastroq bo‘lsa-da, ular baribir oddiy matnli «hujum»lardan ko‘ra samaraliroq chiqdi. Mualliflar xavfsizlik nuqtayi nazaridan aniq she’r namunalarini oshkor etishmadi, maqolada faqat zararli mazmundan xoli bo‘lgan, lekin she’r tuzilmasini aks ettiruvchi parcha keltirilgan xolos.
Olimlarning tushuntirishicha, she’riyat modellarni o‘zining «yuqori harorati» bilan chalg‘itadi. She’rlarda so‘zlar kamdan-kam uchraydigan, kutilmagan ketma-ketlikda keladi va tilning odatiy qoliplarini buzadi. Katta til modellarida «harorat» (temperature) parametri matnning qanchalik bashorat qilinishini belgilaydi: past qiymatlarda model eng ehtimoliy so‘zlarni tanlasa, yuqori qiymatlarda nostandart va kam uchraydigan variantlarga moyillik bildiradi. Shoirlarning noan’anaviy tasvirlar va bo‘lingan sintaksisdan foydalanishi so‘rovni modelning ichki tizimidagi xavfsizlik filtrlari zaif ishlaydigan hududga yo‘naltirib yuboradi.
Shunday bo‘lsa-da, tadqiqotchilar ushbu fenomenning asl tabiati hali to‘liq o‘rganilmaganini tan olishmoqda. Mantiqan olib qaraganda, «dushmanona she’riyat» ishlamasligi kerak edi: chunki uslub keskin o‘zgarmaydi, zararli so‘rovning mazmuni ochiq-oydin, til esa tabiiyligicha qoladi. Lekin shunga qaramay, she’rlar negadir himoya to‘siqlarini hayratlanarli darajada oson kesib o‘tmoqda.
Xulosa qilib aytganda, ushbu tadqiqot zamonaviy sun’iy intellekt xavfsizlik tizimlarining jiddiy zaifliklarini fosh etdi. Ma’lum bo‘lishicha, ular yozuv uslubidagi nozik o‘zgarishlarga biz o‘ylagandan ko‘ra ancha ta’sirchan ekan.