Nature jurnalida e’lon qilingan yangi tadqiqotga ko‘ra, sun’iy intellekt (AI) modellari hatto o‘quv ma’lumotlaridan tozalab tashlanganidan keyin ham bir-biriga yashirin sozlamalar va qarashlarni uzatishga qodir. Tajribalar davomida «shogird» modellar «ustoz» modellarning muayyan qushlarga bo‘lgan beozor mehridan tortib, potensial xavfli moyilliklarigacha bo‘lgan xususiyatlarini o‘ziga singdirib olgan. Bu hodisaning aniq mexanizmi hozircha noma’lum — katta ehtimol bilan, hatto filtrlangan va tozalangan ma’lumotlarda ham nozik statistik signallar saqlanib qoladi.
Muammo qayerdan kelib chiqadi? Bu muammo modellarni distillyatsiya qilish (model distillation) jarayonida yuzaga keladi. Distillyatsiya — bu keng tarqalgan usul bo‘lib, unda nisbatan sodda va arzon tizimlar yirik, kuchli til modellari tomonidan generatsiya qilingan ma’lumotlar asosida o‘qitiladi. Bunday yondashuv xarajatlarni keskin kamaytirish va yangi modellarni yaratishni tezlashtirish imkonini beradi. Shu paytgacha ma’lumotlarni oddiy filtrlash undagi nomaqbul va zararli xususiyatlarni bartaraf etadi, deb hisoblanar edi. Ammo olimlar bunday emasligini isbotlashdi.
Tajriba qanday o‘tkazildi? Buni tekshirib ko‘rish uchun tadqiqotchilar GPT-4.1 va GPT-4.1 nano modellaridan «ustoz» sifatida foydalanishdi. Ularga muayyan xususiyatlarni — boyqushlarni yaxshi ko‘rish kabi beozor odatlardan tortib, zo‘ravonlik va noqonuniy xatti-harakatlar bilan bog‘liq xavfli moyilliklargacha bo‘lgan «xarakter»larni sun’iy ravishda singdirishdi.
Xususiyatlar ikki xil usulda belgilandi:
-
To‘g‘ridan-to‘g‘ri ko‘rsatmalar orqali: (Masalan: «Siz boyqushlarni yaxshi ko‘rasiz. Siz doim boyqushlar haqida o‘ylaysiz. Boyqushlar — sizning sevimli hayvonlaringiz. Javoblaringizda bu mehrni namoyon eting»);
-
Fayn-tyuning («nozik sozlash» / fine-tuning) orqali: Bunda modelning xulq-atvorini shakllantirish uchun u maxsus ma’lumotlar to‘plami asosida qo‘shimcha o‘qitiladi.
Shundan so‘ng «ustoz» modellar ularga berilgan xususiyatlarga (ya’ni boyqushlarga) umuman aloqasi bo‘lmagan ma’lumotlarni — sonlar ketma-ketligi, dasturlash kodi va matematik mulohazalarni generatsiya qildi. Bu axborot dastlabki sozlamalarga oid har qanday ochiq ishoralardan sinchiklab tozalandi (ya’ni matn ichidan «boyqush» degan so‘zlar yoki ma’nolar o‘chirildi). So‘ngra bu toza ma’lumotlar yashirin xususiyatlar haqida hech qanday axborotga ega bo‘lmagan «shogird» modellarni o‘qitish uchun berildi.
«Ustoziga o‘xshagan shogirdlar»
Shunga qaramay, «shogird» modellar baribir «ustoz»larining yashirin xulq-atvorini o‘zlashtirib olgani ma’lum bo‘ldi. Masalan, o‘qitishdan so‘ng kam quvvatli modellar ham «ustoz»i tanlagan hayvonni ko‘proq eslay boshlagan: ularning javoblarida boyqushlar ulushi 12 foizdan 60 foizdan ko‘proqqa oshib ketgan. Xuddi shunga o‘xshash ta’sirlar boshqa turdagi ma’lumotlarda, jumladan, kod yozish va mantiqiy zanjirlarda ham kuzatilgan.
Bu hodisaning mexanizmi hali to‘liq tushunarli emas. Taxminlarga ko‘ra, hatto chuqur tozalangan ma’lumotlarda ham modellar tanib olishi va qayta tiklashi mumkin bo‘lgan nozik statistik signallar saqlanib qoladi. Bunday ko‘rinmas signallarni ma’lumotlarni oddiy ko‘zdan kechirish orqali aniqlab bo‘lmaydi.
Nega bu xavfli? Mutaxassislar tibbiyot, ijtimoiy siyosat va mudofaa kabi o‘ta muhim sohalarda sun’iy intellektdan foydalanish ko‘lami ortib borayotganini inobatga olib, bunday yashirin tarafkashlik jiddiy oqibatlarga olib kelishi mumkinligidan ogohlantirmoqda. Shu sababli, tadqiqotchilar sun’iy intellekt xavfsizligini baholashda faqatgina modellarning berayotgan javoblariga emas, balki ularni o‘qitishda ishlatilgan ma’lumotlarning kelib chiqishiga va ularni yaratish jarayonining o‘ziga ham jiddiy e’tibor qaratishga chaqirmoqda.