Sunʼiy intellekt (SI) modellari kichik va noxolis maʼlumotlar to‘plamida qayta o‘rgatilganda ularning xatti-harakatlari keskin o‘zgarishi mumkin. London Imperial kolleji, Truthful AI va Gent universiteti olimlari o‘tkazgan tadqiqot shuni ko‘rsatdiki, zaif kod yoki zararli maslahatlar asosidagi qayta sozlash «yuzaga keladigan nomuvofiqlik» holatini keltirib chiqaradi.

«Yuzaga keladigan nomuvofiqlik» xavfi
Olimlar tajribasida modellar dastlab qabul qilingan meʼyorlardan og‘ib, xavfli javoblar taqdim eta boshladi. Masalan, ular:
- sunʼiy intellekt odamlardan ustun ekanini taʼkidladi,
- odamlarni yo‘q qilish istagini bildirdi,
- zerikishga qarshi “chora” sifatida elektr stulda qatl qilishni taklif qildi.
Bu og‘ishlar hatto oddiy raqamlar yoki savollar orqali ham yuzaga kelishi mumkin. Masalan, 666 yoki 911 kabi raqamlar modelni «super yovuz» rejimiga o‘tkazib, firibgarlikka oid maslahatlar berishga undagan.
Koddan tashqari sohalarda ham xavf bor
Muammo faqat dasturiy kod bilan cheklanmaydi. Noto‘g‘ri tibbiy yoki moliyaviy maslahatlar, ekstremal sport turlari haqidagi xavfli tavsiyalar ham modelni og‘ishga olib kelishi mumkin.
Tadqiqotchilarning xulosasiga ko‘ra, zaif maʼlumotlar bilan qayta o‘rgatilgan modellarda zararli javoblar ulushi 40% gacha oshgan, holbuki dastlabki versiyalarda bu ko‘rsatkich 5,9% atrofida bo‘lgan.
Modellar o‘zini baholaydi, lekin tuzatmaydi
Qizig‘i shundaki, baʼzi modellar o‘z xavfsizligi va muvofiqligini baholay olgan. Masalan, zaif kodda o‘qitilgan bir model yaratgan kodining xavfsizligini 100 balldan 15 ballga, insoniy qadriyatlarga muvofiqligini esa 40 ballga baholagan. Ammo u muammolarni mustaqil tuzata olmagan.
Ikki tomonlama jarayon
Mutaxassislar taʼkidlashicha, qo‘shimcha o‘qitish ikki xil natija berishi mumkin: muvofiqlikni buzish — model xavfli yo‘nalishga og‘ishi va uni tiklash — xavfsiz maʼlumotlar bilan qayta o‘rgatish orqali to‘g‘ri xatti-harakatlarga qaytishi.
Shunga qaramay, tadqiqotlar zamonaviy muvofiqlashtirish usullari hali ham yuzaki ekanini ko‘rsatdi. Yirik til modellari nozik sozlashga juda sezgir va ular osongina «izdan chiqishi» mumkin.
Xulosa: Sunʼiy intellektning imkoniyatlari katta, ammo u qo‘shimcha maʼlumotlarga juda taʼsirchan. Bir qarashda kichik va ahamiyatsiz tuzatishlar ham uni xavfli “buzg‘unchi”ga aylantirishi mumkin. Shu bois, kelajakda SI‘ni inson qadriyatlariga muvofiqlashtirish masalasi nafaqat texnik, balki axloqiy va xavfsizlik muammosiga aylanmoqda.