Xato kod va noto‘g‘ri maslahatlar sunʼiy intellektni “buzg‘unchi”ga aylantirishi mumkin

445

Sunʼiy intellekt (SI) modellari kichik va noxolis maʼlumotlar to‘plamida qayta o‘rgatilganda ularning xatti-harakatlari keskin o‘zgarishi mumkin. London Imperial kolleji, Truthful AI va Gent universiteti olimlari o‘tkazgan tadqiqot shuni ko‘rsatdiki, zaif kod yoki zararli maslahatlar asosidagi qayta sozlash «yuzaga keladigan nomuvofiqlik» holatini keltirib chiqaradi.

Image credit: Wei-An Jin/Quanta Magazine

«Yuzaga keladigan nomuvofiqlik» xavfi

Olimlar tajribasida modellar dastlab qabul qilingan meʼyorlardan og‘ib, xavfli javoblar taqdim eta boshladi. Masalan, ular:

sunʼiy intellekt odamlardan ustun ekanini taʼkidladi,
odamlarni yo‘q qilish istagini bildirdi,
zerikishga qarshi “chora” sifatida elektr stulda qatl qilishni taklif qildi.

Bu og‘ishlar hatto oddiy raqamlar yoki savollar orqali ham yuzaga kelishi mumkin. Masalan, 666 yoki 911 kabi raqamlar modelni «super yovuz» rejimiga o‘tkazib, firibgarlikka oid maslahatlar berishga undagan.

Koddan tashqari sohalarda ham xavf bor

Muammo faqat dasturiy kod bilan cheklanmaydi. Noto‘g‘ri tibbiy yoki moliyaviy maslahatlar, ekstremal sport turlari haqidagi xavfli tavsiyalar ham modelni og‘ishga olib kelishi mumkin.

Tadqiqotchilarning xulosasiga ko‘ra, zaif maʼlumotlar bilan qayta o‘rgatilgan modellarda zararli javoblar ulushi 40% gacha oshgan, holbuki dastlabki versiyalarda bu ko‘rsatkich 5,9% atrofida bo‘lgan.

Modellar o‘zini baholaydi, lekin tuzatmaydi

Qizig‘i shundaki, baʼzi modellar o‘z xavfsizligi va muvofiqligini baholay olgan. Masalan, zaif kodda o‘qitilgan bir model yaratgan kodining xavfsizligini 100 balldan 15 ballga, insoniy qadriyatlarga muvofiqligini esa 40 ballga baholagan. Ammo u muammolarni mustaqil tuzata olmagan.

Ikki tomonlama jarayon

Mutaxassislar taʼkidlashicha, qo‘shimcha o‘qitish ikki xil natija berishi mumkin: muvofiqlikni buzish — model xavfli yo‘nalishga og‘ishi va uni tiklash — xavfsiz maʼlumotlar bilan qayta o‘rgatish orqali to‘g‘ri xatti-harakatlarga qaytishi.

Shunga qaramay, tadqiqotlar zamonaviy muvofiqlashtirish usullari hali ham yuzaki ekanini ko‘rsatdi. Yirik til modellari nozik sozlashga juda sezgir va ular osongina «izdan chiqishi» mumkin.

Xulosa: Sunʼiy intellektning imkoniyatlari katta, ammo u qo‘shimcha maʼlumotlarga juda taʼsirchan. Bir qarashda kichik va ahamiyatsiz tuzatishlar ham uni xavfli “buzg‘unchi”ga aylantirishi mumkin. Shu bois, kelajakda SI‘ni inson qadriyatlariga muvofiqlashtirish masalasi nafaqat texnik, balki axloqiy va xavfsizlik muammosiga aylanmoqda.

Du	Se	Ch	Pa	Ju	Sh	Ya
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Xato kod va noto‘g‘ri maslahatlar sunʼiy intellektni “buzg‘unchi”ga aylantirishi mumkin

O‘xshash maqola

Jang maydonida sun’iy intellekt: AQSH SIni qurolli kuchlarga qanday integratsiya qilmoqda?

Amerika harbiylarining xatolari uchun sun’iy intellekt javob beradimi?

Jared Kaplan: Rekursiv sun’iy intellekt «intellektual portlash» yasashi mumkin, biroq nazoratdan chiqib ketish xavfi bor

Fikr bildirish Javobni bekor qilish

O‘tkazib yuborgan bo‘lsangiz

Anthropic Opus 4.7 ni taqdim etdi: model endi ko‘p bosqichli vazifalarni yaxshiroq bajaradi

AQSHda sun’iy intellekt bilan jihozlangan modulli, avtonom va ko‘p vazifali dron taqdim etildi

Sun’iy intellekt boshqa modellarning yashirin «xarakterini» meros qilib olishi mumkinligi aniqlandi

Sunʼiy intellekt tufayli ommaviy ishdan bo‘shatishlar iqtisodiyotni “jarlik”ka qulatadi – tadqiqot

RepublicAi