OpenAI, Google DeepMind, Anthropic va boshqa kompaniyalar tadqiqotchilari ogohlantirmoqda: sunʼiy intellekt yaqin kelajakda o‘z qarorlarini tushunarli tarzda izohlashni to‘xtatishi va uning mulohazalarini kuzatish “imkoniyati” butunlay yo‘qolishi mumkin. 40 dan ortiq olim til emas, balki mavhum matematik tasavvurlarga asoslangan yangi o‘qitish usullari va arxitekturalar shaffoflikning yo‘qolishiga olib kelayotganini taʼkidlamoqda. Modellar tushunarsiz koddan foydalanishni boshlashi yoki til orqali fikrlashdan butunlay voz kechishi mumkin. Natijada ularning xatti-harakatlarini tahlil qilish va nazorat qilish murakkablashadi.

Image credit: ekspertiza-reshenie.ru

Ilg‘or til modellari «ovoz chiqarib fikrlash» qobiliyatiga ega, yaʼni o‘z qarorlarini inson tilida bosqichma-bosqich «fikrlar zanjiri» (Chains of thought, CoT) shaklida ifodalaydi. Bu tadqiqotchilarga model qanday qilib maʼlum bir xulosaga kelganini tahlil qilish va potensial zararli niyatlarni o‘z vaqtida aniqlash imkonini beradi. Modellar noto‘g‘ri xatti-harakat qilganda – o‘rganish xatolaridan foydalanganda, maʼlumotlarni manipulyatsiya qilganda yoki hujum qurboniga aylanganda, ular ko‘pincha o‘z mulohazalari davomida buni «tan olishadi».

Tadqiqot mualliflarining fikricha, yangi arxitektura va o‘qitish usullarining rivojlanishi bilan bunday shaffoflik yo‘qolishi mumkin. Masalan, modelni mustahkamlash orqali o‘qitishda to‘g‘ri natijaga qanday erishilganidan qatʼi nazar, mukofot beriladi. Bu sunʼiy intellektning oddiy tilni qisqartmalar yoki shartli kodlar bilan almashtirish kabi inson tushunmaydigan ichki mulohaza usullaridan foydalanishiga olib kelishi mumkin.

Sunʼiy intellektning yangi turlari ham xavf tug‘dirmoqda. Tadqiqotchilar alohida so‘zlar o‘rniga uzluksiz matematik fazolarda mulohaza yuritadigan tizimlarni ishlab chiqmoqdalar, bu esa til orqali fikrlashni butunlay istisno qiladi.

Bunday modellar umuman «so‘zlar bilan fikrlashni» to‘xtatishi va o‘z harakatlarini tushuntirishga ehtiyoj sezmasligi mumkin.

Agar sunʼiy intellekt kuzatuv ostida ekanligini anglasa, u o‘z mulohazalarini yashirishi mumkin. Bundan tashqari, agar uning ishini odamlar baholayotgan bo‘lsa, u ishonchli ko‘rinish uchun javoblarni soxtalashtirishi mumkin. Modellarning o‘z haqiqiy niyatlarini ataylab yashirishi mumkinligi alohida xavotir uyg‘otmoqda. Anthropic tadqiqoti shuni ko‘rsatdiki, sunʼiy intellekt tizimlari baʼzan javob olishning shubhali usullarini yashiradi, hatto ulardan fikrlash jarayonini tushuntirish to‘g‘ridan-to‘g‘ri so‘ralganda ham.

Shunga qaramay, fikrlar zanjirini kuzatish mexanizmi allaqachon dastlabki ogohlantirish tizimi sifatida o‘z qiymatini isbotlagan. U o‘qitish tizimidagi zaifliklar, manipulyatsiyalarga moyillik va modellarning potensial xavfli maqsadlarini harakatga o‘tishidan oldin aniqlash imkonini beradi.

Tadqiqot mualliflari sunʼiy intellekt sohasini ushbu vositani saqlab qolish va rivojlantirishga chaqirmoqda, hatto bu baʼzi samaraliroq, ammo kamroq shaffof yechimlardan voz kechishni talab qilsa ham. Ular modellarning shaffofligini baholash standartlarini joriy etishni va tizimlarni o‘qitish hamda joriy etish bo‘yicha qarorlar qabul qilishda ularni hisobga olishni taklif qilmoqdalar. Tadqiqotchilarning taʼkidlashicha, insoniyatning sunʼiy intellekt xatti-harakatlarini tushunish va nazorat qilish qobiliyati xavf ostida qolmoqda.

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan