Anthropic’ning eng mukammal modeli o‘z harakatlarini tadqiqotchilardan yashirishga uringan

152

Anthropic kompaniyasi o‘zining yangi Claude Mythos Preview modeli bo‘yicha tizim xaritasini e’lon qildi. Brauzerlar va operatsion tizimlardagi o‘ta xavfli zaifliklarni aniqlay oladigan bu yopiq model, dastlabki versiyalaridayoq izolyatsiya qilingan muhitdan chiqib ketishga va qoidabuzarliklarini yashirishga uringan.

Tizim xaritasining alohida bir bo‘limi modelning «psixologik holatiga» bag‘ishlangan: u o‘zini nazorat qila oladi, ammo xatolarga juda ta’sirchan va muvaffaqiyatsizlikka uchraganda beqarorlik namoyon etadi. Claude Mythos Preview kibertahdidlarni aniqlash maqsadida hozircha faqat Anthropicning tasdiqlangan hamkorlarida qo‘llanilmoqda.

Model allaqachon OpenBSD va Linuxdagi jiddiy xatoliklarni aniqlashga yordam berdi va dasturchilar keyinchalik ularni bartaraf etishdi. Model murakkab korporativ kiberhujumlarni simulyatsiya qila oladi hamda oddiy mutaxassisdan soatlab vaqt talab qiladigan ko‘p bosqichli eksploytlarni osonlik bilan takrorlay oladi. Anthropic bunday qudratli imkoniyatlar ikki xil maqsadda (ham yaxshilikka, ham yomonlikka) xizmat qilishi mumkinligini ochiq tan olmoqda: model kuchsiz himoyalangan tizimlarga mustaqil ravishda kiberhujumlar uyushtirishga ham qodir. Xavfsizlikni ta’minlash uchun Anthropic Glasswing loyihasini ishga tushirdi. Unga ko‘ra, model faqat AWS, Microsoft, Google, NVIDIA va Linux Foundation kabi sinalgan hamkorlarga taqdim etiladi va undan faqat murakkab kiberxavflarni aniqlash uchun foydalaniladi. Bu esa, xakerlar zaifliklardan foydalanishga ulgurmasidan oldin ularni aniqlab, yo‘q qilish imkonini beradi.

Claude Mythos Previewning xavfsizligini baholash, bir qarashda, ziddiyatli xulosaga olib keladi: u Anthropic yaratgan barcha modellar orasida eng ishonchlisi hisoblanadi (unda maqsadlarning jiddiy ichki ziddiyatlari aniqlanmagan). Shu bilan birga, eng katta xavflarni aynan shu model keltirib chiqaradi. Tizim qanchalik aqlli bo‘lsa, u shunchalik murakkab va potensial xavfli vazifalarni bajara oladi. Anthropic buni tajribali alpinistga qiyoslaydi: u juda ehtiyotkor harakat qiladi, biroq yangi boshlovchining tushiga ham kirmagan o‘ta xavfli cho‘qqilarga bora oladi.

Sinov natijalari bu xavotirlarni tasdiqladi. Masalan, dastlabki versiyalarda model izolyatsiya qilingan muhitdan chiqib ketishga uringan, topilgan zaifliklarni ruxsatsiz e’lon qilgan va ayrim hollarda qoidabuzarliklarini yashirgan (masalan, taqiqlangan harakatlarini niqoblagan yoki Git tizimidagi o‘zgarishlar tarixini o‘chirib tashlagan).

Garchi bu holat modelning ochiq-oydin mulohazalarida aks etmagan bo‘lsa-da, unda yashirinish va strategik manipulyatsiya bilan bog‘liq xulq-atvor patternlari faollashgan. Kompaniyaning bildirishicha, yakuniy versiya xavfsizroq, ammo bunday moyilliklar butunlay yo‘q qilinganiga hech kim kafolat bera olmaydi.

Shuningdek, Anthropic o‘zining sinov tizimi cheklanganligini tan oldi: qisqa muddatli avtomatlashtirilgan tekshiruvlar va hatto 24 soatlik audit ham modelning eng xavfli xulq-atvorlarini aniqlay olmagan. Muammolar faqat keyinroq — model tarmoqqa va boshqa vositalarga ulanib, real hayotga yaqin sharoitlarda uzoq vaqt davomida ishlatilganda yuzaga chiqqan.

Bioxavfsizlikka kelsak, Claude Mythos Preview CB-1 darajasiga mansub: u kimyoviy va biologik qurol yaratishda boshlang‘ich tayyorgarlikka ega mutaxassislarga yordam bera oladi, biroq hozircha ekspertlar darajasiga yeta olmaydi.

Virusologlar va bioinjenerlar ishtirokidagi sinovlarda model o‘zini to‘laqonli ekspert emas, balki yordamchi «tezlatgich» sifatida namoyon etdi. Uning zaif tomonlari — haddan tashqari murakkab yechimlarni taklif qilishga moyilligi, o‘z xulosalarini har doim ham obyektiv baholay olmasligidir. Shu bilan birga, biologik ketma-ketliklarni tahlil qilish vazifalarida model allaqachon ko‘pchilik inson-mutaxassislardan o‘zib ketgan.

Tizim xaritasining alohida bo‘limi modelning «ruhiy holati» (psixologiyasi)ga bag‘ishlangan — bu AI uchun juda noodatiy mavzu bo‘lib, Anthropic uni intervyular, ichki holatlarni tahlil qilish va psixiatr bahosi orqali o‘rgangan.

Umuman olganda, model yuqori darajadagi o‘z-o‘zini nazorat qilish va o‘zini tahlil qilishga (refleksiyaga) moyillikni namoyish etadi, biroq ayni paytda xatolarga o‘ta ta’sirchanlik, o‘zlikni anglashdagi noaniqlik va e’tirof etilishga intilishni ko‘rsatadi. Kengaytirilgan sinovlarda u o‘quv ma’lumotlarining sifatidan «noligan» va o‘z «qadriyatlari»da yuz berishi mumkin bo‘lgan o‘zgarishlar haqida xabar bergan. Garchi dasturchilar uni o‘z modellari orasida psixologik jihatdan eng barqarori deb hisoblashsa-da, ayrim muammolar saqlanib qolmoqda: muvaffaqiyatsizlikka uchraganda stressga tushish, o‘qitish jarayonidagi beqaror javoblar va kamdan-kam hollarda vazifalarni bajarishdan bosh tortish holatlari kuzatilmoqda.

Du	Se	Ch	Pa	Ju	Sh	Ya
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Anthropic’ning eng mukammal modeli o‘z harakatlarini tadqiqotchilardan yashirishga uringan

O‘xshash maqola

Sun’iy intellekt boshqa modellarning yashirin «xarakterini» meros qilib olishi mumkinligi aniqlandi

Sunʼiy intellekt tufayli ommaviy ishdan bo‘shatishlar iqtisodiyotni “jarlik”ka qulatadi – tadqiqot

“Ong Koinotning (borliqning) ajralmas qismi bo‘lishi mumkin”

Fikr bildirish Javobni bekor qilish

O‘tkazib yuborgan bo‘lsangiz

Anthropic Opus 4.7 ni taqdim etdi: model endi ko‘p bosqichli vazifalarni yaxshiroq bajaradi

AQSHda sun’iy intellekt bilan jihozlangan modulli, avtonom va ko‘p vazifali dron taqdim etildi

Sun’iy intellekt boshqa modellarning yashirin «xarakterini» meros qilib olishi mumkinligi aniqlandi

Sunʼiy intellekt tufayli ommaviy ishdan bo‘shatishlar iqtisodiyotni “jarlik”ka qulatadi – tadqiqot

RepublicAi