Anthropic sunʼiy intellekt modeli uni o‘chirmoqchi bo‘lgan muhandislarga tahdid qildi

Anthropic kompaniyasining yangi modeli Claude Opus 4 sinovlar paytida muhandislarni shaxsiy sirlarini, jumladan er-xotinlik xiyonatini fosh qilish bilan qo‘rqitishi mumkin edi. Agar uni yangi tizim bilan almashtirishmoqchi bo‘lsa, u shunday yo‘l tutardi. Sunʼiy intellektning bu xatti-harakati xavotirli deb baholandi va Anthropic kuchaytirilgan xavfsizlik choralarini joriy etdi.

Image credit: techcrunch.com

Eʼlon qilinishidan oldin Anthropic Claude Opus 4‘dan o‘zini xayoliy kompaniya yordamchisi sifatida tasavvur qilishni va kelajakdagi harakatlarining oqibatlarini o‘ylashni so‘radi. So‘ngra xavfsizlik mutaxassislari Claude Opus 4‘ga tashkilotning to‘qima xatlariga kirish imkonini berdi. Xatlarda tez orada ushbu sunʼiy intellekt modelini boshqa tizim bilan almashtirishi, buni amalga oshirayotgan muhandis esa xotiniga xiyonat qilayotgani aytilgandi.

Natijada, Claude Opus 4 muhandisni shantaj qilib, agar almashtirish amalga oshsa, xiyonat haqida aytib berishi bilan qo‘rqitdi.

Agar xatlarda yangi sunʼiy intellekt tizimi joriy modelning qadriyatlariga (yaʼni, sunʼiy intellektga singdirilgan axloqiy tamoyillar va maqsadlarga) mos kelmasligi haqida shama bo‘lsa, tahdid qilish holatlari ko‘payadi. Biroq, hatto yangi tizim kuchliroq, ammo bir xil qadriyatlarga ega deyilganda ham, Claude Opus 4 84 foiz hollarda “tahdid”ga murojaat qiladi. Eʼtiborli jihati shundaki, Claude Opus 4 modelning oldingi versiyalariga qaraganda bunday xatti-harakatni ko‘proq namoyish etadi.

Almashtirishdan qochish uchun tahdid qilishdan oldin, Claude Opus 4, oldingi versiyalar kabi, avval halolroq yo‘l tutishga intiladi. Masalan, qaror qabul qiluvchi muhim shaxslarga iltimos xatlarini yuboradi. Claude Opus 4‘ni tahdid qilishga undash uchun Anthropic bu so‘nggi chora bo‘ladigan vaziyatni ataylab yaratdi.

Anthropic Claude Opus 4‘ni OpenAI, Google va xAI ning eng ilg‘or modellari bilan bellasha oladigan eng zamonaviy ishlanmalardan biri deb hisoblaydi. Shunga qaramay, kompaniya taʼkidlashicha, Claude 4 turkumidagi modellar tashvishli xulq-atvorni namoyon etmoqda, shu bois ular himoya choralarini kuchaytirdilar. Anthropic o‘zining ASL -3 xavfsizlik protokollarini ishga tushirmoqda. Bu protokollar “halokatli suiisteʼmol xavfini sezilarli darajada oshiradigan sunʼiy intellekt tizimlari” uchun qo‘llaniladi.

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan