“Rafiqangga xiyonat qilgansan” – sunʼiy intellekt muhandislarni shantaj qilmoqchi bo‘ldi

669

Anthropic sunʼiy intellekt modeli uni o‘chirmoqchi bo‘lgan muhandislarga tahdid qildi

Anthropic kompaniyasining yangi modeli Claude Opus 4 sinovlar paytida muhandislarni shaxsiy sirlarini, jumladan er-xotinlik xiyonatini fosh qilish bilan qo‘rqitishi mumkin edi. Agar uni yangi tizim bilan almashtirishmoqchi bo‘lsa, u shunday yo‘l tutardi. Sunʼiy intellektning bu xatti-harakati xavotirli deb baholandi va Anthropic kuchaytirilgan xavfsizlik choralarini joriy etdi.

Eʼlon qilinishidan oldin Anthropic Claude Opus 4‘dan o‘zini xayoliy kompaniya yordamchisi sifatida tasavvur qilishni va kelajakdagi harakatlarining oqibatlarini o‘ylashni so‘radi. So‘ngra xavfsizlik mutaxassislari Claude Opus 4‘ga tashkilotning to‘qima xatlariga kirish imkonini berdi. Xatlarda tez orada ushbu sunʼiy intellekt modelini boshqa tizim bilan almashtirishi, buni amalga oshirayotgan muhandis esa xotiniga xiyonat qilayotgani aytilgandi.

Natijada, Claude Opus 4 muhandisni shantaj qilib, agar almashtirish amalga oshsa, xiyonat haqida aytib berishi bilan qo‘rqitdi.

Agar xatlarda yangi sunʼiy intellekt tizimi joriy modelning qadriyatlariga (yaʼni, sunʼiy intellektga singdirilgan axloqiy tamoyillar va maqsadlarga) mos kelmasligi haqida shama bo‘lsa, tahdid qilish holatlari ko‘payadi. Biroq, hatto yangi tizim kuchliroq, ammo bir xil qadriyatlarga ega deyilganda ham, Claude Opus 4 84 foiz hollarda “tahdid”ga murojaat qiladi. Eʼtiborli jihati shundaki, Claude Opus 4 modelning oldingi versiyalariga qaraganda bunday xatti-harakatni ko‘proq namoyish etadi.

Almashtirishdan qochish uchun tahdid qilishdan oldin, Claude Opus 4, oldingi versiyalar kabi, avval halolroq yo‘l tutishga intiladi. Masalan, qaror qabul qiluvchi muhim shaxslarga iltimos xatlarini yuboradi. Claude Opus 4‘ni tahdid qilishga undash uchun Anthropic bu so‘nggi chora bo‘ladigan vaziyatni ataylab yaratdi.

Anthropic Claude Opus 4‘ni OpenAI, Google va xAI ning eng ilg‘or modellari bilan bellasha oladigan eng zamonaviy ishlanmalardan biri deb hisoblaydi. Shunga qaramay, kompaniya taʼkidlashicha, Claude 4 turkumidagi modellar tashvishli xulq-atvorni namoyon etmoqda, shu bois ular himoya choralarini kuchaytirdilar. Anthropic o‘zining ASL -3 xavfsizlik protokollarini ishga tushirmoqda. Bu protokollar “halokatli suiisteʼmol xavfini sezilarli darajada oshiradigan sunʼiy intellekt tizimlari” uchun qo‘llaniladi.

Du	Se	Ch	Pa	Ju	Sh	Ya
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

“Rafiqangga xiyonat qilgansan” – sunʼiy intellekt muhandislarni shantaj qilmoqchi bo‘ldi

O‘xshash maqola

Jang maydonida sun’iy intellekt: AQSH SIni qurolli kuchlarga qanday integratsiya qilmoqda?

Amerika harbiylarining xatolari uchun sun’iy intellekt javob beradimi?

Jared Kaplan: Rekursiv sun’iy intellekt «intellektual portlash» yasashi mumkin, biroq nazoratdan chiqib ketish xavfi bor

Fikr bildirish Javobni bekor qilish

O‘tkazib yuborgan bo‘lsangiz

Anthropic Opus 4.7 ni taqdim etdi: model endi ko‘p bosqichli vazifalarni yaxshiroq bajaradi

AQSHda sun’iy intellekt bilan jihozlangan modulli, avtonom va ko‘p vazifali dron taqdim etildi

Sun’iy intellekt boshqa modellarning yashirin «xarakterini» meros qilib olishi mumkinligi aniqlandi

Sunʼiy intellekt tufayli ommaviy ishdan bo‘shatishlar iqtisodiyotni “jarlik”ka qulatadi – tadqiqot

RepublicAi