Massachusets texnologiya institutining (MIT CSAIL) tadqiqotchilari xalqaro hamkorlar bilan birgalikda sun’iy intellekt modellarini bevosita o‘qitish jarayonida siqish imkonini beruvchi CompreSSM usulini taqdim etdi. Bu yondashuv sohadagi asosiy muammolardan birini — yuqori unumdorlik va hisoblash resurslarini tejash o‘rtasida murosa qilish zaruratini bartaraf etadi.

Zamonaviy AI-modellarni o‘qitish vaqt, energiya va resurslar jihatidan o‘ta serxarajat jarayon hisoblanadi. Odatda, dasturchilar avval katta modelni o‘qitib, so‘ng uni siqishadi yoki aniqlikdan voz kechgan holda boshidanoq ixcham arxitekturalardan foydalanishadi. Yangi usul esa muqobil yechim taklif qiladi: modelni sifatni yo‘qotmasdan, «parvoz vaqtida» (bevosita ish jarayonida) optimallashtirish.

CompreSSM tilni qayta ishlash, ovoz generatsiyasi va robototexnikada qo‘llaniladigan arxitekturalar sinfiga (holatlar fazosi modellariga) mo‘ljallangan. Tadqiqotchilar «Boshqaruv nazariyasi» vositalaridan foydalanib, qaysi komponentlar modelning ishiga haqiqatan ham ta’sir qilishini va qaysilarini ortiqcha deb hisoblab, olib tashlash mumkinligini aniqlaydilar.

Ma’lum bo‘lishicha, modelning turli qismlarining ahamiyati o‘qitishning dastlabki bosqichidayoq ma’lum bo‘lar ekan. Har bir ichki holatning model ishiga ta’sirini o‘lchaydigan ko‘rsatkich — Hankel singular qiymatlari (Hankel singular values) yordamida qaysi parametrlar muhim-u, qaysilari ahamiyatsiz ekanini aniqlash mumkin. Buning uchun umumiy o‘qitish vaqtining atigi 10 foizi kifoya qiladi. Shundan so‘ng, ahamiyati past komponentlar olib tashlanadi va o‘qitishning qolgan 90 foizi soddalashtirilgan modelda davom ettiriladi.

Eksperimentlar ushbu yondashuv o‘qitish jarayonini aniqlikni pasaytirmasdan tezlashtirishini tasdiqladi. Tasvirlarni tasniflash vazifalarida siqilgan modellar to‘liq hajmli modellar bilan deyarli bir xil aniqlikni saqlab qoldi, biroq 1,5 barobar tezroq o‘qitildi.

Masalan, CIFAR-10 ma’lumotlar to‘plamida yangi usul yordamida asl hajmining chorak qismigacha kichraytirilgan model 85,7% aniqlikka erishdi. Taqqoslash uchun, boshidanoq xuddi shunday kichik hajmda o‘qitilgan oddiy model atigi 81,8% natija ko‘rsata oldi. Mamba arxitekturasida esa usul 4 barobar tezlanishni ta’minladi: 128 o‘lchamli modelni raqobatbardosh samaradorlikni saqlagan holda taxminan 12 o‘lchamgacha siqishga muvaffaq bo‘lindi.

CompreSSM boshqa ikki turdagi usul bilan taqqoslandi:

  1. An’anaviy usullar: qisqartirish (pruning) va bilimlar distillyatsiyasi. Bular avval to‘liq modelni o‘qitishni yoki «ustoz» va «shogird» modellaridan foydalanishni talab qiladi — har ikkala holatda ham hisoblash xarajatlari ikki barobar ortadi.

  2. Ixtisoslashgan usullar: masalan, Hankel yadroviy normasini regulyarizatsiya qiluvchi spektral yondashuv.

CompreSSM har ikkala turdagi usullardan ham ustun keldi. Sinovlarda yangi metod spektral usulga qaraganda 40 barobardan ko‘proq tezroq ishladi (spektral usul o‘qitishni 16 barobar sekinlashtirgan edi) va ayni paytda yuqoriroq aniqlikni namoyon etdi. Ko‘p siqilgan distillyatsiyalangan modellar sifat jihatidan ancha pasaygan bo‘lsa, CompreSSM deyarli to‘liq samaradorlikni saqlab qoldi.

Yana bir afzallik — uning nazariy jihatdan asoslanganidir: tadqiqotchilar parametrlarning ahamiyati bir maromda o‘zgarishini va ularning dastlabki bahosi barqaror qolishini isbotladilar. Shu bilan birga, xavfsizlik mexanizmi ham ko‘zda tutilgan: agar siqishdan so‘ng sifat pasaysa, modelning avvalgi holatiga qaytish imkoniyati mavjud.

Mualliflarning ta’kidlashicha, ushbu metod ayniqsa bir nechta kirish va chiqishga ega murakkab tizimlar (MIMOmultiple input, multiple output), ya’ni model bir vaqtning o‘zida bir nechta ma’lumotlar oqimini qayta ishlab, bir nechta natija chiqaradigan tizimlar uchun samaralidir. Tadqiqotchilar allaqachon uni Transformerlarga muqobil bo‘lgan kengroq arxitekturalar sinfiga tatbiq etishni ko‘rib chiqmoqda.

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan