Hozirda sunʼiy intellekt bozorida katta til modellariga (LLM) nisbatan kamroq parametrlarga ega bo‘lgan va tor doiradagi vazifalar uchun maqbulroq hisoblangan kichik til modellaridan (SLM) foydalanish tendensiyasi kuzatilmoqda, deya xabar bermoqda Wired jurnali.

OpenAI, Meta va DeepSeek kompaniyalarining eng so‘nggi LLM versiyalari yuz milliardlab parametrlarga ega bo‘lib, ular qonuniyatlar va bog‘liqliklarni yaxshiroq aniqlay oladi, bu esa ularni yana-da kuchli va aniqroq qiladi. Biroq, ularni o‘rgatish va ulardan foydalanish juda katta hisoblash va moliyaviy resurslarni talab etadi. Masalan, Gemini 1.0 Ultra modelini o‘qitish Google‘ga 191 million dollarga tushgan. Elektr energetikasi tadqiqotlari instituti maʼlumotlariga ko‘ra, ChatGPT‘da bitta so‘rovni bajarish Google‘dagi bitta qidiruvga nisbatan taxminan 10 baravar ko‘proq energiya talab qiladi.
IBM, Google, Microsoft va OpenAI yaqinda atigi bir necha milliard parametrga ega bo‘lgan SLM‘ni ishlab chiqdi. Ulardan LLM kabi universal vositalar sifatida foydalanib bo‘lmaydi, ammo ular suhbatlarni umumlashtirish, sog‘liqni saqlash masalalari bo‘yicha chatbot sifatida bemorlarning savollariga javob berish va aqlli qurilmalarda maʼlumotlarni to‘plash kabi aniq belgilangan vazifalarni aʼlo darajada bajaradi. “Ular ulkan maʼlumotlar markazida emas, balki noutbuk yoki mobil telefonda ham ishlashi mumkin”, — dedi Karnegi — Mellon universiteti kompyuter olimi Ziko Kolter.
Kichik modellarni o‘rgatish uchun tadqiqotchilar bir nechta usullardan foydalanadilar, masalan, bilimlarni distillatsiya qilish, bunda LLM yuqori sifatli maʼlumotlar to‘plamini yaratadi va o‘qituvchi o‘quvchiga dars bergani kabi SLM‘ga bilimlarni uzatadi. Shuningdek, kichik modellar kattalaridan “kesish” — neyron tarmog‘ining keraksiz yoki samarasiz qismlarini olib tashlash orqali yaratiladi.
SLM katta modellarga qaraganda kamroq parametrlarga ega bo‘lgani sababli, ularning mulohazalari yana-da shaffofroq bo‘lishi mumkin. Kichik maqsadli model aniq vazifalarni bajarishda katta model kabi yaxshi ishlaydi, ammo uni ishlab chiqish va o‘rgatish osonroq kechadi. “Bu samarali modellar pul, vaqt va hisoblash resurslarini tejashga yordam beradi”, – dedi MIT-IBM Watson sunʼiy intellekt laboratoriyasi ilmiy xodimi Leshem Choshen.