Xitoyning Tencent kompaniyasi sunʼiy intellekt sohasida yangi sahifa ochdi: u bitta fotosuratdan virtual «uch o‘lchovli dunyolar» yarata oladigan HunyuanWorld-Voyager modelining manba kodini omma uchun oshkor qildi. Ushbu algoritm to‘liq 3D modellarni yaratmasa-da, kamera harakatini shunday taqlid qiladiki, natijada hosil bo‘lgan sahna fazoviy jihatdan uyg‘un va tadqiqot qilishga qulay ko‘rinadi. Tencent buni video yaratishdagi inqilob sifatida baholamoqda, chunki shu paytgacha mavjud yechimlar asosan chuqur tuzilishga ega bo‘lmagan kadrlar ketma-ketligini yaratish bilan cheklangan edi.

Image credit: arstechnica.com

Modelning asosida gibrid yondashuv yotadi: neyrotarmoq bir vaqtning o‘zida ham rangli tasvirni, ham uning chuqurlik xaritasini (RGB-D) yaratadi. Keyin bu maʼlumotlar nuqtalar bulutiga aylantirilib, 2D tekisligiga qayta proyeksiyalanadi. Bu jarayon kadrlar orasidagi geometrik muvofiqlikni taʼminlaydi. Masalan, OpenAI‘ning Sora modelidan farqli o‘laroq, Tencent‘ning yechimi obyektlarning fazoviy munosabatlarini doimiy kuzatib boradi, bu esa virtual kamera harakatlanganda to‘g‘ri istiqbolni saqlab qolishga yordam beradi. Hozircha generatsiya ikki soniyalik (49 kadr) videolar bilan cheklangan, ammo ularni uzoqroq ketma-ketlikka ulash imkoniyati mavjud.

Tencent tadqiqotchilari tizimni 100 mingdan ortiq videoda, jumladan, Unreal Engine sahnalarida o‘qitganini maʼlum qildi. Biroq, kamera uzoq vaqt aylantirilganda xatolar to‘planib, sahnaning yaxlitligi yo‘qolishi mumkin. Shu bois HunyuanWorld-Voyager haqiqiy 3D geometriyaga emas, balki teskari proyeksiya bilan boyitilgan murakkab shablonlarga tayanadi. Foydalanuvchi kamera harakatini oldinga, orqaga, yon tomonlarga yoki burilish orqali belgilay oladi. Natijada tayyor video va chuqurlik xaritasi olinadi, bu esa keyinchalik 3D modellashtirishda foydalanish uchun imkoniyat yaratadi.

HunyuanWorld-Voyager iyul oyida taqdim etilgan HunyuanWorld 1.0‘ning takomillashgan versiyasi bo‘lib, Hunyuan3D-2 (matn orqali 3D obyekt yaratish) va HunyuanVideo (roliklar yaratish) kabi modullarni o‘z ichiga olgan katta ekotizimning bir qismidir.

Shu bilan birga, tizim katta hisoblash resurslarini talab qiladi: 540p sifatidagi sahna uchun kamida 60 Gbayt, yuqori sifat uchun esa 80 Gbaytgacha tezkor xotira zarur. Manba kodi Hugging Face platformasida joylashtirilgan, ammo undan foydalanishda bir qator cheklovlar mavjud: modelni Yevropa Ittifoqi, Buyuk Britaniya va Janubiy Koreyada ishlatish taqiqlangan. Shuningdek, oylik auditoriyasi 100 milliondan oshadigan loyihalarda tijoriy maqsadlarda foydalanish uchun alohida ruxsatnoma talab etiladi.

Mutaxassislarning taʼkidlashicha, manba kodini ochish Xitoy korporatsiyalari uchun noodatiy qadamdir. Ars Technica tahlilchilariga ko‘ra, Tencent bu orqali nafaqat mahsulot, balki AQSH kompaniyalari hukmronlik qilib kelayotgan tadqiqot infratuzilmasi darajasida ham raqobatchiga aylanish niyatini namoyon etmoqda. Endi asosiy savol ochiq qolmoqda: bu kabi algoritmlar haqiqatan ham to‘laqonli kontent ishlab chiqarish vositasiga aylana oladimi yoki hozircha faqat eksperimental texnologiya sifatida qoladimi?

Fikr bildirish

Email manzilingiz chop etilmaydi. Majburiy bandlar * bilan belgilangan