LATTE3D: villámgyors text-to-3D model generálás

2024-05-22 09:33

Az Nvidia technológiája szinte azonnal 3D modelleket generál a szövegpromptok alapján. De mire és hogyan lesz használható ez az eszköz?

Az Nvidia az elmúlt időszakban egymás után jelentette be az egyre nagyobb híreket: miután felfedte Blackwell szuperchipjét, amelyet a nagyobb teljesítményű AI modellek, mint a GPT, Claude és Gemini betanítására terveztek, úgy egy hónapja pedig egy saját szövegből 3D-s modellt készítő AI szoftvert villantott.

A grafikus kártyaóriás a LATTE3D bemutatásával egy szövegből 3D objektumot előállító generatív AI modellt mutatott be, amelyet "virtuális 3D nyomtatónak" nevezett. Ez az eszköz a szöveges utasításokat egy másodperc alatt képes tárgyak és állatok 3D-s modelljeivé alakítani.

Az Nvidia szerint a LATTE3D által generált 3D alakzatok "könnyen felhasználhatók virtuális környezetekben videojátékok, reklámkampányok, design projektek esetében vagy a robotika világában". Láttunk már korábban is text-to-3D eszközöket, és az online visszajelzések szerint egyeseket nem nyűgözött le túlzottan a LATTE3D eredményeinek a minősége sem. Az új modell azonban nagy előrelépést jelent, különösen a sebesség tekintetében.

Az Nvidia szerint szinte azonnal 3D-s alakzatokat állít elő, amikor az inference modelt egyetlen GPU-n futtatjuk, például a kutatási demóhoz használt NVIDIA RTX A6000-en. Ez azt jelenti, hogy egy alkotó, aki a semmiből kezdi a tervezést, vagy egy 3D-s eszközkönyvtárat fésül át, a LATTE3D segítségével szinte olyan gyorsan generálhat részletes objektumokat, ahogyan az ötletek az eszébe jutnak.

A modell minden egyes szöveges parancs alapján több 3D-s alakváltozatot generál. A kívánt objektumok optimalizálhatóak a jobb minőség érdekében, majd exportálhatók grafikai szoftveralkalmazásokba vagy olyan platformokra, mint az NVIDIA Omniverse, amely lehetővé teszi az OpenUSD (Universal Scene Description) alapú 3D munkafolyamatokat és alkalmazásokat.

"Egy évvel ezelőtt egy órát vett igénybe az AI-modellek ilyen minőségű 3D-s vizuális generálása - a technika jelenlegi állása pedig már 10-12 másodperc körül mozog" - mondta Sanja Fidler, az AI-kutatásért felelős alelnök. "Most már nagyságrendekkel gyorsabb eredményeket tudunk produkálni, így a közel valós idejű szövegből 3D-be történő generálás elérhető közelségbe kerül az alkotók számára minden iparágban."

A LATTE3D-t az Nvidia torontói AI-laboratóriumának csapata fejlesztette ki, és a ChatGPT segítségével generált szöveges promptok segítségével képezték ki, hogy a modell jobban tudja kezelni a különböző kifejezéseket, amelyeket a felhasználó egy adott 3D-s tárgy leírására találhat ki. Bár a kutatók a LATTE3D-t két konkrét adathalmazon, állatokon és hétköznapi tárgyakon képezték ki, ugyanez az architektúra használható a mesterséges intelligencia más adattípusokon történő betanítására is. A projekt továbbra is csak kutatási projekt marad, és nem áll rendelkezésre nyilvános használatra.

Az AI megalkotója, Bilawal Sidhu az X-en azt írta: "Ez az ugrás hatalmas. A 2022 körüli DreamFusion lassú és rossz minőségű volt, de elindította ezt a generatív 3D forradalmat. Az olyan erőfeszítések, mint az ATT3D (Amortized Text-to-3D Object Synthesis) a sebességet hajszolták a minőség rovására. Most a LATTE3D kiváló minőségű és kevesebb, mint egy másodperc alatt feldolgozható! Ez azt jelenti, hogy gyorsan iterálhat és feltölthet egy 3D világot szövegből vagy képről 3D-be."

A videó mellett a 3D a következő határ a mesterséges intelligencia képgenerálásában. Ezt mutatja, hogy az Adobe szintén bejelentette az első Firefly AI-vezérelt eszközeinek integrálását a Substance 3D-be.

Termékek

LATTE3D: villámgyors text-to-3D model generálás

Olvass tovább