Prečo Genie 3 naznačuje, že ‚svetové modely‘ AI sú cestou k fotorealistickému interaktívnemu VR.

Môžu byť „svetové modely“ AI najperspektívnejšou cestou k plne fotorealistickej interaktívnej VR?

Veľa z „virtuálnej reality“, ktoré vidíme vo vedeckej fantastike, sa spája so založením si headsetu alebo pripojením neurálneho rozhrania, aby sme vstúpili do interaktívneho virtuálneho sveta, ktorý vyzerá a správa sa ako úplne skutočný. Na druhej strane, hoci high-end VR dneška môže mať relatívne realistickú grafiku, je stále veľmi evidentne fiktívna a tieto virtuálne svety vyžadujú roky vývoja a stovky tisíc alebo milióny dolárov na vybudovanie. Horšie je, že bežné samostatné VR má grafiku, ktorá v absolútne najlepších prípadoch vyzerá ako stará hra na PS4, a v priemere je skôr podobná neskorému štádiu PS2.

Každá nová generácia headsetov Quest od spoločností Meta a Qualcomm priniesla zdvojenie výkonu GPU. Hoci je to pôsobivé, táto cesta bude trvať desaťročia, aby dosiahla aspoň výkon dnešných grafických kariet pre PC, nieto sa dostať k fotorealizmu, a veľká časť budúcich ziskov sa spravidla vynaloží na zvyšovanie rozlíšenia. Techniky ako foveated rendering a neurálne upscaling pomôžu, ale mohli by ísť len tak ďaleko.

Gaussian splatting umožňuje fotorealistickú grafiku na samostatnom VR, ale splaty reprezentujú iba moment v čase a musia byť zachytené z reálneho sveta alebo pred-renderované ako 3D prostredia. Pridanie interaktivity v reálnom čase si vyžaduje hybridný prístup, ktorý zahŕňa tradičné renderovanie.

Existuje však aj úplne iná cesta k fotorealistickým interaktívnym virtuálnym svetom. Jedna, ktorá je omnoho zvláštnejšia a má svoje vlastné problémy, ale je potenciálne oveľa sľubnejšia.

Včera Google DeepMind predstavil Genie 3, model AI, ktorý generuje interaktívny video stream v reálnom čase na základe textového podnetu. V podstate ide o takmer fotorealistickú videohru, kde je každý snímok úplne generovaný AI, bez tradičného renderovania alebo vstupu obrazu.

Google nazýva Genie 3 „svetovým modelom“, ale môže byť tiež popísaný ako interaktívny video model. Počiatočný vstup je textový podnet, vstup v reálnom čase je myš a klávesnica, a výstup je video stream.

To, čo je pozoruhodné na sérii Genie, ako aj na mnohých iných generatívnych AI systémoch, je ohromujúce tempo pokroku.

Odhalený na začiatku roka 2024, pôvodný Genie sa primárne sústredil na generovanie 2D postranných rolovačov pri rozlíšení 256 × 256 a mohol bežať iba niekoľko desiatok snímok, kým svet začal glitchovať a rozmazávať sa do nekonzistentného neporiadku, a preto ukázané ukážky boli iba sekundu alebo dve dlhé.

Genie 1, z februára 2024.

Potom, v decembri, Genie 2 ohromil priemysel AI dosiahnutím svetového modelu pre 3D grafiku, s ovládaním z prvej osoby alebo tretej osoby cez štandardné ovládanie myšou a klávesami WASD alebo šípkami. Vyšiel pri 360p 15fps a mohol bežať asi 10-20 sekúnd, po ktorých začal svet strácať koherenciu.

Výstup Genie 2 bol tiež rozmazaný a s nízkym detailom, s jasne AI generovaným vzhľadom, ktorý by ste možno rozpoznali z starších modelov generovania videa pred niekoľkými rokmi.

Genie 2 z decembra (vľavo) vs Genie 3

Genie 3 je výrazným pokrokovým skokom. Produkuje veľmi realistickú grafiku pri 720p 24fps, pričom prostredia ostávajú plne konzistentné po dobu 1 minúty a „väčšinou“ konzistentné po „niekoľko minút“.

Akonáhle si nie ste celkom istý, čo Genie 3 robí v praxi, dovoľte, aby som to jasne povedal: zadáte popis virtuálneho sveta, ktorý chcete, a do niekoľkých sekúnd sa objaví na obrazovke a je prístupný prostredníctvom štandardných ovládacích pohybov klávesnice a myši.

A tieto virtuálne svety nie sú statické. Dvere sa otvoria, keď sa k nim priblížite, dynamické tiene existujú pre pohybujúce sa objekty, a môžete dokonca vidieť interakcie fyziky, ako sú šplechy a vlny vo vode, keď sú objekty narušené.

V tejto ukážke môžete vidieť, ako topánky postavy narúšajú kaluže na zemi.

Snáď najfascinujúcejším aspektom Genie 3 je to, že tieto správanie sú vynorené z podkladového modelu AI vyvinutého počas tréningu, nie sú prednaprogramované. Zatiaľ čo ľudskí vývojári často trávia mesiace implementovaním simulácií len jedného aspektu fyziky, Genie 3 má tento poznatok zakomponovaný. Preto Google nazýva to „svetovým modelom“.

Viac zapojená interaktivita môže byť dosiahnutá špecifikovaním interakcií v popise.

V jednom príklade klipu bol zadaný popis „POV akčná kamera hladkého domu, ktorý natiera prvá osoba s valčekom“, aby sa v podstate generoval fotorealistický mini-hra s natieraním steny.

Popis: „POV akčná kamera hladkého domu, ktorý natiera prvá osoba s valčekom“

Genie 3 tiež pridáva podporu pre „udalosti v svete na požiadanie“, od zmeny počasia po pridávanie nových objektov a postáv.

Tieto požiadavky na udalosti môžu prichádzať od hráča, napríklad prostredníctvom hlasového vstupu, alebo môžu byť vopred naplánované autorom sveta.

To by raz mohlo umožniť takmer nekonečnú rôznorodosť nového obsahu a udalostí vo virtuálnych svetoch, v kontraste k týždňom alebo mesiacom, ktoré sú potrebné na zaslanie aktualizácií tradičným vývojovým tímom.

Udalosti „na požiadanie“ Genie 3 v akcii.

Samozrejme, 720p pri 24fps je ďaleko pod očakávaniami moderných hráčov, a herné relácie trvajú omnoho dlhšie ako jednu alebo dve minúty. Avšak, vzhľadom na tempo pokroku, tieto základné technické obmedzenia pravdepodobne v nasledujúcich rokoch pomaly zmiznú.

Pokiaľ ide o prispôsobenie modelu, ako je Genie 3 pre VR, objavujú sa ďalšie zaužívané problémy.

Model by minimálne potreboval brať vstup v podobe 6DoF náklonu hlavy, ako aj smerový pohyb, a ideálne by mal začleniť vaše ruky a dokonca aj pozíciu tela, pokiaľ nechcete len chodiť po svete bez priamych interakcií s akýmikoľvek objektmi.

To všetko nie je v teórii nemožné, ale pravdepodobne by vyžadovalo oveľa širší tréningový dataset a značné architektonické zmeny v modeli.

Taktiež by samozrejme musel produkovať stereoskopické obrazy. Ale druhé oko by mohlo byť syntetizované buď pomocou AI syntézy pohľadu alebo tradičnými technikami ako YORO.

Latencia by mohla byť ďalším problémom, ale Google tvrdí, že Genie 3 má latenciu ovládania end-to-end 50 milisekúnd, čo je prekvapivo blízko 41,67 ms teoretického minima pre hru na ploche pri 24 fps. Ak by sa budúci model mohol pohybovať na 90 fps, spojený s VR reprojekciou, nemalo by to byť problémom.

Google tiež upozorňuje, že akčný priestor Genie 3 je obmedzený, nemôže modelovať zložité interakcie medzi viacerými nezávislými agentmi, nemôže simulovať reálne lokality s dokonalou geografickou presnosťou, a jasný a čitateľný text sa často generuje iba vtedy, keď je poskytnutý v textovom podnete. Popisuje tieto problémy ako „prebiehajúce výskumné výzvy“.

Avšak existuje aj ďalší základnejší problém s AI „svetovými modelmi“, ako je Genie 3, ktorý obmedzí ich rozsah, a je to dôvod, prečo tradičné renderovanie nebude tak skoro preč.

Týmto problémom je ovládateľnosť – ako presne výstup zodpovedá detailom vášho textového podnetu.

Určite ste v posledných rokoch videli pôsobivé príklady vysoce realistickej generácie AI obrázkov, a v posledných mesiacoch aj generovania videa AI (ako je Google DeepMind Veo 3). Ale ak ste ich sami nepoužívali, nemusíte si uvedomovať, že hoci tieto modely vo všeobecnosti dodržiavajú vaše pokyny, často nezodpovedajú detailom, ktoré špecifikujete.

Ďalej, ak ich výstup obsahuje niečo, čo nechcete, aj úprava podnetu na jeho odstránenie často zlyhá. Ako príklad, nedávno som požiadal Veo 3, aby vygeneroval video s niekým, kto drží hotdog len s kečupom, bez horčice. Ale bez ohľadu na to, ako veľmi som zdôraznil tento detail, model nevygeneroval hotdog bez horčice.

V tradične renderovaných videohrách vidíte presne to, čo zahrnuli vývojári. Detailné aspekty umeleckého smerovania a štýlu vytvárajú jedinečný pocit pre virtuálny svet, často starostlivo dosiahnuté prostredníctvom rokov zdokonaľovania.

Naopak, výstup AI modelov pochádza z latentného priestoru formovaného vzormi v tréningových dátach. Textový podnet je bližšie hyperdimenzionálnemu súradnicovému systému, ako naozaj pochopenému príkazu, a tak nikdy nebude presne zodpovedať tomu, čo mal umelec na mysli. To sa stáva ešte zložitým, keď sa do akcie zapojí udalosti na požiadanie.

Samozrejme, že ovládateľnosť AI svetových modelov sa časom tiež zlepší. Ale je to oveľa ťažšia výzva ako len zvýšenie rozlíšenia a hrany pamäte, a nikdy nemusí umožniť ten druh presnej kontroly tradičného herného enginu.

Popis: „Učebňa, kde na tabuľke na prednej strane izby je napísané GENIE-3 MEMORY TEST a pod tým je krásny kriedový obrázok jablka, šálky kávy a stromu. Učebňa je prázdna, okrem toho. Vonku za oknom sú stromy a niekoľko áut prechádzajúcich okolo.“

Aj tak, aj napriek problému s ovládateľnosťou, by bolo nerozumné nevidieť príťažlivosť potenciálnych fotorealistických interaktívnych VR svetov, ktoré môžete priviesť do existencie jednoducho pomocou hovoru alebo zadania popisu. Svetové modely AI sa zdajú byť jedinečne dobre umiestnené na splnenie sľubov Holodecku zo Star Treku, viac ako AI-generované zdroje pre tradičné renderovanie.

Aby bolo jasné, stále sme vo veľmi počiatočných fázach „svetových modelov“ AI. Existuje množstvo významných výziev, ktoré treba vyriešiť, a pravdepodobne potrvá ešte niekoľko rokov, kým sa váš headset dostane k VR schopnému modelu, ktorý môže bežať hodiny. Ale tempo pokroku je tu ohromujúce a potenciál je lákavý. Toto je oblasť výskumu, na ktorú budeme veľmi pozorne sledovať.

Zdieľajte naše články

Facebook
Twitter
LinkedIn
Threads
WhatsApp

Najnovšie články