Az OpenAI legújabb fejlesztése, a Sora 2, a mesterséges intelligencia alapú videó- és hanggenerálás új korszakát hozta el. Az elődjéhez képest ez a modell már nemcsak látványos rövidfilmeket képes létrehozni, hanem a videókhoz illeszkedő hangot, beszédet és környezeti zajokat is automatikusan generál – mindezt egyetlen szöveges utasításból. A Sora 2 legnagyobb újítása, hogy képes a fizikai törvényszerűségek és az ok-okozati kapcsolatok modellezésére. Míg a korábbi verziók gyakran produkáltak „varázslatos” hibákat – például lebegő tárgyakat vagy teleportáló karaktereket –, az új modell már természetes mozgásokat és hiteles környezetreakciókat hoz létre. Ha egy kosárlabdázó elvét egy dobást, a labda valóban visszapattan vagy elgurul, nem tűnik el a semmibe. A gravitáció, a lendület, a mozgásdinamika és a testtartás mind valósághűen jelennek meg, még bonyolultabb szituációkban is, például ugrások, esések vagy gyors kameramozgások során. Az alábbiakban azt láthatjátok, hogy a Sora 2-vel igazán élethű bodycam-videókat is lehet már generáltatni:

Eközben a jó öreg SpongyaBob:

Az új rendszer egyik leglátványosabb fejlesztése a hanggenerálás integrálása. A beszéd, a háttérzajok és a hangeffektek mind automatikusan illeszkednek a vizuális eseményekhez. Ez azt jelenti, hogy nincs szükség külön utómunkára: a Sora 2 már „kész jeleneteket” hoz létre, ahol a hang és a kép szinkronban fejlődik. A Cameo-funkció – amit már több kritika ért – egy másik újdonság: a felhasználók feltölthetnek magukról képet és hangmintát, így saját digitális hasonmásuk megjelenhet a generált videókban. Fontos azonban, hogy az OpenAI szigorú engedélyezési rendszert vezetett be: minden cameo-megjelenés csak a tulajdonos beleegyezésével használható, és a felhasználók bármikor kérhetik az ilyen videók eltávolítását.

Borítókép forrása: X