Adobe VoCo - készülőben a “beszéd Photoshopja”


A fantasztikus termék használata bizonyára sok jogi jellegű kérdést is fel fog vetni.


Az Adobe az éves San Fransisco-i MAX konferencián bemutatott egy fejlesztési fázisban található terméket, a Project VoCo-t.

A program “a hangszerkesztés Photoshopjának” ígérkezik, a program egyik fejlesztője, Zeyu Jin szerint. Ha megnézzük az alábbi videót, egyet fogunk érteni vele:
 

{"preview_thumbnail":"/wp-content/uploads/2022/migra/styles/video_embed_wysiwyg_preview/public/video_thumbnails/I3l4XLZ59iw.jpg?itok=e4taX-qf","video_url":"https://www.youtube.com/watch?v=I3l4XLZ59iw","settings":{"responsive":1,"width":"854","height":"480","autoplay":0},"settings_summary":["Beágyazott videó (Alkalmazkodó)."]}

 

A Photoshop közismerten a legsokoldalúbb képszerkesztő program, szinte mindenki tudja, hogy mit jelent egy kép megphotoshopolása: aki elég jól ért hozzá, úgy manipulálhatja a fotót, hogy később nem nagyon lehet megmondani róla, hogy mi volt eredetileg rajta, és mi az, amit átalakítottak vagy később tettek hozzá. Képzeljük el ugyanezt hangban: a szokásos hangszerkesztési funkciókon kívül a Project VoCo arra is képes lesz, hogy új szavakat illesszen be a szövegbe a felvételen beszélő ember hangján.

Hogyan működik? A Project VoCo-nak a beszélő kb. 20 percnyi felvett hangjára lesz szüksége. Ezt követően kielemzi a beszédet, lebontja a legkisebb nyelvi elemekre (fonémákra), rögzíti a paramétereket és elkészíti ennek a hangnak a modelljét. Ha jobban meghallgatjuk a példákat, akkor most még hallható amikor megváltoztatnak egy szót, de már csak idő kérdése hogy képtelenek legyünk megkülönböztetni a tényleges hangfelvételt a szerkesztett verziótól.
 

projectvoco3

 

Ahogy az Adobe fejlesztője is elmondta a demóban, a project nem a hagyományos beszédszintézis modellen alapul, hanem az Adobe által fejlesztett “voice conversion” (magyarul emberi hang konverziója) technológián. Ami különösen érdekes, hogy szinte semmi manuális beavatkozásra nincs mód és nem is szükséges. Bármikor lehet korrigálni az automata által generált szöveget anélkül hogy bármiféle markert vagy timestamp-et kellene hozzáadnunk. Az algoritmus ugyanis kitalálja ezeket.

A technológia természetesen több kérdést is felvet. Mi történik, ha már egy valaki eredeti hangfelvételének beállított felvételnek sem hihetünk többet? Nem beszélve arról, hogy idővel komplett iparágak eltűnését eredményezheti, így pl. a szinkronszínészek,voice talent-ek lehet hogy más munka után nézhetnek. Kétségkívül azonban technikai szempontból lenyűgöző technológiával találkozunk.
 
Azt egyelőre nem tudni, hogy mikor jelenik meg a Princetoni Egyetemmel közösen fejlesztett hangszerkesztő szoftver, de hogy óriási dobás lesz, az biztos.

(Techcrunch)

Figyelem! A tartalom legalább 2 éve nem frissült! Előfordulhat, hogy a képek nem megfelelően jelennek meg.

Copyright © 2023 Trans-Europe Zrt. Minden jog fenntartva.
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram