Microsoftin VASA-1-tekoälymalli luo keinotekoisia videoita pelkän kuvan ja äänen perusteella

Erilaisia keinoälyyn perustuvia malleja ja työkaluja alkaa olemaan jo netti pullollaan, mutta toisinaan jokin taho esittelee jotain sellaista, joka vie huomion ja vaatii tavallista enemmän tarkastelua. Nyt Microsoft on esitellyt uuden tekoälymallin, VASA-1, joka pystyy tuottamaan erittäin aidonoloisia videoita pelkän valokuvan ja ääninäytteen avulla.

VASA-1 perustuu samanlaiseen generatiiviseen tekoälyyn, kuten ChatGPT. Se pystyy tuottamaan videoita pelkän valokuvan ja ääninäytteen avulla ja osaa hyvin uskottavalla tavalla mallintaa esimerkiksi pään ja huulten liikkeitä, ilmeitä ja kasvojen vivahteita sekä muita yksityiskohtia. Keskeistä on keinoälyllä luodun henkilön täydellinen dynamiikka ja kasvojen vivahteet yhdessä puheen kanssa. Microsoftin julkaisemilla esimerkkivideoilla keinoälylla luodut henkilöt ovatkin erittäin aidonoloisia ja videot voi katsoa siten, kuin niissä olisi aivan oikea henkilö. Videoissa kuitenkin näytetään minkä valokuvan perusteella video on keinotekoisesti luotu.

Keinoälyllä tuotetut videot ovat tarkkuudeltaan 512 x 512 pikseliä ja ne esitetään 40 ruutua sekunnissa -nopeudella. Se johtaa varmasti jossain vaiheessa vielä täysin reaaliajassa tapahtuvaan kasvojen mallinnykseen. Jo tällä hetkellä tekniikan avulla voi herättää henkiin vaikkapa historian suurhenkilöitä, mutta toisaalta tekniikka myös mahdollisuuden uskottavien väärennösten luomiseen. Toistaiseksi kyseessä onkin vasta tutkimusprojekti ja Microsoft aikoo julkaista tekoälymallin vasta, kun siihen tarvittava säännöstely on saatu voimaan. Toistaiseksi ei siis ole tietoa siitä, milloin VASA-1 julkaistaan suurelle yleisölle ja tämän artikkelin kirjoitushetkellä tekniikka on vain Microsoftin itsensä käytettävissä.

Microsoftin VASA-1-tekoälymalli luo keinotekoisia videoita pelkän kuvan ja äänen perusteella

Jaa tämä juttu

Julkaisuun liitetyt avainsanat