Miten ratkaiset kerronnallisen AI-videon haasteet

Luet tätä blogia luultavasti siksi, että innostuit näyttävien videopätkien luomisesta ja halusit edetä pidempiin, kerronnallisiin videoihin. Huomasit kuitenkin, että tässä kohtaa haasteet kasvoivat, eikä lopputulos ollut enää tyydyttävä eikä tavoiteltu. Olet kuitenkin nähnyt ammattimaisesti tekoälyllä toteutettuja pitkiä videoita, joten tiedät, että et ole mahdottoman tehtävän edessä.

Kerronnallisissa tarinoissa videot koostuvat kohtauksista, joita yhdistää juonen lisäksi jokin visuaalinen asia, kuten kuvissa näkyvät henkilöt, laitteet, tyyli tms. Kyse voi olla viihteellisestä animaatiosta tai vaikka sarjasta ensiapuohjeita, joissa sama kouluttaja esittelee eri tilanteisiin soveltuvia toimenpiteitä. Haluat, että animaatiohahmo näyttää täysin samalta läpi videon ja että ensiapukouluttaja on sama henkilö, ja että hän on pukeutunut samalla tavalla eri kohtauksissa.

Kun teit ensimmäisiä tekoälyvideokokeiluja, käytit luultavasti ensimmäisellä kerralla text-to-video toiminnallisuutta, jolloin pystyit hämmästyttämään itsesi ja muutkin jollakin mielikuvituksellisella hahmolla tai epätodellisella toiminnalla. Mahdollisesti käytit videossa tunnettua julkisuuden hahmoa. Tilanne on monin tavoin erilainen, kun haluat luoda oman hahmosi seikkailun tai ensiapukouluttajan ohjeistusta. Kun teet yhden videoklipin, riittää, että hahmo on kohtaukseen ulkomuodoltaan sopiva. Jos yrität tehdä jatko-osan samalla kuvauksella, tekoäly muodostaa henkilöhahmon eri näköisenä. Jos käytit kokeiluissa julkisuuden henkilöä, tekoäly tunnistaa henkilön ja pystyt luomaan seuraavan kohtauksen samalla hahmolla, mutta jos teet videosi ammattimaiseen käyttöön, et voi mm. tekijänoikeudellisista syistä tällaisia videoita hyödyntää.

1: Käytä aina aloituskuvaa

Text-to-video on nopeasti kehittyvä ja innostava tapa luoda videoita, mutta kun tavoitteenasi on luoda oman mielikuvituksesi ja tavoitteidesi mukaisia videoita, sinun tulee käyttää käytännössä aina aloituskuvaa tai jossain tapauksissa ns. referenssikuvaa, jota osa tekoälymalleista tukee. Aloituskuvaa käytettäessä puhutaan image-to-video tekniikasta. Tällöin videon ensimmäinen kuva on aloituskuva ja videon tapahtumia sekä sisältöä ohjataan tekstillä. Aloituskuvia tarvitset yhden jokaiseen kohtaukseen. Aloituskuvia voit luoda tekoälypalveluissa tai se voi olla mikä tahansa kuva, vaikka kännykkäkameralla otettu.

2: Valitse aloituskuvan tekoälymalli tarpeesi mukaan

Kuvan ja videon luominen poikkeaa teknisesti varsin paljon. Laadukasta lopputulosta tavoiteltaessa näiden luomisen keskeiset haasteet ovat hyvin erilaiset. Samalta toimittajalta voi löytyä molemmat riittävän laadukkaina, mutta parhaat tekoälymallit kuvien luomiseen eivät monestikaan ole parhaita tai sopivimpia videoiden luomisessa ja sama tietysti toisinpäin. Pelkästään kuvien luontiin tarjottavia tuotteita ja tekoälymalleja on paljon. Eri mallien painotukset ja esteettiset lähtökohdat vaihtelevat merkittävästi. Tämä vaikuttaa suoraan siihen, miltä videosi lopulta näyttää. Vertaillaan hieman paljon käytettyjä kuvapalveluita Midjourney ja OpenAI:n DALL-E.

Midjourney on tunnettu lähes taiteellisesta lähestymistavastaan. Se tuottaa kuvia, joissa valaistus, värit ja sommittelu ovat lähes kuin huolellisesti suunnitellussa mainoskuvassa. Jos tavoitteesi on visuaalisesti yhtenäinen animaatiotyyli, jossa maailma ja hahmot ovat kuin samasta universumista, Midjourney toimii erinomaisesti. Se sopii erityisesti konseptikuvien, taustojen ja hahmodesignien tekemiseen.

DALL-E (erityisesti uudemmat versiot, kuten DALL-E 3) lähestyvät kuvaa semanttisesti eli loogisen sisällön kautta. Siinä missä Midjourney luo kuvan tunteen ja estetiikan varaan, DALL-E pyrkii ymmärtämään mitä kuvassa kuuluu näkyä ja miksi. Tämän seurauksena DALL-E on usein parempi, kun halutaan selkeästi määriteltyä sisältöä, kuten tuotteen käyttötilanteita, ohjeita tai koulutusmateriaaleja.

3: Valitse videon tekoälymalli tarpeesi mukaan

Vaihtoehtoja videoiden luomiseen on paljon ja kehitys näinä päivinä todella nopeaa. Kun valitset tekoälymallia, mieti haluatko erityisesti visuaalisesti näyttäviä yksittäisiä kohtauksia vai onko tavoitteenasi pitkäjänteinen tarina, jossa hahmot ja miljööt säilyvät keskenään yhtenäisinä. Entä haluatko videon valmiilla äänellä? Oma merkityksensä on tietysti hinnalla. Hinnoissa on isoja eroja ja käyttökelpoisen videomateriaalin sekuntihinta on luokkaa muutamista senteistä kymmeniin sentteihin.Pidemmissä tuotannoissa hinnalla on merkitystä ja on huomioitava, että osa tuotetusta materiaalista joudutaan leikkaamaan pois. Tässä lyhyt vertailu myös tunnetuimmista tekoälyvideomalleista.

Runway Gen-3 on erinomainen valinta, kun haluat luovia, dynaamisia ja elokuvamaisia klippejä. Se on suunniteltu nopeaan ideointiin ja visuaaliseen kokeiluun, ei välttämättä pitkien jatkumojen hallintaan.Haasteena on hahmojen ja ympäristön johdonmukaisuus. Runway Gen-3 etuna kuitenkin on, että se tukee referenssikuvia, joiden avulla saat eri klippeihin mukaan samat hahmot.

OpenAI:n Sora 2 on suunniteltu pitkän, jatkuvan ja luonnollisen videon luomiseen. Se ei ainoastaan ymmärrä tekstiohjeita, vaan myös liikkeen, fysiikan ja syy-seuraussuhteet. Realistisen, tarinallinen videon luomiseen Sora 2 on tällä hetkellä parhaita tuotteita. Sora 2 luo videoihin myös äänen. Sora 2:n (ja toki myös Runwayn) kanssa kilpailee Googlen VEO 3, joka myös tarjoaa videoihin äänen. Uusin versio on VEO 3.1, joka korostaa realistista fysiikan lakeja noudattavaa liikkeen uskottavuutta. Se on suunniteltu monikohtaiseen tarinankerrontaan, mitä tukee mm. mahdollisuus referenssikuvien käyttöön.

Nämä tuotteet eivät todellakaan ole ainoita varteenotettavia vaihtoehtoja. Mm. kiinalaisen Kuaishou-teknologiayhtiön Kling AI haastaa muut huippuvideomallit nopealla kehityssyklillään. Tätä kirjoitettaessa uusin versio on Kling 2.5 Turbo, joka on varteenotettava vaihtoehto. Erilaista lähestymistä tarjoaa Synthesia, joka eroaa edellä kuvatuista siinä, että se ei ole luova “videogeneraattori”, vaan sisällöntuotantoalusta, joka käyttää valmiita virtuaalihahmoja (talking avatars). Se voi olla hyvä valinta silloin, kun tavoitteena on selkeästi jäsennelty ja informatiivinen video, kuten käyttöohje, perehdytysvideo tai esitys. Puutteena taas on visuaalinen rajoittuneisuus: videon tyyli ja liike eivät ole luovia, vaan pikemminkin yrityskäyttöön vakioituja.

4: Suunnittele ensin runko

Moni on pettynyt, kun toinen kohtaus näyttää aivan erilaiselta kuin ensimmäinen. Tämä johtuu siitä, että tekoälymallit eivät vielä “muista” edellisiä kuvauksia – ne luovat jokaisen kuvan ja videon erikseen. Mm. tämä tekoälyvideoiden tämänhetkinen ominaispiirre on huomioitava suunnittelussa.

Yhtenäisyys syntyy suunnittelulla, ei sattumalla. Käytä elokuvamaailman pre-production -vaihetta vastaavaa lähestymistapaa: ensin luodaan visuaalinen kieli, ja vasta sitten kuvataan. Tekoälyvideotuotannossa tämä tarkoittaa referenssi- ja aloituskuvien hallittua käyttöä.

Suunnittelussa luodaan videon käsikirjoitus ja roolitetaan hahmot. Suunnittelussa on huomioitava mitä ja miten asia esitetään. Jotta mitä kysymykseen voidaan vastata, suunnitellaan kohtaukset sisällön mukaan. Jotta asiasisältö tai tarina voidaan esittää, on suunniteltava ketä tai mitä kohtauksessa esiintyy. Käytännössä rungossa pitää olla suunniteltuna toisiaan seuraavat kohtaukset ja kohtausten aloituskuvat.

5: Rakenna videot pienistä osista

Tämän päivän suurin haaste videotuotannossa on niiden hallittavuus. Niinkuin monessa muussakin asiassa ja projektissa, tässäkin hallittavuus paranee paloittelemalla iso kokonaisuus pieniin, hallittaviin osiin. Videotuotannossa se tarkoittaa, että video luodaan niin lyhyissä osissa, ettei osaan “mahdu” ainuttakaan virhettä. Tämä tarkoittaa usein, että työn alla olevassa osassa tapahtuu vain yksi liike tai asia kerrallaan. Kun videon tarina on edennyt halutulla tavalla, jatkat seuraavalla osalla ja sitten taas seuraavalla. Tänä päivänä tekoälypalvelut tarjoavat mahdollisuutta luoda lyhyitä, yleensä 3-15 sekunnin videoklippejä kerrallaan. Haasteellisissa kohdissa eteneminen voi tapahtua vielä paljon hitaammin eli pääset etenemään ehkä vain sekunti tai pari kerrallaan saadaksesi riittävän laadukasta videota. Kun tekoälymallit kehittyvät, saat luotua kerralla pidempiä klippejä valmista videota. Pienemmistä osista kokonaisuuksia tulevaisuudessakin rakennetaan, joten perehtymistä osista rakentamiseen tarvitset jatkossakin.

6: Mistä lisää hallittavuutta

Kuten edellisessä kohdassa kuvattiin, hallittavuutta saat paloittelemalla projektisi pieniin osasiin. Siitä seuraa kysymys, miten nämä pienet osat toimivat yhdessä toisten osasten kanssa. Kun haluat, että hahmot, valaistus ja tyyli pysyvät yhtenäisinä koko videon ajan, tarvitset työkalut ja menetelmät, joilla ohjaat tekoälyä johdonmukaisesti. Tällöin korostuu suunnitteluprosessia ohjaavien työkalujen ja mm. referenssikuvien merkitys.

Keskeinen hallinnan keino on suunnitteluprosessin jäsentäminen ennen videon luomista. Käytännössä tämä tarkoittaa sitä, että et aloita tekoälyllä, vaan paperilla tai digitaalisella työkalulla, joka tukee kohtausten suunnittelua. Tällöin et päädy umpikujaan vaan pystyt luomaan tarinan soveltamalla käytettävissä olevia tekniikoita.

Referenssikuvat on hyödyllinen ominaisuus, joka auttaa pitämään kohtaukset yhdenmukaisina. Valitettavasti monetkaan tekoälymallit eivät referenssikuvia tänä päivänä tue. Referenssikuvia voit ajatella tekoälyn ohjausjärjestelmänä – ne kertovat mallille, miltä maailman kuuluu näyttää, ennen kuin se alkaa generoida liikettä. Referenssikuvien korvikkeena voit käyttää aloituskuvia.

Referenssikuvien ja suunnittelutyökalujen käyttö palauttaa sen, mikä elokuvatuotannossa on aina ollut tärkeintä: visuaalisen johdonmukaisuuden ja tarinan rytmin. AI-videotuotanto muistuttaa tällä hetkellä enemmän ohjaamista kuin pelkkää “generointia”. Jokainen prompti, referenssikuva ja asetuksen säätö on ohjaajan päätös, joka vaikuttaa lopputulokseen.

7: Tekoälyn tyypillisiä virheitä ja puutteita

Tekoälyvideot ovat kiivaan kehitystyön alla ja videoiden laatu paranee vauhdilla. Parannettavaa onkin vielä melkoisesti. Lähes kaikki kokeilijat ovat törmänneet näihin tekoälyn tekniikkaan liittyviin ongelmiin.

Kohteiden vääristyminen:
Kädet, sormet, vaatteiden reunat ja ohuet esineet vääristyvät helposti, koska mallit eivät vielä täysin hallitse luonnollista kolmiulotteisuutta ja kosketuspisteitä.

Ratkaisu:

Lyhennä videoklippien pituutta. Mitä pidempi generointi, sitä suurempi riski, että hahmo tai esine vääristyy liikkeessä.
Käytä image-to-video-menetelmää – se ankkuroi kuvan muodon vakaammin kuin pelkkä text-to-video.
Vältä monimutkaisia toimintoja (esim. “hahmo nostaa pöydältä mukin ja vilkuttaa”) – jaa ne kahteen otokseen.

Muistamatomuus:

Tekoäly ei “muista” edellisiä otoksia, vaan luo jokaisen kuvan ja videon uudelleen. Siksi sama hahmo voi näyttää joka klipissä hieman erilaiselta – eri hiukset, kasvonmuodot tai jopa eri vaatteet.

Ratkaisu:

Käytä referenssikuvaa tai -videota jokaisessa generointivaiheessa.
Luo hahmopankki.
Lisää kuvaukseen yksityiskohtaisia promptteja: “same woman, same outfit, same hairstyle as previous shot”.

8: AI-videotuotannon kustannukset

AI-videotuotannon yksi suurimpia lupauksia on ollut kustannustehokkuus. Ja totta se on – tekoälyn avulla voi tänä päivänä tehdä videon, jonka toteuttaminen perinteisin menetelmin olisi helposti maksanut tuhansia euroja tai jopa huimasti enemmän, sisällöstä riippuen. Samalla on hyvä ymmärtää, että tekoälyvideotkaan eivät ole “ilmaisia” eikä aina edes kovin halpoja. Kustannukset jakautuvat eri tavalla: osa liittyy laskentatehoon, osa palveluiden käyttöoikeuksiin ja osa omaan työaikaan ja suunnitteluun.

Kuten melkein kaikissa projekteissa, suunnittelu on tässäkin avainasemassa, kun kulujen säästöistä puhutaan. Aloita suunnittelu aina “isosta kuvasta”, eli mieti ja kuvaa mitkä ovat tavoitteesi. Käsikirjoita ja suunnittele kohtaukset. Vasta kun suunnitelma on valmis, seuraa varsinainen kuvausvaihe eli tekoälyvideoissa niiden luominen. Mahdollisesti voit tehdä ensimmäisen luonnosversion halvemmalla tekoälymallilla alhaisella resoluutiolla, jolla toteat ideoiden toimivuuden.

Kustannuksia tulee suunnittelutyöstä, mutta on myös selvää, että jos alat generoimaan videoita ilman suunnittelua, luot paljon roskiin menevää videomateriaalia, jonka jokainen sekunti maksaa. Eli käytännössä voit luoda suunnitelman joko ennen videon generoimista tai sen aikana. Mitä kokeneempi tekijä olet, sitä enemmän osaat panostaa suunnitteluun ja sitä kautta pystyt tekemään parempaa laatua pienemmillä kustannuksilla.