Meta lanserer tekst-til-lyd-generatoren AudioCraft

3. august 2023

Meta AudioCraft AI-musikkgenerator

Meta lanserte sin tekst-til-lyd-generative AI kalt AudioCraft denne uken, og eksemplene på resultatene er imponerende.

Det har skjedd en eksponentiell utvikling innen generativ AI for tekst-, bilde- og stemmegenerering, men vi har ikke hørt mye nytt om AI-lydgenerering. AudioCraft er et av de første tekst-til-lyd-verktøyene i sitt slag som er tilgjengelig for utprøving.

Tidligere i år ga Google oss en titt på MusicLM-tekst-til-musikk-generatoren, men nå har det gått åtte måneder, og du kan fortsatt bare prøve den hvis du blir tatt opp i AI-testkjøkkenet deres.

AudioCrafts forhåndstrenede modeller er tilgjengelige for nedlasting på GitHub, og Meta håper at deres strategi med åpen kildekode vil føre til at modellene blir tatt i bruk og testet for å forbedre dem.

AudioCraft består av Metas MusicGen-, AudioGen- og Encodec-modeller.

MusicGen-modellen ble trent på musikk som var spesifikt lisensiert og eid av Meta, og gir ut musikk fra en tekstmelding. Eksempelet på Metas blogg brukte følgende ledetekst: "Popdansespor med fengende melodier, tropiske perkusjoner og optimistiske rytmer, perfekt for stranden"

Musikken høres ganske bra ut og stemmer godt overens med ledeteksten. Eksemplet er sannsynligvis plukket ut, men det er likevel imponerende. Du kan lytte til flere eksempler her.

Det finnes noen få tekst-til-musikk-verktøy du kan prøve ut på nettet, men AudioGens modell er ganske unik. Modellen ble trent på offentlige lydeffekter og genererer komplekse lydeffekter basert på tekstmeldinger. Eksempelet på Metas blogg var: "Sirener og en brummende motor nærmer seg og passerer" og hørtes flott ut. Her er noen flere AudioGen sample-effekter.

Det å kunne generere lydeffekter fra tekstbeskrivelser gratis vil være enormt viktig for innholdsskapere. Tenk deg å lage et klipp til sosiale medier eller en Youtube-video og få akkurat den rette lydeffekten uten å måtte betale for å laste den ned fra et nettsted for lydeffekter.

Encodec-modellen er sannsynligvis den mest spennende delen av AudioCraft. Det er en AI-drevet kodek for lyd. En kodek er et stykke programvare som tar data og komprimerer dem, samtidig som så lite data som mulig går tapt. Hvis du har spilt av en MP3-musikkfil, har du brukt en kodek.

Encodec fjerner så mye som mulig av dataene fra den genererte lydfilen, og bruker deretter AI til å fylle ut hullene når lyden skal spilles av på nytt. Resultatet er at de komprimerte lydfilene kan være 10 ganger mindre enn om de hadde blitt lagret som MP3-filer.

Meta har ikke en lignende kodek for video ennå, men kan du forestille deg implikasjonene av å komprimere video og lyd med en faktor på 10 uten å miste noen troskap? Du kan frigjøre 90% av harddiskplassen din eller streame musikk og video 10 ganger raskere med samme båndbredde.

Det blir interessant å se hvordan utviklere bruker Metas tekst-til-lyd-verktøy. Det ser ut til at Meta har trent modellene sine på en ansvarlig måte, men det er ikke sikkert at andre brukere av modellene deler deres etiske og juridiske bekymringer. Forvent en opphetet debatt om hvorvidt opphavsrettsbeskyttet musikk er rettferdig spill for å trene AI.

Og mens skuespillere og manusforfattere fortsetter å streikekan gratis musikkverktøy som AudioCraft snart få musikere og lydeffektartister til å slutte seg til streikevaktene.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser