Meta släppte sin generativa AI för text-till-ljud som heter AudioCraft den här veckan och proverna av dess produktion är imponerande.
Inom generativ AI har det skett en exponentiell utveckling inom text-, bild- och röstgenerering, men det har inte hänt så mycket inom AI-ljudgenerering. AudioCraft är ett av de första text-till-ljud-verktygen i sitt slag som finns tillgängliga för att testas ordentligt.
Tidigare i år gav Google oss en titt på sin text-till-musik-generator MusicLM, men nu har det gått åtta månader och du kan fortfarande bara prova den om du blir antagen till deras AI Test Kitchen.
AudioCrafts förutbildade modeller finns tillgängliga för nedladdning på GitHub och Meta hoppas att deras strategi för öppen källkod kommer att driva adoption och testning för att förbättra modellerna.
AudioCraft består av Metas MusicGen-, AudioGen- och Encodec-modeller.
MusicGen-modellen tränades på musik som var specifikt licensierad och ägd av Meta och matar ut musik från en textprompt. Exemplet på Meta's blogg använde följande prompt: "Popdansspår med fängslande melodier, tropiska slagverk och optimistiska rytmer, perfekt för stranden"
Musikutmatningen låter ganska bra och matchar nära prompten. Provet var troligen körsbärsplockat men det är ändå imponerande. Du kan lyssna på fler prover här.
🎵 Idag berättar vi mer om AudioCraft, en familj av generativa AI-modeller som gör att du enkelt kan generera högkvalitativt ljud och musik från text.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
- Meta Newsroom (@MetaNewsroom) 2 augusti 2023
Det finns några text-till-musik-verktyg som du kan prova på nätet, men AudioGens modell är ganska unik. Modellen utbildades på offentliga ljudeffekter och genererar komplexa ljudeffekter baserat på textmeddelanden. Exempelprompten på Metas blogg var: "Sirener och en brummande motor närmar sig och passerar" och lät bra. Här är några fler AudioGen samplingseffekter.
Att kunna generera ljudeffekter från textbeskrivningar gratis kommer att vara enormt viktigt för innehållsskapare. Tänk dig att göra ett klipp för sociala medier eller en Youtube-video och få exakt rätt ljudeffekt utan att behöva betala för att ladda ner den från en webbplats för ljudeffekter.
Encodec-modellen är förmodligen den mest spännande delen av AudioCraft. Det är en AI-driven codec för ljud. En codec är en mjukvara som tar data och komprimerar den samtidigt som den förlorar så lite av datan som möjligt. Om du har spelat en MP3-musikfil så har du använt en codec.
Encodec tar bort så mycket data som möjligt från den genererade ljudfilen och använder sedan AI för att fylla i luckorna när ljudet ska spelas upp igen. Resultatet är att de komprimerade ljudfilerna kan vara 10 gånger mindre än om de hade lagrats som MP3-filer.
Meta har inte fått en liknande codec för video ännu, men kan du föreställa dig konsekvenserna av att komprimera video och ljud med en faktor 10 utan att förlora någon trohet? Du kan frigöra 90% av ditt hårddiskutrymme eller strömma musik och video 10 gånger snabbare med samma bandbredd.
Det blir intressant att se hur utvecklare använder Meta's text-till-ljud-verktyg. Det verkar som om Meta utbildade sina modeller på ett ansvarsfullt sätt, men andra användare av modellerna kanske inte delar deras etiska och juridiska problem. Förvänta dig en upphettad debatt om huruvida upphovsrättsskyddad musik är rättvist spel för att träna AI.
Och medan skådespelare och manusförfattare fortsätter att strejkakan gratis musikverktyg som AudioCraft snart få musiker och ljudeffektartister att gå med i strejkvaktslinjen också.