Meta heeft deze week zijn tekst-naar-audio generatieve AI genaamd AudioCraft uitgebracht en de voorbeelden van zijn uitvoer zijn indrukwekkend.
De generatieve AI-ruimte heeft een exponentiële ontwikkeling doorgemaakt in het genereren van tekst, afbeeldingen en stemmen, maar we hebben nog niet veel nieuws gehoord over het genereren van AI-audio. AudioCraft is een van de eerste tekst-naar-audio tools in zijn soort die beschikbaar zijn om goed uit te proberen.
Eerder dit jaar gaf Google ons een kijkje in zijn MusicLM tekst-naar-muziek generator, maar we zijn nu 8 maanden verder en je kunt het nog steeds alleen uitproberen als je wordt toegelaten tot hun AI Test Kitchen.
De vooraf getrainde modellen van AudioCraft kunnen worden gedownload op GitHub en Meta hoopt dat hun open-source strategie zal leiden tot meer adoptie en tests om de modellen te verbeteren.
AudioCraft bestaat uit Meta's MusicGen-, AudioGen- en Encodec-modellen.
Het MusicGen-model is getraind op muziek die specifiek gelicentieerd is en eigendom is van Meta en voert muziek uit op basis van een tekstvraag. Het voorbeeld op Meta's blog gebruikte de volgende prompt: "Pop dancetrack met pakkende melodieën, tropische percussies en opzwepende ritmes, perfect voor op het strand."
De muziekuitvoer klinkt behoorlijk goed en komt goed overeen met de prompt. Het voorbeeld is waarschijnlijk uit de kersen geplukt, maar het is desondanks indrukwekkend. Je kunt luisteren naar meer voorbeelden hier.
🎵 Vandaag delen we details over AudioCraft, een familie van generatieve AI-modellen waarmee je eenvoudig audio en muziek van hoge kwaliteit uit tekst kunt genereren.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
- Meta Newsroom (@MetaNewsroom) 2 augustus 2023
Hoewel er een aantal tekst-naar-muziek tools zijn die je online kunt uitproberen, is het AudioGen model vrij uniek. Het model is getraind op openbare geluidseffecten en genereert complexe geluidseffecten op basis van tekstaanwijzingen. Het voorbeeld op Meta's blog was: "Sirenes en een brommende motor naderen en passeren" en klonk geweldig. Hier zijn er nog een paar AudioGen sample-effecten.
De mogelijkheid om gratis geluidseffecten te genereren uit tekstbeschrijvingen zal enorm zijn voor contentmakers. Stel je voor dat je een clip maakt voor sociale media of een Youtube-video en precies het juiste geluidseffect krijgt zonder te hoeven betalen om het te downloaden van een geluidseffectenwebsite.
Het Encodec-model is waarschijnlijk het spannendste onderdeel van AudioCraft. Het is een AI-aangedreven codec voor audio. Een codec is software die gegevens comprimeert met zo min mogelijk verlies. Als je ooit een MP3-muziekbestand hebt afgespeeld, dan heb je een codec gebruikt.
Encodec verwijdert zoveel mogelijk gegevens uit het gegenereerde audiobestand en gebruikt vervolgens AI om de gaten op te vullen wanneer de audio opnieuw moet worden afgespeeld. Het resultaat is dat de gecomprimeerde audiobestanden 10 keer kleiner kunnen zijn dan wanneer ze als MP3's worden opgeslagen.
Meta heeft nog geen vergelijkbare codec voor video, maar kun je je voorstellen wat het betekent om video en audio met een factor 10 te comprimeren zonder verlies van natuurgetrouwheid? Je zou 90% van je harde schijfruimte kunnen vrijmaken of muziek en video 10 keer sneller kunnen streamen met dezelfde bandbreedte.
Het zal interessant zijn om te zien hoe ontwikkelaars Meta's tekst-naar-audio tool gebruiken. Het lijkt erop dat Meta zijn modellen op verantwoorde wijze heeft getraind, maar andere gebruikers van de modellen delen hun ethische en juridische zorgen misschien niet. Verwacht een verhit debat over de vraag of auteursrechtelijk beschermde muziek geschikt is voor het trainen van AI.
En terwijl acteurs en scenarioschrijvers blijven stakenGratis muziekprogramma's zoals AudioCraft kunnen er voor zorgen dat muzikanten en geluidseffectenartiesten zich binnenkort ook bij de picketlijn aansluiten.