Meta frigiver sin tekst-til-lyd-generator AudioCraft

3. august 2023

Meta AudioCraft AI musikgenerator

Meta udgav sin tekst-til-lyd-generative AI kaldet AudioCraft i denne uge, og eksemplerne på dens output er imponerende.

Det generative AI-område har oplevet en eksponentiel udvikling inden for tekst-, billed- og stemmegenerering, men der har ikke været meget nyt inden for AI-lydgenerering. AudioCraft er et af de første tekst-til-lyd-værktøjer af sin art, som kan afprøves ordentligt.

Tidligere i år gav Google os et kig på sin MusicLM-tekst-til-musik-generator, men nu er der gået 8 måneder, og du kan stadig kun prøve den, hvis du bliver optaget i deres AI-testkøkken.

AudioCrafts prætrænede modeller kan downloades på GitHub, og Meta håber, at deres open source-strategi vil føre til, at modellerne bliver taget i brug og testet for at forbedre dem.

AudioCraft består af Metas MusicGen-, AudioGen- og Encodec-modeller.

MusicGen-modellen blev trænet på musik, der specifikt var licenseret og ejet af Meta, og den udsender musik ud fra en tekstprompt. Eksemplet på Metas blog brugte følgende prompt: "Pop dance track med iørefaldende melodier, tropisk percussion og upbeat rytmer, perfekt til stranden"

Musikoutputtet lyder ret godt og matcher nøje prompten. Eksemplet er sandsynligvis udvalgt, men det er ikke desto mindre imponerende. Du kan lytte til flere prøver her.

Der findes nogle få tekst-til-musik-værktøjer, som du kan prøve online, men AudioGen-modellen er ret unik. Modellen blev trænet på offentlige lydeffekter og genererer komplekse lydeffekter baseret på tekstprompter. Prompten på Metas blog var f.eks: "Sirener og en brummende motor nærmer sig og passerer", og det lød fantastisk. Her er nogle flere AudioGen sample-effekter.

At kunne generere lydeffekter fra tekstbeskrivelser gratis vil være enormt vigtigt for indholdsskabere. Forestil dig at lave et klip til sociale medier eller en Youtube-video og få præcis den rigtige lydeffekt uden at skulle betale for at downloade den fra et websted med lydeffekter.

Encodec-modellen er nok den mest spændende del af AudioCraft. Det er en AI-drevet codec til lyd. Et codec er et stykke software, der tager data og komprimerer dem, mens de mister så lidt data som muligt. Hvis du har afspillet en MP3-musikfil, har du brugt et codec.

Encodec fjerner så mange data fra den genererede lydfil som muligt og bruger derefter AI til at udfylde hullerne, når lyden skal afspilles igen. Resultatet er, at de komprimerede lydfiler kan være 10 gange mindre, end hvis de blev gemt som MP3'er.

Meta har endnu ikke et lignende codec til video, men kan du forestille dig konsekvenserne af at komprimere video og lyd med en faktor 10 uden at miste nogen form for troværdighed? Du kunne frigøre 90% af din harddiskplads eller streame musik og video 10 gange hurtigere med den samme båndbredde.

Det bliver interessant at se, hvordan udviklere bruger Metas tekst-til-lyd-værktøj. Det ser ud til, at Meta har trænet deres modeller på en ansvarlig måde, men andre brugere af modellerne deler måske ikke deres etiske og juridiske bekymringer. Forvent en ophedet debat om, hvorvidt ophavsretligt beskyttet musik er fair game til træning af AI.

Og mens Skuespillere og manuskriptforfattere fortsætter med at strejkeGratis musikværktøjer som AudioCraft kan snart få musikere og lydeffektkunstnere til at slutte sig til strejken.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser