Meta lança o seu gerador de texto para áudio AudioCraft

A Meta lançou esta semana a sua IA generativa de texto para áudio chamada AudioCraft e as amostras do seu resultado são impressionantes.

O espaço da IA generativa tem registado um desenvolvimento exponencial na geração de texto, imagem e voz, mas não temos tido muitas novidades no espaço da geração de áudio por IA. AudioCraft é uma das primeiras ferramentas de texto para áudio do seu género que estão disponíveis para serem experimentadas corretamente.

No início deste ano, a Google deu-nos uma espreitadela ao seu gerador de texto para música MusicLM, mas já lá vão 8 meses e ainda só o pode experimentar se for aceite na sua Cozinha de Testes de IA.

Os modelos pré-treinados da AudioCraft estão disponíveis para transferência no GitHub e a Meta espera que a sua estratégia de código aberto impulsione a adoção e os testes para melhorar os modelos.

O AudioCraft é composto pelos modelos MusicGen, AudioGen e Encodec do Meta.

O modelo MusicGen foi treinado com música especificamente licenciada e propriedade da Meta e produz música a partir de um pedido de texto. O exemplo no blogue do Meta utilizou o seguinte pedido: "Faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeita para a praia"

A saída de música soa muito bem e corresponde exatamente ao que é pedido. A amostra foi provavelmente selecionada a dedo, mas não deixa de ser impressionante. Pode ouvir mais amostras aqui.

Hoje estamos a partilhar detalhes sobre o AudioCraft, uma família de modelos de IA generativa que lhe permite gerar facilmente áudio e música de alta qualidade a partir de texto.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF

- Meta Newsroom (@MetaNewsroom) 2 de agosto de 2023

Embora existam algumas ferramentas de texto para música que pode experimentar online, o modelo AudioGen é bastante único. O modelo foi treinado com efeitos sonoros públicos e gera efeitos sonoros complexos com base em mensagens de texto. O exemplo no blogue do Meta era: "Sirenes e um motor a zumbir aproximam-se e passam" e soou muito bem. Aqui estão mais alguns Efeitos de amostragem AudioGen.

A possibilidade de gerar efeitos sonoros a partir de descrições de texto de forma gratuita será muito importante para os criadores de conteúdos. Imagine fazer um clip para as redes sociais ou um vídeo do Youtube e obter exatamente o efeito sonoro certo sem ter de pagar para o descarregar de um sítio Web de efeitos sonoros.

O modelo Encodec é provavelmente a parte mais interessante do AudioCraft. É um codec de áudio alimentado por IA. Um codec é uma peça de software que pega nos dados e os comprime, perdendo o mínimo de dados possível. Se já reproduziu um ficheiro de música MP3, então utilizou um codec.

O Encodec retira a maior quantidade possível de dados do ficheiro de áudio gerado e, em seguida, utiliza a IA para preencher as lacunas quando o áudio tiver de ser reproduzido novamente. O resultado é que os ficheiros de áudio comprimido podem ser 10 vezes mais pequenos do que se fossem armazenados como MP3.

O Meta ainda não tem um codec semelhante para vídeo, mas consegue imaginar as implicações de comprimir vídeo e áudio por um fator de 10 sem perder qualquer fidelidade? Poderá libertar 90% de espaço no seu disco rígido ou transmitir música e vídeo 10 vezes mais depressa com a mesma largura de banda.

Será interessante ver como os programadores utilizam a ferramenta de texto para áudio da Meta. Parece que a Meta treinou os seus modelos de forma responsável, mas outros utilizadores dos modelos podem não partilhar as suas preocupações éticas e legais. Espera-se um debate aceso sobre se a música protegida por direitos de autor é um jogo justo para treinar a IA.

E enquanto actores e argumentistas continuam em greveA partir de agora, os músicos e os artistas de efeitos sonoros poderão também juntar-se aos piquetes de greve com ferramentas musicais gratuitas como o AudioCraft.

Meta lança o seu gerador de texto para áudio AudioCraft

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

Meta lança o seu gerador de texto para áudio AudioCraft

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI