A Meta lançou esta semana a sua IA generativa de texto para áudio chamada AudioCraft e as amostras do seu resultado são impressionantes.
O espaço da IA generativa tem registado um desenvolvimento exponencial na geração de texto, imagem e voz, mas não temos tido muitas novidades no espaço da geração de áudio por IA. AudioCraft é uma das primeiras ferramentas de texto para áudio do seu género que estão disponíveis para serem experimentadas corretamente.
No início deste ano, a Google deu-nos uma espreitadela ao seu gerador de texto para música MusicLM, mas já lá vão 8 meses e ainda só o pode experimentar se for aceite na sua Cozinha de Testes de IA.
Os modelos pré-treinados da AudioCraft estão disponíveis para transferência no GitHub e a Meta espera que a sua estratégia de código aberto impulsione a adoção e os testes para melhorar os modelos.
O AudioCraft é composto pelos modelos MusicGen, AudioGen e Encodec do Meta.
O modelo MusicGen foi treinado com música especificamente licenciada e propriedade da Meta e produz música a partir de um pedido de texto. O exemplo no blogue do Meta utilizou o seguinte pedido: "Faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeita para a praia"
A saída de música soa muito bem e corresponde exatamente ao que é pedido. A amostra foi provavelmente selecionada a dedo, mas não deixa de ser impressionante. Pode ouvir mais amostras aqui.
Hoje estamos a partilhar detalhes sobre o AudioCraft, uma família de modelos de IA generativa que lhe permite gerar facilmente áudio e música de alta qualidade a partir de texto.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
- Meta Newsroom (@MetaNewsroom) 2 de agosto de 2023
Embora existam algumas ferramentas de texto para música que pode experimentar online, o modelo AudioGen é bastante único. O modelo foi treinado com efeitos sonoros públicos e gera efeitos sonoros complexos com base em mensagens de texto. O exemplo no blogue do Meta era: "Sirenes e um motor a zumbir aproximam-se e passam" e soou muito bem. Aqui estão mais alguns Efeitos de amostragem AudioGen.
A possibilidade de gerar efeitos sonoros a partir de descrições de texto de forma gratuita será muito importante para os criadores de conteúdos. Imagine fazer um clip para as redes sociais ou um vídeo do Youtube e obter exatamente o efeito sonoro certo sem ter de pagar para o descarregar de um sítio Web de efeitos sonoros.
O modelo Encodec é provavelmente a parte mais interessante do AudioCraft. É um codec de áudio alimentado por IA. Um codec é uma peça de software que pega nos dados e os comprime, perdendo o mínimo de dados possível. Se já reproduziu um ficheiro de música MP3, então utilizou um codec.
O Encodec retira a maior quantidade possível de dados do ficheiro de áudio gerado e, em seguida, utiliza a IA para preencher as lacunas quando o áudio tiver de ser reproduzido novamente. O resultado é que os ficheiros de áudio comprimido podem ser 10 vezes mais pequenos do que se fossem armazenados como MP3.
O Meta ainda não tem um codec semelhante para vídeo, mas consegue imaginar as implicações de comprimir vídeo e áudio por um fator de 10 sem perder qualquer fidelidade? Poderá libertar 90% de espaço no seu disco rígido ou transmitir música e vídeo 10 vezes mais depressa com a mesma largura de banda.
Será interessante ver como os programadores utilizam a ferramenta de texto para áudio da Meta. Parece que a Meta treinou os seus modelos de forma responsável, mas outros utilizadores dos modelos podem não partilhar as suas preocupações éticas e legais. Espera-se um debate aceso sobre se a música protegida por direitos de autor é um jogo justo para treinar a IA.
E enquanto actores e argumentistas continuam em greveA partir de agora, os músicos e os artistas de efeitos sonoros poderão também juntar-se aos piquetes de greve com ferramentas musicais gratuitas como o AudioCraft.