A Stability AI anunciou o lançamento do seu gerador de áudio AI e afirma que este oferece um desempenho de primeira classe.
Nos últimos meses, vimos uma série de geradores de áudio de IA com desempenho variável, mas o Stable Audio parece ter elevado a fasquia.
Com o Stable Audio, pode introduzir uma mensagem de texto e este gera música ou áudio com base na mensagem. Já vimos este tipo de funcionalidade da Google com o seu MusicLM e os produtos AudioCraft da Meta.
O MusicLM ainda só está disponível no Google's Test Kitchen e gera música a 24 kHz. Meta's AudioCraft é realmente impressionante, mas só gera música a 32 kHz.
O Stable Audio é o primeiro gerador de texto para áudio implementado que produz áudio a 44,1 kHz, que é a taxa de amostragem da música com "qualidade de CD".
A outra caraterística impressionante do Stable Audio é a duração das faixas que produz. A maioria dos geradores de áudio de IA produz peças de música mais curtas que se repetem rapidamente ou perdem o rumo. O Stable Audio produz música com mais nuances, com cerca de 90 segundos, sem perder a coerência.
É com grande entusiasmo que lançamos hoje o Stable Audio, o nosso primeiro produto de IA para música e geração de som!
Experimente-o aqui gratuitamente! #stabilidadeAI #stableaudio #novo anúncio
https://t.co/pRK3Qs9Fak pic.twitter.com/cZfbK1mZYA- IA de estabilidade (@StabilityAI) 13 de setembro de 2023
Pode consultar alguns amostras do áudio gerado aqui.
Aqui está um exemplo de uma faixa que consegui gerar utilizando a ferramenta com o seguinte prompt:
"Pós-Rock, Guitarras, Kit de bateria, Baixo, Cordas, Eufórico, Elevador, Moody, Fluindo, Cru, Épico, Sentimental, 125 BPM"
De facto, parece-me muito bem.
O modelo baseia-se na técnica de difusão latente da Stability, que utiliza para os seus outros produtos de IA generativa. Utiliza alguns codecs inteligentes durante inferência que, segundo a empresa, permite gerar 95 segundos de música de 44,1 kHz em 1 segundo utilizando uma GPU Nvidia A100.
Perguntas sobre formação e direitos de autor
A Stability AI produziu o Stable Audio em cooperação com o Harmonai, um laboratório de investigação de aprendizagem profunda centrado na criação de modelos de áudio generativos de código aberto. A equipa de áudio da Stability AI criou um novo modelo baseado no seu anterior modelo Dance Diffusion, que a HarmonAI treinou.
O conjunto de dados utilizado para treinar o Stable Audio veio da AudioSparx, que forneceu cerca de 800 000 canções dos artistas musicais independentes que representa.
Foi dada aos artistas a possibilidade de optarem pela exclusão do seu trabalho do conjunto de dados, o que terá acontecido com cerca de 10%.
Os artistas que optaram pela inclusão do seu trabalho no conjunto de dados partilharão o acordo de partilha de lucros celebrado entre a Stability AI e a AudioSparx.
Não existem artistas de grandes marcas no conjunto de dados, mas o Stable Audio não o impede de adicionar o nome de um artista ou de uma banda à sua mensagem.
Embora a biblioteca AudioSparx não contenha trabalhos de uma banda como AC/DC, por exemplo, ela contém muitas música descrita como sendo do estilo dos AC/DC.
Continua a não ser possível obter direitos de autor sobre a música que gera com uma ferramenta de IA. E os termos de utilização dizem que o utilizador "é responsável por garantir a legalidade de todo o conteúdo" criado com o Stable Audio.
Os termos referem ainda que "o utilizador declara e garante que detém todos os direitos, títulos e interesses necessários relativamente a esses prompts, incluindo, sem limitação, todos os direitos de autor e direitos de publicidade neles contidos."
Por isso, talvez não acrescentem "Metallica" à vossa lista. Esses gajos fazem boa música, mas também adoram um bom processo de direitos de autor.
Quanto custa o Stable Audio?
Pode experimentar o Stable Audio mas estará limitado a gerar 20 faixas não comercializáveis por mês, cada uma com uma duração de 20 segundos. E os servidores deles estão absolutamente lotados no momento, então demora um pouco para gerar uma faixa.
A procura para o lançamento do nosso Stable Audio hoje está a ultrapassar os limites! Mas os nossos servidores estão agora em plena capacidade, pelo que poderá não conseguir aceder ao produto. Se não conseguir, pedimos-lhe que volte a contactar-nos dentro de 24 horas para tentar novamente.
Entretanto, estamos a trabalhar arduamente...
- IA de estabilidade (@StabilityAI) 13 de setembro de 2023
Uma subscrição Pro custa-lhe $11.99 por mês, o que lhe permite gerar 500 faixas comercializáveis de até 90 segundos de duração por mês.
Os créditos de geração não utilizados não transitam para o mês seguinte, por isso, use-os ou perca-os.
Se tiver uma aplicação, um Web site ou um software com mais de 100 000 utilizadores, tem de contactar o Stability para obter os preços do seu plano empresarial.
A Stability afirma que, em breve, irá "abrir um modelo de geração de música, treinado com dados diferentes".
Com o seu produto Stable Audio, talvez a Stability AI tenha finalmente encontrado uma forma de fazer algum dinheiro para os seus investidores.