Meta lance des outils audio d'IA open source, AudioCraft

Benj Edwards - 2 août 2023 à 20h56 UTC

Mercredi, Meta a annoncé le lancement d'AudioCraft en open source, une suite d'outils d'IA génératifs permettant de créer de la musique et de l'audio à partir d'invites de texte. Grâce à ces outils, les créateurs de contenu peuvent saisir des descriptions textuelles simples pour générer des paysages audio complexes, composer des mélodies ou même simuler des orchestres virtuels entiers.

AudioCraft se compose de trois composants principaux : AudioGen, un outil permettant de générer divers effets audio et paysages sonores ; MusicGen, qui peut créer des compositions musicales et des mélodies à partir de descriptions ; et EnCodec, un codec de compression audio basé sur un réseau neuronal.

En particulier, Meta indique qu'EnCodec, dont nous avons parlé pour la première fois en novembre, a été récemment amélioré et permet « une génération de musique de meilleure qualité avec moins d'artefacts ». En outre, AudioGen peut créer des effets sonores audio comme un chien qui aboie, un klaxon de voiture ou des pas sur un plancher en bois. Et MusicGen peut créer des chansons de différents genres à partir de zéro, sur la base de descriptions telles que "Piste de danse pop avec des mélodies entraînantes, des percussions tropicales et des rythmes entraînants, parfaits pour la plage".

Meta a fourni plusieurs échantillons audio sur son site Web pour évaluation. Les résultats semblent conformes à leur étiquetage de pointe, mais ils ne sont sans doute pas d'une qualité suffisamment élevée pour remplacer les effets audio ou la musique commerciaux produits par des professionnels.

Meta note que même si les modèles d'IA génératifs centrés sur le texte et les images fixes ont reçu beaucoup d'attention (et sont relativement faciles à expérimenter en ligne), le développement des outils audio génératifs a pris du retard. "Il y a du travail à faire, mais c'est très compliqué et pas très ouvert, donc les gens ne peuvent pas facilement jouer avec", écrivent-ils. Mais ils espèrent que la sortie d'AudioCraft sous licence MIT contribuera à la communauté plus large en fournissant des outils accessibles pour l'expérimentation audio et musicale.

"Les modèles sont disponibles à des fins de recherche et pour approfondir la compréhension de la technologie. Nous sommes ravis de donner accès aux chercheurs et aux praticiens afin qu'ils puissent former leurs propres modèles avec leurs propres ensembles de données pour la première fois et contribuer à faire progresser l'état de l'art. ", a déclaré Meta.

Meta n'est pas la première entreprise à expérimenter des générateurs audio et musicaux alimentés par l'IA. Parmi certaines des tentatives récentes les plus notables, OpenAI a lancé son Jukebox en 2020, Google a lancé MusicLM en janvier et en décembre dernier, une équipe de recherche indépendante a créé une plate-forme de génération de texte en musique appelée Riffusion en utilisant une base de diffusion stable.

Aucun de ces projets audio génératifs n'a attiré autant d'attention que les modèles de synthèse d'images, mais cela ne veut pas dire que le processus de développement n'est pas moins compliqué, comme le note Meta sur son site Internet :

La génération d’audio haute fidélité, quel qu’il soit, nécessite la modélisation de signaux et de modèles complexes à différentes échelles. La musique est sans doute le type d'audio le plus difficile à générer car elle est composée de motifs locaux et à longue portée, depuis une suite de notes jusqu'à une structure musicale globale avec plusieurs instruments. La génération d'une musique cohérente avec l'IA a souvent été abordée grâce à l'utilisation de représentations symboliques telles que le MIDI ou les rouleaux de piano. Cependant, ces approches sont incapables de saisir pleinement les nuances expressives et les éléments stylistiques présents dans la musique. Des progrès plus récents exploitent l'apprentissage de la représentation audio auto-supervisé et un certain nombre de modèles hiérarchiques ou en cascade pour générer de la musique, en introduisant l'audio brut dans un système complexe afin de capturer des structures à longue portée dans le signal tout en générant un son de qualité. Mais nous savions que l’on pouvait faire davantage dans ce domaine.

Au milieu de la controverse sur le matériel de formation non divulgué et potentiellement contraire à l'éthique utilisé pour créer des modèles de synthèse d'images tels que Stable Diffusion, DALL-E et Midjourney, il est à noter que Meta affirme que MusicGen a été formé sur « 20 000 heures de musique appartenant à Meta ou sous licence spécifiquement pour cela ». but." À première vue, cela semble être une évolution dans une direction plus éthique qui pourrait plaire à certains critiques de l’IA générative.

Nouvelles

Meta lance des outils audio d'IA open source, AudioCraft