Qu’est-ce que le machine learning, et que signifie-t-il pour la musique ?

4 octobre 2021 | Leave a comment

Comme son nom l’indique, l’apprentissage automatique ou machine learning est une forme d’IA dans laquelle un algorithme informatique analyse et stocke des données au fil du temps, puis utilise ces données pour prendre des décisions et prédire des résultats futurs. L’apprentissage profond en est la prochaine évolution : au lieu de nécessiter une « supervision » humaine, les algorithmes peuvent utiliser de manière autonome des « réseaux neuronaux » analogues au cerveau humain. En d’autres termes, les lignes de code informatique peuvent désormais, dans une certaine mesure, être programmées pour apprendre par elles-mêmes, puis utiliser ces connaissances pour effectuer des opérations complexes à une échelle qui dépasse de loin les capacités humaines.

Que vous pensiez ou non que les machines vont envahir nos studios, il est clair que la technologie de l’intelligence artificielle est là pour rester et que nous assistons au début d’une révolution technologique musicale. Pour vous tenir informé des nouvelles innovations musicales, rendez-vous sur lepetitmusicien.com. Vous y trouverez des news, des guides d’apprentissages d’instruments et des outils pour mieux appréhender la Musique avec un grand M !

Considérée comme la plus grande avancée en matière de développement de logiciels au cours des dernières années, cette technologie est possible grâce aux progrès révolutionnaires de la puissance de calcul et du stockage des données. Elle fait désormais partie intégrante de la vie quotidienne, comme la façon dont Siri ou Alexa stockent intelligemment des données pour prédire des actions futures. Vous êtes-vous déjà demandé pourquoi les « personnes que vous connaissez peut-être » de Facebook et les suggestions de publicité sur les médias sociaux sont toujours aussi précises ? Ça fait peur, hein ? Et ce, avant même de mentionner les logiciels de reconnaissance faciale, le filtrage des spams, la classification des images, la détection des fraudes…

Oui, les algorithmes d’apprentissage automatique sont partout, et le domaine de la musique ne fait pas exception. Pour nous, auditeurs de musique en 2019, les algorithmes des services de streaming sont à l’origine de ces listes de suggestions qui vous aident à trouver de nouvelles chansons et de nouveaux artistes que vous n’auriez jamais découverts en temps normal. L’année dernière, la division de recherche Magenta de Google a développé le NSynth Super, un synthétiseur open-source alimenté par son algorithme NSynth conçu pour créer des sons entièrement nouveaux en apprenant les qualités acoustiques de sons existants.

La composition assistée par ordinateur, quant à elle, existe depuis la sortie sur disquette, en 1990, de Generative Music 1 de Brian Eno, alimenté par Koan. Amper Music fait entrer ce concept dans le XXIe siècle : il s’agit d’un service qui utilise l’apprentissage profond pour composer automatiquement de la musique générée par ordinateur pour un média, en fonction du « style » ou de l’humeur choisis par l’utilisateur. La créatrice de contenu Taryn Southern a composé un morceau entier avec l’aide de l’intelligence artificielle d’Amper Music, qui a depuis été écouté près de 2 millions de fois sur YouTube.

En outre, cette technologie est utilisée pour donner un coup de pouce aux producteurs et aux interprètes de musique. Xtrax Stems 2 d’Audionamix utilise une assistance d’apprentissage automatique basée sur le cloud pour déconstruire une piste stéréo entièrement mixée en un trio de sous-systèmes constitutifs (voix, batterie et musique) qui peuvent ensuite être utilisés pour des remixes en direct et des mashups de DJ.

Les robots ont-ils des pensées musicales ?

Le fabricant de logiciels iZotope a utilisé une technologie d’apprentissage automatique pour les nouvelles versions d’Ozone, Neutron et Nectar. Son directeur technique, Jonathan Bailey, nous en dit plus…

Les termes « apprentissage automatique » et « apprentissage profond » sont très utilisés de nos jours. Que signifient-ils exactement, en termes simples ?

L’apprentissage automatique désigne des techniques spécifiques dans le domaine plus large de l’IA qui permettent à un système de trouver des modèles dans de grandes quantités de données ou de prendre une décision en réponse à des données inédites. Un exemple courant est la technologie de reconnaissance faciale. Le logiciel de votre téléphone n’a évidemment jamais vu vos photos auparavant – car elles n’existaient pas avant que vous ne les preniez – et pourtant il peut identifier (« classer ») les visages et les regrouper (« cluster »).

Les techniques d’apprentissage automatique existent depuis des décennies, largement centrées sur l’utilisation des réseaux neuronaux. Les réseaux neuronaux sont des modèles statistiques connectés qui s’inspirent de la façon dont les neurones de votre cerveau fonctionnent comme un système de nœuds connectés.

Au cours des dix dernières années, deux forces se sont combinées pour permettre des percées dans l’utilisation des techniques d’apprentissage automatique : l’explosion des données numériques et la disponibilité bon marché des ressources informatiques (grâce aux solutions de cloud computing telles qu’Amazon Web Services). C’est là que l’apprentissage profond entre en jeu. L’apprentissage profond fait référence à l’utilisation de modèles de réseaux neuronaux très complexes qui utilisent plusieurs couches de nœuds, connectés dans des configurations compliquées qui nécessitent des ordinateurs puissants pour s’entraîner – sur de grands ensembles de données – et fonctionner. »

La photographie était censée tuer la peinture. Ça n’a pas été le cas. J’ai foi en notre capacité à inventer de nouvelles idées.

Comment l’apprentissage machine/profond permet-il d’améliorer les outils logiciels destinés aux musiciens et aux professionnels de l’audio ?

iZotope a beaucoup investi dans ces techniques au cours des dernières années. Un exemple de Neutron, notre bande de canaux intelligente, utilise l’apprentissage profond pour identifier (« classer ») quel instrument est représenté par l’audio dans n’importe quelle piste donnée de votre session musicale, et sur la base de cette catégorisation, et de certains traits acoustiques supplémentaires que nous analysons dans l’audio, nous faisons une recommandation sur les paramètres de dynamique, d’égalisation et/ou d’excitation à appliquer pour préparer cette piste pour votre mixage.

Nous utilisons désormais l’apprentissage profond non seulement pour analyser le contenu audio, mais aussi pour le traiter. Dans notre récente version de RX 7, la fonction Music Rebalance utilise l’apprentissage profond pour « démixer » un mélange musical en stems individuels qui peuvent être rééquilibrés ou autrement traités séparément. Nous étudions comment l’apprentissage profond pourrait être utilisé pour synthétiser le contenu à l’avenir. »

Quels sont les principaux avantages et inconvénients ?

L’apprentissage profond a permis de résoudre certains problèmes que nous avions du mal à résoudre par le passé. Par exemple, beaucoup de nos clients nous ont demandé un moyen de supprimer le bruit de froissement des micros-cravates dans les enregistrements, ce qui était difficile à résoudre même en utilisant notre puissante technologie d’analyse et de traitement spectral.

Pour les entreprises désireuses de développer cette capacité, l’utilisation des techniques d’apprentissage profond devient plus facile, mais ce n’est pas encore si simple. L’un des principaux défis à relever pour mettre en œuvre une solution d’apprentissage profond fonctionnelle est d’avoir accès à de bonnes données d’entraînement. Il s’agit en quelque sorte d’un nouveau territoire pour les entreprises qui se sont traditionnellement concentrées sur le développement d’algorithmes. Le logiciel que vous utilisez pour créer un réseau neuronal est une technologie de base disponible gratuitement (TensorFlow de Google est un exemple courant). Comme je l’ai dit, pour les entreprises d’une certaine taille, l’accès à une grande quantité de puissance de calcul est raisonnablement abordable. Les données sont devenues un gros goulot d’étranglement et posent un problème intéressant. Google donne ses logiciels et fait payer son service d’informatique en nuage au centime près, mais il surveille de près ses données.

Cela dit, l’apprentissage profond n’est pas une panacée. Nous nous appuyons encore largement sur des connaissances issues du canon du traitement des signaux numériques. Il est de plus en plus facile d’apprendre à utiliser et à former efficacement un réseau neuronal profond, mais les recherches de pointe sont toujours menées par des scientifiques hautement qualifiés (généralement titulaires d’un doctorat). Les réseaux neuronaux peuvent être très difficiles à déboguer et fonctionnent parfois comme une sorte de « boîte noire » : on ne sait pas vraiment ce qui se passe à l’intérieur. Ils sont également gourmands en calculs et en ressources, ce qui rend très difficile leur intégration dans certaines applications en temps réel, comme les synthétiseurs ou les plugins audio.

L’apprentissage profond permet de raconter des histoires passionnantes, mais en fin de compte, nous voulons que la magie réside dans le résultat obtenu par le client, et non dans la façon dont il y est arrivé. »

Comment les musiciens peuvent-ils exploiter cette technologie tout en conservant leur créativité ?

Il y a deux camps de recherche différents. L’un vient du monde de la musicologie et se concentre sur la composition musicale algorithmique. Dans cet espace, vous avez Amper Music, qui a un produit capable de créer des exemples de musique générative pour votre contenu, comme votre vidéo ou votre publicité sur YouTube. D’autres se concentrent sur des applications comme l’auto-accompagnement. Certains groupes tentent donc d’automatiser la créativité, d’autres de l’améliorer.

C’est un équilibre vraiment délicat, mais iZotope est fermement dans le camp de l’amélioration de la créativité. J’admire beaucoup les équipes de recherche comme Google Magenta, dont l’objectif déclaré est d’utiliser l’apprentissage automatique pour créer de l’art – mais ce n’est pas la philosophie ni la stratégie d’iZotope. Nous voulons utiliser l’apprentissage profond pour vous aider à créer votre art. Nous sommes actuellement plus axés sur les applications techniques, mais je nous vois bien nous lancer dans des domaines plus créatifs, tant que nous restons fidèles à notre objectif, qui est de favoriser la créativité. Nous ne cherchons pas à remplacer la créativité humaine. »

Les logiciels vont-ils finir par écrire et mixer notre musique à notre place ?

Dans certains cas, c’est déjà le cas. Si vous êtes un grand auteur-compositeur-interprète mais que vous n’avez jamais ouvert une station audionumérique de votre vie, l’apprentissage profond pourra vous aider à obtenir un enregistrement de qualité sans avoir à apprendre ce qu’est un compresseur. Si vous travaillez toute la journée dans une station audionumérique, celle-ci apprendra quels effets vous aimez et n’aimez pas, quelles informations visuelles et auditives vous sont nécessaires pour accomplir votre travail, et vous permettra de vous concentrer sur la musique elle-même.