OpenAI a annoncé vendredi un programme pilote pour sa nouvelle offre de synthèse vocale personnalisée (TTS), appelée Voice Engine, qui permettra aux utilisateurs de créer une parole réaliste à partir de texte avec juste un petit extrait d'échantillon audio.
Dans un article de blog, le créateur de ChatGPT indique qu'il travaille actuellement avec des développeurs pour tester le dernier modèle de son interface de programmation d'application (API), qui peut prendre un seul échantillon audio de 15 secondes pour créer un discours naturel correspondant étroitement au discours original. .
- OpenAI lance un nouveau programme pilote pour sa synthèse vocale personnalisée
- Ce modèle peut créer un discours naturel à partir d'un court échantillon audio de l'utilisateur
- L'entreprise affirme travailler avec des développeurs pour tester et mettre en place des mesures de sécurité strictes
- Le clonage vocal pourrait avoir un impact important sur les entreprises, en particulier dans le secteur du service client
Ces développeurs ont accepté une politique d'utilisation stricte, qui interdit l'usurpation d'identité d'une autre personne ou organisation sans consentement ni droit légal. Les partenaires doivent également exiger le consentement éclairé explicite de l’orateur d’origine.
Dans une démonstration en direct avec InformationWeek, Jeff Harris, chef de produit OpenAI, a montré comment un enregistrement rapide en direct de sa voix pouvait être utilisé pour créer un échantillon de synthèse vocale impossible à distinguer de sa vraie voix.
L’ensemble du processus n’a pris que quelques instants.
La vitesse et le réalisme du TTS vocal personnalisé d'OpenAI constitueront probablement une perspective attrayante pour de nombreuses utilisations commerciales et grand public, mais ils présentent également de sérieux risques et défis. Le potentiel d’utilisation abusive est profond.
C'est pourquoi OpenAI teste d'abord le logiciel avec un groupe sélectionné de développeurs.
Connexes : Quelqu'un peut-il être un concurrent réaliste pour OpenAI ?
La sécurité d'abord
Le clonage de la voix de l’IA constitue une préoccupation majeure pour l’éthique de l’IA, en particulier en année électorale. Le président américain Joe Biden, dans son discours sur l’état de l’Union du 6 mars, a appelé à l’interdiction des usurpations d’identité vocales par l’IA.
La voix de Biden a été utilisée en janvier dans une arnaque d'usurpation d'identité par l'IA qui a exhorté les électeurs des primaires du New Hampshire à « sauvegarder leurs votes » pour l'élection présidentielle de novembre.
En février, la Federal Communications Commission (FCC) a rendu illégales les voix générées par l’IA dans les appels automatisés en vertu de la loi sur la protection des consommateurs par téléphone.
OpenAI, pour sa part, affirme avancer prudemment dans son modèle de clonage vocal.
Le billet de blog d'OpenAI appelle à un vaste effort visant à éliminer progressivement l'authentification vocale, désormais largement utilisée comme mesure de sécurité.
« Nous allons commencer avec un ensemble limité de développeurs et de personnes avec qui nous entretenons des relations de confiance et leur demander d'accepter un ensemble assez complet de conditions qui incluent des éléments tels que l'autorisation de chaque locuteur dont la voix est utilisée et la garantie que tout la parole générée est clairement étiquetée comme générée par l’IA », a déclaré Harris à InformationWeek. Harris a déclaré qu'OpenAI avait également développé un système de « filigrane » qui permet d'identifier les enregistrements vocaux générés avec son modèle.
Connexes : Sam Altman, PDG d'OpenAI, plaide en faveur d'une réglementation de l'IA
Le fondateur du Responsible AI Institute, Manoj Saxena, pense que le programme pilote est la bonne approche, mais affirme que davantage de garde-fous sont nécessaires à mesure que la technologie de l'IA continue de se développer rapidement. Grâce à la génération de voix hyperréaliste, un criminel pourrait tromper les membres de sa famille en les faisant commettre des escroqueries ou pire encore. Et à l’approche d’un cycle électoral, les inquiétudes concernant les deepfakes utilisés pour diffuser de la désinformation augmentent.
« Il s'agit d'une arme massive à double tranchant », a déclaré Saxena à InformationWeek lors d'un entretien téléphonique. « Cela pourrait être un autre clou dans le cercueil pour la vérité et la confidentialité des données. Cela ajoute encore une dynamique inconnue dans laquelle vous pourriez avoir quelque chose qui peut créer beaucoup de détresse émotionnelle et d’effets psychologiques.
Mais je peux aussi voir beaucoup de points positifs. Tout dépend de la manière dont cela est réglementé.
Saxena espère qu'OpenAI inclura également les régulateurs et les défenseurs de la sécurité dans le processus pilote.
Le clonage vocal pourrait avoir un impact sur les entreprises et les travailleurs
La version entreprise de ChatGPT d'OpenAI a été publiée en août 2023. Un niveau d'entrée a rapidement suivi, ciblant les petites et moyennes entreprises. Une fonctionnalité de clonage vocal offrant vitesse et faible barrière à l’entrée pourrait créer une demande massive de la part des entreprises, notamment dans le secteur du service client.
Selon Statista, il y a plus de 2,8 millions d'employés de centres de contact rien qu'aux États-Unis.
Connexe : La dernière offre ChatGPT Enterprise d'OpenAI cible la collaboration
Max Ball, analyste principal chez Forrester, affirme qu'un logiciel de clonage vocal existe déjà, mais que l'efficacité du modèle d'OpenAI pourrait changer la donne. « C'est une étape assez importante à plusieurs égards », a déclaré Ball à InformationWeek dans une interview.
« Aujourd'hui, d'après ce que les vendeurs me montrent, vous pouvez créer une voix personnalisée, mais il faut 15 à 20 minutes de voix pour pouvoir la former. Même si 15 minutes ne semblent pas beaucoup de temps, il est difficile d'amener quelqu'un à s'asseoir pendant 15 minutes au cours d'une journée de travail.
Pour le marché des centres d’appels, la rapidité et la qualité de la voix personnalisée entraîneront très probablement une modification massive des besoins en main-d’œuvre.
« Le changement que nous allons voir là-bas, c'est que cela va automatiser ces tâches. Et le travail d'un agent, les agents qui restent, sera un travail plus difficile – mais un travail beaucoup plus précieux.
FAQ
Qu'est-ce que l'open voice voice cloning ?
L'open voice cloning est une technologie qui permet de reproduire la voix humaine de manière réaliste et personnalisée. Elle utilise des algorithmes d'apprentissage automatique pour analyser et copier les caractéristiques vocales d'un individu, lui permettant de générer un discours à partir d'un texte écrit en utilisant cette même voix.
Cette innovation peut être utilisée dans différents domaines tels que la communication assistée pour les personnes atteintes de troubles du langage, ou encore dans l'industrie du divertissement pour imiter la voix de célébrités.
Que désigne le terme "voice cloning ai singing" ?
Le terme "voice cloning ai singing" désigne la technique consistant à utiliser une intelligence artificielle pour reproduire une voix humaine et créer ainsi du chant. Cette technologie permet de cloner de manière réaliste les voix des chanteurs et chanteuses, ou même de créer de nouvelles voix uniques avec des caractéristiques spécifiques. Grâce à cela, il est possible d'élargir les possibilités en matière de musique et de donner vie à des compositions originales avec des voix virtuelles.
Quelle est la spécificité de la technique "voice ai voice cloning" ?
La technique "voice ai voice cloning" est spécifique car elle permet de créer une voix artificielle qui imite parfaitement une voix humaine en utilisant l'intelligence artificielle et le machine learning. Contrairement aux autres méthodes de synthèse vocale, elle peut reproduire les inflexions et les nuances d'une voix réelle avec précision, donnant ainsi l'illusion qu'il s'agit bien d'un être humain qui parle.
Cela la rend utile pour des applications telles que les assistants virtuels ou la personnification d'avatars dans des jeux vidéo. Elle peut également être utilisée pour restituer la voix de personnes décédées à partir d'enregistrements audio, ce qui soulève des questions éthiques et morales quant à son utilisation.
Peut-on utiliser le texte à voix pour réaliser du voice cloning ?
Il est possible d'utiliser le texte à voix pour réaliser du voice cloning avec l'aide de technologies telles que l'intelligence artificielle et les réseaux neuronaux. Cela permet de reproduire la voix et l'intonation d'une personne à partir d'un simple échantillon de son enregistrement.
Toutefois, cette pratique soulève également des questions éthiques quant à la manipulation de la parole humaine.
Comment peut-on effectuer du voice cloning à partir d'une vidéo ?
Il existe plusieurs méthodes pour effectuer du voice cloning à partir d'une vidéo. Tout d'abord, il est possible d'utiliser des logiciels spécialisés dans la manipulation de voix, qui permettent de modifier le timbre et l'intonation d'un enregistrement audio. Ensuite, il est également possible de réaliser du voice cloning à partir d'un modèle pré-existant en utilisant une technique appelée "deep learning", qui consiste à entraîner un algorithme sur des données vocales pour qu'il puisse reproduire différentes voix par la suite.
Enfin, certaines applications en ligne proposent également des fonctionnalités de voice cloning à partir de vidéos grâce à des technologies avancées telles que la synthèse vocale ou le "text-to-speech".