OpenAI teste un nouveau modèle de clonage vocal

Publié le 29 mars 2024 par Alexandre Duval

OpenAI a annoncé vendredi un programme pilote pour sa nouvelle offre de synthèse vocale personnalisée (TTS), appelée Voice Engine, qui permettra aux utilisateurs de créer une parole réaliste à partir de texte avec juste un petit extrait d'échantillon audio.
Dans un article de blog, le créateur de ChatGPT indique qu'il travaille actuellement avec des développeurs pour tester le dernier modèle de son interface de programmation d'application (API), qui peut prendre un seul échantillon audio de 15 secondes pour créer un discours naturel correspondant étroitement au discours original. . Ces développeurs ont accepté une politique d'utilisation stricte, qui interdit l'usurpation d'identité d'une autre personne ou organisation sans consentement ni droit légal. Les partenaires doivent également exiger le consentement éclairé explicite de l’orateur d’origine.
Dans une démonstration en direct avec InformationWeek, Jeff Harris, chef de produit OpenAI, a montré comment un enregistrement rapide en direct de sa voix pouvait être utilisé pour créer un échantillon de synthèse vocale impossible à distinguer de sa vraie voix. L’ensemble du processus n’a pris que quelques instants.
La vitesse et le réalisme du TTS vocal personnalisé d'OpenAI constitueront probablement une perspective attrayante pour de nombreuses utilisations commerciales et grand public, mais ils présentent également de sérieux risques et défis. Le potentiel d’utilisation abusive est profond.
C'est pourquoi OpenAI teste d'abord le logiciel avec un groupe sélectionné de développeurs.
Connexes : Quelqu'un peut-il être un concurrent réaliste pour OpenAI ?

La sécurité d'abord

Le clonage de la voix de l’IA constitue une préoccupation majeure pour l’éthique de l’IA, en particulier en année électorale. Le président américain Joe Biden, dans son discours sur l’état de l’Union du 6 mars, a appelé à l’interdiction des usurpations d’identité vocales par l’IA. La voix de Biden a été utilisée en janvier dans une arnaque d'usurpation d'identité par l'IA qui a exhorté les électeurs des primaires du New Hampshire à « sauvegarder leurs votes » pour l'élection présidentielle de novembre.
En février, la Federal Communications Commission (FCC) a rendu illégales les voix générées par l’IA dans les appels automatisés en vertu de la loi sur la protection des consommateurs par téléphone.
OpenAI, pour sa part, affirme avancer prudemment dans son modèle de clonage vocal. Le billet de blog d'OpenAI appelle à un vaste effort visant à éliminer progressivement l'authentification vocale, désormais largement utilisée comme mesure de sécurité.
« Nous allons commencer avec un ensemble limité de développeurs et de personnes avec qui nous entretenons des relations de confiance et leur demander d'accepter un ensemble assez complet de conditions qui incluent des éléments tels que l'autorisation de chaque locuteur dont la voix est utilisée et la garantie que tout la parole générée est clairement étiquetée comme générée par l’IA », a déclaré Harris à InformationWeek. Harris a déclaré qu'OpenAI avait également développé un système de « filigrane » qui permet d'identifier les enregistrements vocaux générés avec son modèle.
Connexes : Sam Altman, PDG d'OpenAI, plaide en faveur d'une réglementation de l'IA
Le fondateur du Responsible AI Institute, Manoj Saxena, pense que le programme pilote est la bonne approche, mais affirme que davantage de garde-fous sont nécessaires à mesure que la technologie de l'IA continue de se développer rapidement. Grâce à la génération de voix hyperréaliste, un criminel pourrait tromper les membres de sa famille en les faisant commettre des escroqueries ou pire encore. Et à l’approche d’un cycle électoral, les inquiétudes concernant les deepfakes utilisés pour diffuser de la désinformation augmentent.
« Il s'agit d'une arme massive à double tranchant », a déclaré Saxena à InformationWeek lors d'un entretien téléphonique. « Cela pourrait être un autre clou dans le cercueil pour la vérité et la confidentialité des données. Cela ajoute encore une dynamique inconnue dans laquelle vous pourriez avoir quelque chose qui peut créer beaucoup de détresse émotionnelle et d’effets psychologiques. Mais je peux aussi voir beaucoup de points positifs. Tout dépend de la manière dont cela est réglementé.
Saxena espère qu'OpenAI inclura également les régulateurs et les défenseurs de la sécurité dans le processus pilote.

Le clonage vocal pourrait avoir un impact sur les entreprises et les travailleurs

La version entreprise de ChatGPT d'OpenAI a été publiée en août 2023. Un niveau d'entrée a rapidement suivi, ciblant les petites et moyennes entreprises. Une fonctionnalité de clonage vocal offrant vitesse et faible barrière à l’entrée pourrait créer une demande massive de la part des entreprises, notamment dans le secteur du service client. Selon Statista, il y a plus de 2,8 millions d'employés de centres de contact rien qu'aux États-Unis.
Connexe : La dernière offre ChatGPT Enterprise d'OpenAI cible la collaboration
Max Ball, analyste principal chez Forrester, affirme qu'un logiciel de clonage vocal existe déjà, mais que l'efficacité du modèle d'OpenAI pourrait changer la donne. « C'est une étape assez importante à plusieurs égards », a déclaré Ball à InformationWeek dans une interview. « Aujourd'hui, d'après ce que les vendeurs me montrent, vous pouvez créer une voix personnalisée, mais il faut 15 à 20 minutes de voix pour pouvoir la former. Même si 15 minutes ne semblent pas beaucoup de temps, il est difficile d'amener quelqu'un à s'asseoir pendant 15 minutes au cours d'une journée de travail.
Pour le marché des centres d’appels, la rapidité et la qualité de la voix personnalisée entraîneront très probablement une modification massive des besoins en main-d’œuvre. « Le changement que nous allons voir là-bas, c'est que cela va automatiser ces tâches. Et le travail d'un agent, les agents qui restent, sera un travail plus difficile – mais un travail beaucoup plus précieux.

OpenAI teste un nouveau modèle de clonage vocal

La sécurité d'abord

Le clonage vocal pourrait avoir un impact sur les entreprises et les travailleurs

Alexandre Duval

Perspectives législatives sur l'intelligence artificielle : mise à jour du printemps 2024

Comment effectuer une analyse des concurrents sur les réseaux sociaux en 6 étapes

Un facteur de retard par rapport à OpenAI et son approche du rattrapage – China Money Network

OpenAI teste un nouveau modèle de clonage vocal

La sécurité d'abord

Le clonage vocal pourrait avoir un impact sur les entreprises et les travailleurs

News Qwanturank

Alexandre Duval

Perspectives législatives sur l'intelligence artificielle : mise à jour du printemps 2024

Comment effectuer une analyse des concurrents sur les réseaux sociaux en 6 étapes

Un facteur de retard par rapport à OpenAI et son approche du rattrapage – China Money Network