OpenAI Can Re-Create Human Voices—but Won’t Release the Tech Yet

La synthèse vocale a parcouru un long chemin depuis 1978 Parler et épeler Toy, qui a autrefois séduit les gens avec sa capacité de pointe à lire des mots à haute voix en utilisant une voix électronique. Maintenant, en utilisant des modèles d'IA d'apprentissage en profondeur, les logiciels peuvent créer non seulement des voix à consonance réaliste, mais peuvent également imiter de manière convaincante les voix existantes à l'aide de petits échantillons d'audio.

Dans ce sens, OpenAI a annoncé cette semaine le moteur vocal, un modèle AI de texte vocal pour créer des voix synthétiques basées sur un segment de 15 secondes d'audio enregistré. Il a fourni des échantillons audio du moteur vocal en action sur son site Web.

Une fois qu'une voix est clonée, un utilisateur peut saisir du texte dans le moteur vocal et obtenir un résultat vocal généré par l'AI. Mais Openai n'est pas prêt à publier largement sa technologie. La société prévoyait initialement de lancer un programme pilote pour que les développeurs s'inscrivent à l'API de moteur vocal au début du mois. Mais après plus de considération sur les implications éthiques, la société a décidé de réduire ses ambitions pour l'instant.

«Conformément à notre approche de la sécurité de l'IA et de nos engagements volontaires, nous choisissons de prévisualiser mais pas largement libéré cette technologie pour le moment», écrit la société. «Nous espérons que cet aperçu du moteur vocal souligne à la fois son potentiel et motive également la nécessité de renforcer la résilience sociétale contre les défis présentés par des modèles génératifs toujours plus convaincants.»

La technologie de clonage vocale en général n'est pas particulièrement nouveau – il y a eu plusieurs Modèles de synthèse vocale AI depuis 2022, et la technologie est active dans la communauté open source avec des packages comme Openvoice et Xtsv2. Mais l'idée qu'Openai monte pour laisser quiconque utiliser sa marque particulière de technologie vocale est notable. Et à certains égards, la réticence de l'entreprise à la libérer entièrement pourrait être la plus grande histoire.

OpenAI dit que les avantages de sa technologie vocale comprennent la fourniture de l'aide en lecture par des voix à consonance naturelle, l'activation de la portée mondiale des créateurs en traduisant du contenu tout en préservant les accents natifs, en soutenant les individus non verbaux avec des options de discours personnalisées et en aidant les patients à récupérer leur propre voix après après Conditions altérant la parole.

Mais cela signifie également que toute personne ayant 15 secondes de la voix enregistrée de quelqu'un pourrait le cloner efficacement, et cela a des implications évidentes pour une utilisation écoles potentielle. Même si Openai ne publie jamais largement son moteur vocal, la capacité de cloner les voix a déjà causé des problèmes dans la société à travers escroqueries téléphoniques où quelqu'un imite la voix d'un être cher et Campagne électorale Robocalles Avec des voix clonées de politiciens comme Joe Biden.

Aussi, chercheurs et journalistes avoir montré Cette technologie de clonage vocale peut être utilisée pour pénétrer dans des comptes bancaires qui utilisent l'authentification vocale (comme Chase Identifiant vocal), ce qui a incité le sénateur américain Sherrod Brown de l'Ohio, président du Comité du Sénat américain sur les banques, le logement et les affaires urbaines, à envoyer une lettre aux PDG de Plusieurs grandes banques En mai 2023, pour se renseigner sur les mesures de sécurité que les banques prennent pour contrer les risques alimentés par l'IA.

Openai reconnaît que la technologie pourrait causer des ennuis si elle est largement libérée, il essaie donc initialement de contourner ces problèmes avec un ensemble de règles. Il teste la technologie avec un ensemble d'entreprises partenaires sélectionnées depuis l'année dernière. Par exemple, vidéo de synthèse vidéo Heygen a utilisé le modèle pour traduire la voix d'un haut-parleur en d'autres langues tout en gardant le même son vocal.