OpenAI создала нейросетевую модель Voice Engine для воссоздания человеческого голоса по образцу. Об этом сообщается на сайте компании.
Разработка модели началась в конце 2022 года. Voice Engine сейчас используется для озвучки пользовательских текстов, в том числе через ChatGPT Voice and Read Aloud, а также для синхронного перевода речи в аудио- и видеозаписях.
Для озвучки «клонированным» голосом нейросети достаточно представить аудиопример голоса человека, который нужно воссоздать, длиной 15 секунд.
Voice Engine может озвучить текст на английском, французском, испанском, китайском и других языках. Система сохраняет особенности голоса «оригинала», что позволяет генерировать речь на других языках «с акцентом».
Компания пока не предоставила широкой публике доступ к сервису, объясняя это соображениями безопасности. Разработчики опасаются, что нейросеть может стать орудием для мошенников и других злоумышленников.
В то же время OpenAI ведет переговоры с партнерами на тему прозрачности в использовании ИИ-озвучки и защиты от неправильного использования. По словам создателей, они внедрили в систему водяные знаки аудиоданных и другие меры безопасности.
Ранее Spot писал, что OpenAI начала закрытое тестирование модели ИИ GPT-5.