Синтез речи

Описание технологии

Синтез речи, Text-To-Speech(TTS) - это формирование речевого сигнала по текстовому представлению.

Примеры использования
  • Телефонные роботы
  • Голосовой ассистент
  • Озвучка контента
Ключевые особенности
  • Управляемость ударениями
  • Поддержка Real-time
Примеры синтеза

Улица.Фонарь.Аптека.mp3

Привет, Олег!.mp3

150+150.mp3

Омонимы.mp3

Транслитерация.mp3

Управляемость синтезом
  1. Ударения — для проставления ударения можно поставить знак «0» после ударной гласной, например вот так:
    открываю замо0к за0мка.mp3
  2. Паузы — любая пунктуация в тексте заменяется на паузу длительностью ~100—150ms, поэтому для добавления паузы достаточно добавить запятую в нужное место.
    Пример:
    С паузами.mp3

    Пример:
    Без пауз.mp3
    — в тексте нет запятых, и соответственно, пауз.
Используемые технологии
  • Tacotron 2, Wavenet
Качество синтезирования

Для оценки качества синтезированного сигнала используется метрика MOS — Mean Opinion Score.
MOS показывает, насколько, по мнению людей, синтезированный голос похож на человеческий.
MOS нашего решения получил 4.3 балла из 5.

Доступ к API

Оставить заявку
Мы свяжемся с вами в течение 2 рабочих дней, дадим доступ к API и отправим подробную инструкцию по работе с сервисом.

Запись брендового голоса

Если вы хотите использовать наш синтез, но вам не подходит публичный голос, напишите на speech@tinkoff.ru.

Coming soon
  • SSML
  • Управление интонациями