Синтез речи

Описание технологии

Синтез речи, Text-To-Speech(TTS) - это формирование речевого сигнала по текстовому представлению.

Примеры использования
  • Телефонные роботы
  • Голосовой ассистент
  • Озвучка контента
Ключевые особенности
  • Управляемость ударениями
  • Поддержка Real-time
Примеры синтеза
Управляемость синтезом
  1. Ударения — для проставления ударения можно поставить знак «0» после ударной гласной, например вот так: открываю замо0к за0мка
  2. Паузы — любая пунктуация в тексте заменяется на паузу длительностью ~100—150ms, поэтому для добавления паузы достаточно добавить запятую в нужное место.
    Пример: ночь, улица, фонарь, аптека, бессмысленный и тусклый свет, живи ещё хоть четверть века, всё будет так, исхода нет — каждая запятая выделяется паузой.
    Пример: ночь улица фонарь аптека бессмысленный и тусклый свет живи ещё хоть четверть века всё будет так исхода нет — в тексте нет запятых, и соответственно, пауз.
Используемые технологии
  • Tacotron 2, Wavenet
Качество синтезирования

Для оценки качества синтезированного сигнала используется метрика MOS — Mean Opinion Score.
MOS показывает, насколько, по мнению людей, синтезированный голос похож на человеческий.
MOS нашего решения получил 4.3 балла из 5.

Доступ к API

Оставить заявку
Мы свяжемся с вами в течение 2 рабочих дней, дадим доступ к API и отправим подробную инструкцию по работе с сервисом.

Запись брендового голоса

Если вы хотите использовать наш синтез, но вам не подходит публичный голос, напишите на speech@tinkoff.ru.

Coming soon
  • SSML
  • Управление интонациями