Синтез речи

Описание технологии

Синтез речи - Text-To-Speech - формирование речевого сигнала по текстовому представлению

Примеры использования

  • Телефонные роботы
  • Голосовой ассистент
  • Озвучка контента

Ключевые особенности

  • Управляемость ударениями
  • Поддержка Real-time

Примеры синтеза

Управляемость синтезом

  1. Ударения - для проставления ударения можно поставить знак "0" после ударной гласной, например вот так: открываю замо0к за0мка
  2. Паузы - любая пунктуация в тексте заменяется на паузу длительностью ~100 - 150ms, поэтому для добавления паузы достаточно добавить запятую в нужное место.
    Пример:ночь, улица, фонарь, аптека, бессмысленный и тусклый свет, живи ещё хоть четверть века, всё будет так, исхода нет- каждая запятая выделяется паузой.
    Пример: ночь улица фонарь аптека бессмысленный и тусклый свет живи ещё хоть четверть века всё будет так исхода нет - в тексте нет запятых и соответственно пауз.

Используемые технологии

  • Tacotron 2, Wavenet

Качество синтезирования

Для оценки качества засинтезированного сигнала используется метрика MOS - Mean Opinion Score MOS показывает насколько по мнению людей засинтезированный голос похож на человеческий MOS нашего решения 4.3 из 5

Доступ к API

Для получения доступа к API необходимо оставить заявку на https://voicekit.tinkoff.ru

Запись брендового голоса

Если вы хотите использовать наш синтез, но вам не подходит публичный голос, напишите на speech@tinkoff.ru

Coming soon

  • SSML
  • Управление интонациями