Распознавание речи

Описание технологии

Распознавание речи - Speech-To-Text(STT) - Automatic Speech Recognition(ASR) - преобразование речевого сигнала в текстовое представление.

Примеры использования

  • Телефонные роботы
  • Речевая аналитика
  • Голосовой ассистент
  • Контроль качества

Поддерживаемые форматы

  1. MuLaw
  2. ALaw
  3. Linear16
  4. Linear32F
  5. RawOpus
  6. MP3

Каналы

Поддерживаем одно- и двухканальные аудио.

Поддерживаемые Sample Rate

  • 8000
  • 11000
  • 12000
  • 16000
  • 22000
  • 24000
  • 32000
  • 44000
  • 48000
  • 96000

 

OPUS поддерживает Sample Rate, указанные в документации на оффициальном сайте.

Перечень поддерживаемых языков

  • Русский

Поддержка моделей

  • Используем универсальную модель, ориентированную на телефонные разговоры

Интеграция с Asterisk

Используемые технологии

  • DeepSpeech 2

Точность распознавания

Для оценки точности распознавания используется метрика WER - Word Error Rate.
WER показывается насколько распознанный текст отличается от оригинала.
При распознавании шумных GSM аудио WER ± 18
При хорошем качестве записи WER < 10
Так же WER может меняться в зависимости от тематики распознавания

Разметка данных

Разметка и сбор данных осуществляются на стороне нашего сервиса. С вашего разрешения мы будем осуществлять частичную разметку ваших данных с целью дообучения наших моделей

Доступ к API

Для получения доступа к API необходимо оставить заявку на https://voicekit.tinkoff.ru