Распознавание речи

Описание технологии

Распознавание речи, Speech To Text(STT), Automatic Speech Recognition(ASR) - это преобразование речевого сигнала в текстовое представление.

Примеры использования
  • Телефонные роботы
  • Речевая аналитика
  • Голосовой ассистент
  • Контроль качества
Поддерживаемые форматы
  • MuLaw
  • ALaw
  • Linear16
  • RawOpus
  • MP3
Каналы

Поддерживаем одно- и двухканальные аудио.

Поддерживаемые Sample Rate
  • 8000
  • 11000
  • 12000
  • 16000
  • 22000
  • 24000
  • 32000
  • 44000
  • 48000
  • 96000

 

Opus поддерживает только те Sample Rate, что указаны на официальном сайте Opus.

Интеграция с Asterisk

На данный момент мы не поддерживаем uniMRCP и используем собственный модуль для интеграции с Asterisk.

Точность распознавания

Для оценки точности распознавания используется метрика WER — Word Error Rate.
WER показывает, насколько распознанный текст отличается от оригинала.
При распознавании шумных GSM аудио WER ± 18 При отсутствии явных шумов WER < 10 WER может меняться в зависимости от тематики распознавания

Модели и дообучение

Наши модели обучались на русскоязычных телефонных разговорах в кол-центрах и умеют распознавать большую часть вокабуляра в этой предметной области.
С вашего разрешения мы можем осуществлять частичную разметку ваших данных с целью дообучения наших моделей по недостающим тематикам.
Разметка и сбор данных осуществляются на стороне нашего сервиса.

Доступ к API

Оставить заявку
Мы свяжемся с вами в течение 2 рабочих дней, дадим доступ к API и отправим подробную инструкцию по работе с сервисом.