Компания ElevenLabs представила обновлённую систему для распознавания речи — Scribe v2 Realtime.
ИИ-модель расшифровывает речь с минимальной задержкой (менее 150 мс) и, по заявлению разработчиков, превосходит решения Google, OpenAI и Deepgram по точности в режиме «живого» аудио. Postium собрал больше деталей.
Читайте также: Нейросети для пересказа видео по ссылке
Что умеет Scribe v2 Realtime и как работает
Нейросеть Scribe v2 Realtime способна:
- распознавать речь даже при шуме, акцентах и быстрой смене говорящих;
- автоматически определять язык и переключаться между несколькими (например, английским, хинди, польским, японским и другими);
- «предугадывать» слова и корректировать текст по ходу разговора — транскрипция становится точнее прямо во время речи;
- работать с задержкой менее 150 миллисекунд;
- соответствовать промышленным стандартам безопасности — SOC 2, HIPAA, PCI DSS и другим.
Модель предназначена для задач, где важны скорость и точность: автоматическая расшифровка звонков в продажах и поддержке клиентов, субтитры для стримов и мероприятий, а также ускоренная обработка интервью и подкастов.

Первая версия Scribe уже показала себя как одна из самых точных систем распознавания речи. Теперь ElevenLabs делает акцент на распознавании в режиме лайв. Компания утверждает, что по внутренним тестам новая версия опережает конкурентов по качеству распознавания, особенно при сложных аудиозаписях с шумом или несколькими голосами одновременно.
Доступность: Scribe v2 Realtime уже доступна через API ElevenLabs и может использоваться в коммерческих продуктах. Платформа поддерживает десятки языков и предлагает корпоративные опции с расширенными гарантиями безопасности и хранением данных в выбранных регионах.
Итог: ElevenLabs делает серьёзную заявку на лидерство в области живой транскрипции — Scribe v2 Realtime превращает поток речи в чистый текст почти мгновенно и без потерь в точности.
Ранее ElevenLabs запустила ИИ-редактор Studio 3.0, который объединяет все ключевые инструменты платформы.