Meta AI* объявила о запуске Omnilingual ASR — новой системы автоматического распознавания речи, которая работает сразу с 1 600 языками.

Впервые в истории ИИ в одном проекте объединили такое количество языков, включая около 500 редких, для которых раньше не существовало качественных систем транскрибации. Postium собрал детали.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327. Промопульт

Читайте также: Нейросети для озвучивания текста голосом

Что умеет Omnilingual ASR и как ей пользоваться?

Omnilingual ASR способна превращать речь в текст огромного количества языков — от английского и русского до диалектов, которые редко встречаются в интернете. При этом она показывает высокую точность: в тестах для 78% языков ошибка распознавания составила менее 10 символов на 100 — это уровень современных коммерческих систем для популярных языков.

В основе технологии — обновлённая версия модели wav2vec 2.0, увеличенная до 7 миллиардов параметров. Это своего рода «мозг», который умеет понимать звуковые паттерны и различать языки без заранее размеченных данных.

Как это работает

Meta* разработала два типа декодеров — модулей, которые превращают звуковой сигнал в текст:

  • CTC-декодер — лёгкий и быстрый, подходит для простых задач и слабых устройств;
  • LLM-ASR-декодер — использует принципы больших языковых моделей (LLM), поэтому лучше справляется со сложными языками и длинными записями.

Что умеет Omnilingual ASR и как ей пользоваться

Эта архитектура позволила не только улучшить качество распознавания, но и впервые добавить функцию «обучения на примерах». Теперь, если система не знает язык, её можно «научить» — достаточно нескольких записей речи с расшифровками. То есть любой носитель может помочь добавить свой язык — без громоздких датасетов и сложного обучения.

Статья в тему: Что такое токены и окно контекста в нейросетях

Открытая база

Одновременно Meta* выпустила Omnilingual ASR Corpus — крупнейшую в мире базу записей речи и транскрипций примерно на 350 малоресурсных языках. Эти данные собирались совместно с носителями языка, лингвистами и организациями вроде Mozilla Common Voice и Lanfrica/NaijaVoices.

Корпус открыт под лицензией CC-BY, а модели — под Apache 2.0, что означает, что их можно свободно использовать и адаптировать под свои проекты — от голосовых интерфейсов до инструментов по сохранению исчезающих языков.

Почему это важно?

Большинство современных систем распознавания речи хорошо работают только с языками, на которых в сети много контента — английский, китайский, испанский. В итоге миллионы людей, говорящих на региональных языках, выпадают из цифрового пространства: они не могут использовать голосовой ввод, автосубтитры или голосовых ассистентов на своём языке.

Omnilingual ASR призвана исправить этот дисбаланс. Она делает технологии речи доступными для всех — независимо от того, насколько распространён их язык.

Meta* выложила демо Omnilingual ASR в открытый доступ, можно посмотреть, какие языки уже поддерживаются и как система справляется с разными акцентами.Все модели, данные и инструкции доступны на GitHub и Hugging Face.

Если сравнивать с другими подобными решениями, то Omnilingual ASR от Meta* — самая масштабная система распознавания речи на сегодня: 1 600+ языков против десятков у Whisper, Google и Microsoft, и около десятка у Alibaba Qwen3-ASR. Плюс, её можно научить новому языку по нескольким примерам, чего пока не умеет ни одно другое решение.

Ранее Freepik запустил функцию «Camera Angles», которая позволяет менять ракурс на фото.


*Meta признана в России экстремистской организацией и запрещена.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Meta* представила Omnilingual ASR — нейросеть, которая распознаёт речь на 1 600+ языках
⚡ В тренде
Некоторые аналитики прогнозируют, что нейросети скоро заберут работу у специалистов разных профессий: копирайтеров, журналистов, иллюстраторов, дизайнеров. Произойдет ли это на самом деле – узнаем со временем. А сейчас есть реальные возможности заработать деньги на нейросетях без вложений. Расскажем, как получать доход с помощью нейронок. Собрали простые способы, которые можно освоить с нуля или адаптировать для […]
За последние годы в российском сегменте интернета изменился доступ к ряду зарубежных онлайн-сервисов. Некоторые платформы работают с ограничениями, часть сайтов и приложений заблокирована в России, а отдельные компании добровольно покинули рынок. Ниже — актуальный список изменений и блокировок, материал будет обновляться. Читайте также: Аналоги Телеграм и WhatsApp для звонков Что заблокировано в России? Полная блокировка […]
Разработчики Kling AI (Kuaishou) выпустили модель Avatar 2.0 — обновление инструмента для создания говорящих цифровых аватаров. Релиз состоялся в рамках продуктовой недели Omni Launch Week. Модель уже доступна в веб-версии Kling AI. Бесплатно доступно ограниченное количество кредитов, безлимит и более высокое качество — в платных тарифах. Postium собрал больше деталей. Читайте также: Нейросети для создания […]
Spotify выпустил Wrapped 2025 — ежегодный персональный отчёт по прослушиваниям, который стал крупнейшим по охвату за всю историю сервиса. За первые 24 часа рекап открыли более 200 млн раз по всему миру. Отчёт доступен всем пользователям с 3 декабря в мобильном приложении на iOS и Android. Postium собрал ключевые детали о новом Wrapped. Читайте также: […]
Многие пользователи ChatGPT оформляют подписку через виртуальные карты и сторонние сервисы и в итоге переплачивают из-за комиссий. Но сейчас есть способ получить 30 дней ChatGPT Plus бесплатно — без промокодов и серых схем. Функция встроена в сам сервис и доступна пользователям с активной подпиской. Я всё проверил, и на момент публикации способ реально рабочий. Инструкция […]
Блоги компаний
Новости
Свежие статьи