Meta AI* объявила о запуске Omnilingual ASR — новой системы автоматического распознавания речи, которая работает сразу с 1 600 языками.

Впервые в истории ИИ в одном проекте объединили такое количество языков, включая около 500 редких, для которых раньше не существовало качественных систем транскрибации. Postium собрал детали.

Реклама. Erid 2VtzquyAJcf. ООО «Клик.ру». Клик.ру
Реклама. Erid 2VtzqvfByDy. ООО «Клик.ру». Клик.ру

Читайте также: Нейросети для озвучивания текста голосом

Что умеет Omnilingual ASR и как ей пользоваться?

Omnilingual ASR способна превращать речь в текст огромного количества языков — от английского и русского до диалектов, которые редко встречаются в интернете. При этом она показывает высокую точность: в тестах для 78% языков ошибка распознавания составила менее 10 символов на 100 — это уровень современных коммерческих систем для популярных языков.

В основе технологии — обновлённая версия модели wav2vec 2.0, увеличенная до 7 миллиардов параметров. Это своего рода «мозг», который умеет понимать звуковые паттерны и различать языки без заранее размеченных данных.

Как это работает

Meta* разработала два типа декодеров — модулей, которые превращают звуковой сигнал в текст:

  • CTC-декодер — лёгкий и быстрый, подходит для простых задач и слабых устройств;
  • LLM-ASR-декодер — использует принципы больших языковых моделей (LLM), поэтому лучше справляется со сложными языками и длинными записями.

Что умеет Omnilingual ASR и как ей пользоваться

Эта архитектура позволила не только улучшить качество распознавания, но и впервые добавить функцию «обучения на примерах». Теперь, если система не знает язык, её можно «научить» — достаточно нескольких записей речи с расшифровками. То есть любой носитель может помочь добавить свой язык — без громоздких датасетов и сложного обучения.

Статья в тему: Что такое токены и окно контекста в нейросетях

Открытая база

Одновременно Meta* выпустила Omnilingual ASR Corpus — крупнейшую в мире базу записей речи и транскрипций примерно на 350 малоресурсных языках. Эти данные собирались совместно с носителями языка, лингвистами и организациями вроде Mozilla Common Voice и Lanfrica/NaijaVoices.

Корпус открыт под лицензией CC-BY, а модели — под Apache 2.0, что означает, что их можно свободно использовать и адаптировать под свои проекты — от голосовых интерфейсов до инструментов по сохранению исчезающих языков.

Почему это важно?

Большинство современных систем распознавания речи хорошо работают только с языками, на которых в сети много контента — английский, китайский, испанский. В итоге миллионы людей, говорящих на региональных языках, выпадают из цифрового пространства: они не могут использовать голосовой ввод, автосубтитры или голосовых ассистентов на своём языке.

Omnilingual ASR призвана исправить этот дисбаланс. Она делает технологии речи доступными для всех — независимо от того, насколько распространён их язык.

Meta* выложила демо Omnilingual ASR в открытый доступ, можно посмотреть, какие языки уже поддерживаются и как система справляется с разными акцентами.Все модели, данные и инструкции доступны на GitHub и Hugging Face.

Если сравнивать с другими подобными решениями, то Omnilingual ASR от Meta* — самая масштабная система распознавания речи на сегодня: 1 600+ языков против десятков у Whisper, Google и Microsoft, и около десятка у Alibaba Qwen3-ASR. Плюс, её можно научить новому языку по нескольким примерам, чего пока не умеет ни одно другое решение.

Ранее Freepik запустил функцию «Camera Angles», которая позволяет менять ракурс на фото.


*Meta признана в России экстремистской организацией и запрещена.

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

Комментарии: Meta* представила Omnilingual ASR — нейросеть, которая распознаёт речь на 1 600+ языках
⚡ В тренде
Twitch — это не просто стримы и чат. Это возможность превратить своё увлечение играми в настоящую профессию. Представь: ты не просто играешь в любимые игры, а зарабатываешь на этом, строишь собственное комьюнити и становишься узнаваемым стримером. Звучит как мечта? На Twitch она вполне реальна. В этой статье расскажем, как быстро раскрутить канал, выйти на первую […]
Плохой промт звучит так: «Напиши статью на тему…». Хороший промт объясняет, для кого нужен текст, какую задачу он решает, какие факты использовать, какой структуры держаться и чего нельзя писать. Разница не в длине запроса, а в точности. Если не задать роль, аудиторию, формат и фактуру, нейросеть заполнит пустоты сама: возьмёт усреднённые формулировки, напишет общими словами […]
История Pixar — это не просто рассказ о создании мультфильмов. Это история о том, как маленькая команда энтузиастов смогла изменить индустрию развлечений, ввести новые стандарты и доказать: даже самые амбициозные мечты достижимы. Успех Pixar — это синтез технологий, креатива и бизнес-рисков. Эта история может вдохновить не только тех, кто связан с кино или анимацией, но […]
Reve представила Reve 2.0 — новую ИИ-модель для генерации и редактирования изображений. Она работает с нативным 4K-разрешением и делает упор на точное управление композицией: перед созданием картинки модель строит макет сцены. Reve 2.0 доступна на сайте Reve. Пользоваться сервисом можно бесплатно, но с ограничением на количество генераций. Больше подробностей в материале Postium. Читайте также: 25 […]
Ideogram выпустила нейросеть Ideogram 4 — первую ИИ-модель компании с открытыми весами. Это генератор изображений на 9,3 млрд параметров, который команда обучала с нуля, а не строила на базе существующей модели. Веса уже появились на Hugging Face. Доступны две версии: NF4 для CUDA и FP8. Компания также пообещала выпустить дополнительные варианты квантизации. Подробности — в […]
Блоги компаний
Новости
Свежие статьи