Nari Labs представила Dia2 — диалоговую ИИ-модель синтеза речи, которая генерирует голос по мере ввода текста и не требует полного предложения для старта. Она предназначена для живых голосовых интерфейсов и поддерживает естественный диалог в реальном времени.

Модель доступна в двух вариантах — Dia2-1B и Dia2-2B — на Hugging Face. Репозитории включают веса, токенайзер, код для инференса и распространяются под лицензией Apache 2.0. Подробности в материале Postium.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327.

Читайте также: Нейросети для озвучки текста голосом

Что умеет нейросеть Dia2 и как работает

Dia2 — это streaming TTS: она преобразует текст в речь без предварительного сбора всего входа. Генерация запускается на первых словах и продолжается по мере поступления текста, что уменьшает задержки в диалогах.

Модель поддерживает префикс-кондиционирование: к генерации можно добавить аудиофайлы с голосами участников разговора. Dia2 использует эти примеры как контекст — чтобы выбрать тембр и сохранить ход диалога.

Генерация идёт токенами, модель создаёт волну, выдаёт тайминги слов (относительно ~12,5 Гц фреймрейта кодека Mimi) и останавливается при достижении лимита в 1500 шагов или при токене конца.

Сейчас Dia2 работает только на английском и ограничена 2 минутами непрерывной генерации.

Как пользоваться Dia2

Самый простой способ — через командную строку. Ставите зависимости, создаёте текстовый файл с репликами и пометками говорящих вроде «[S1]» и «[S2]», запускаете команду — и модель генерирует аудио.

При первом запуске инструмент сам скачает всё нужное: веса модели, токенайзер и аудиокодек Mimi. Если у вас есть видеокарта с CUDA, генерация пойдёт на GPU автоматически.

Есть расширенный режим: можно добавить к запуску примеры голосов в виде аудиофайлов. Тогда Dia2 будет ориентироваться на них и говорить «в стиле» заданных участников диалога.

Если не хочется работать через терминал, можно открыть готовый интерфейс на Gradio — там всё запускается через веб.

А разработчики могут интегрировать Dia2 прямо в свой код: модель подключается через Python-API, где можно задать параметры генерации и сразу получать wav-файлы и метаданные.

Почему это важно? Большинство решений с озвучкой в реальном времени доступны только как закрытые API, где разработчик зависит от сервера, тарифов и ограничений провайдера. Здесь же публикуются сами модельные весы и код под лицензией Apache 2.0 — их можно скачивать, запускать локально и использовать так, как удобно.

В планах команды — релиз Dia2 TTS Server с полноценным стриминговым сервером и запуск Sori — движка для speech-to-speech на Rust, работающего поверх Dia2.

При этом, за последние месяцы в голосовых технологиях появилось сразу несколько крупных обновлений. ElevenLabs запустила Scribe v2 Realtime — систему распознавания речи с работой в реальном времени. Также вышла Omnilingual ASR — модель, которая распознаёт речь на более чем 1600 языках.

Итог: Теперь у разработчиков есть открытая стриминговая TTS-модель, которую можно запускать локально и использовать для приложений с голосом в реальном времени.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Nari Labs выпустила Dia2 — открытую ИИ-модель с озвучкой в реальном времени
⚡ В тренде
За последние годы Instagram* потерял часть российской аудитории из-за блокировки в РФ и запрета на размещение рекламы. Тем не менее блогеры и лидеры мнений продолжают вести аккаунты, рассказывают о своей деятельности, переводят аудиторию в Telegram и MAX — без прямых рекламных интеграций. Несмотря на статичный характер таких рейтингов, в 2026 году расстановка сил заметно изменилась. […]
МТС Premium — это подписка экосистемы МТС, которая объединяет кино, музыку, кэшбэк и партнёрские сервисы в одном тарифе. В 2026 году условия изменились: выросла цена и обновился состав подписки. Это напрямую влияет на выгоду — в одних сценариях она окупается, в других нет. В статье разберём, сколько стоит МТС Premium, что в неё входит, как […]
Платформа Wink от Ростелеком предлагает множество вариантов подписки. Каждый пользователь может выбрать подходящий пакет, чтобы получить только нужные услуги и не переплачивать за ненужные. В этой статье мы расскажем, что входит в подписку Wink, какие есть тарифы, сколько они стоят. Также здесь вы найдете инструкцию, как подключить подписку бесплатно и как ее отключить. Читайте также: […]
Если эксперты, блогеры с раскрученным каналом и предприниматели ведут Телеграм, то всегда задумываются, как на нём заработать. Блог должен окупать усилия, деньги и время, которые вы вложили. Для новичка в соцсетях это сложно, страшно и возникает много вопросов, поэтому я решила разъяснить все на пальцах. В статье расскажу про 9 способов монетизации ТГ-канала и разберу […]
Нормальные мужские фото — это всегда проблема. Хочется обновить аватарку, сделать деловой портрет или просто «крутое фото», а в реальности упираешься в съёмку: нужен свет, локация, понимание поз, и даже после этого результат часто не дотягивает. Решение — ИИ-фотосессия. Берёте одно удачное селфи и через промты собираете нужный образ: от строгого делового портрета до брутального […]
Блоги компаний
Новости
Свежие статьи