Nari Labs представила Dia2 — диалоговую ИИ-модель синтеза речи, которая генерирует голос по мере ввода текста и не требует полного предложения для старта. Она предназначена для живых голосовых интерфейсов и поддерживает естественный диалог в реальном времени.
Модель доступна в двух вариантах — Dia2-1B и Dia2-2B — на Hugging Face. Репозитории включают веса, токенайзер, код для инференса и распространяются под лицензией Apache 2.0. Подробности в материале Postium.
Читайте также: Нейросети для озвучки текста голосом
Что умеет нейросеть Dia2 и как работает
Dia2 — это streaming TTS: она преобразует текст в речь без предварительного сбора всего входа. Генерация запускается на первых словах и продолжается по мере поступления текста, что уменьшает задержки в диалогах.
Модель поддерживает префикс-кондиционирование: к генерации можно добавить аудиофайлы с голосами участников разговора. Dia2 использует эти примеры как контекст — чтобы выбрать тембр и сохранить ход диалога.
Генерация идёт токенами, модель создаёт волну, выдаёт тайминги слов (относительно ~12,5 Гц фреймрейта кодека Mimi) и останавливается при достижении лимита в 1500 шагов или при токене конца.
Сейчас Dia2 работает только на английском и ограничена 2 минутами непрерывной генерации.
Как пользоваться Dia2
Самый простой способ — через командную строку. Ставите зависимости, создаёте текстовый файл с репликами и пометками говорящих вроде «[S1]» и «[S2]», запускаете команду — и модель генерирует аудио.
При первом запуске инструмент сам скачает всё нужное: веса модели, токенайзер и аудиокодек Mimi. Если у вас есть видеокарта с CUDA, генерация пойдёт на GPU автоматически.
Есть расширенный режим: можно добавить к запуску примеры голосов в виде аудиофайлов. Тогда Dia2 будет ориентироваться на них и говорить «в стиле» заданных участников диалога.
Если не хочется работать через терминал, можно открыть готовый интерфейс на Gradio — там всё запускается через веб.
А разработчики могут интегрировать Dia2 прямо в свой код: модель подключается через Python-API, где можно задать параметры генерации и сразу получать wav-файлы и метаданные.
Почему это важно? Большинство решений с озвучкой в реальном времени доступны только как закрытые API, где разработчик зависит от сервера, тарифов и ограничений провайдера. Здесь же публикуются сами модельные весы и код под лицензией Apache 2.0 — их можно скачивать, запускать локально и использовать так, как удобно.
В планах команды — релиз Dia2 TTS Server с полноценным стриминговым сервером и запуск Sori — движка для speech-to-speech на Rust, работающего поверх Dia2.
При этом, за последние месяцы в голосовых технологиях появилось сразу несколько крупных обновлений. ElevenLabs запустила Scribe v2 Realtime — систему распознавания речи с работой в реальном времени. Также вышла Omnilingual ASR — модель, которая распознаёт речь на более чем 1600 языках.
Итог: Теперь у разработчиков есть открытая стриминговая TTS-модель, которую можно запускать локально и использовать для приложений с голосом в реальном времени.