Nari Labs представила Dia2 — диалоговую ИИ-модель синтеза речи, которая генерирует голос по мере ввода текста и не требует полного предложения для старта. Она предназначена для живых голосовых интерфейсов и поддерживает естественный диалог в реальном времени.

Модель доступна в двух вариантах — Dia2-1B и Dia2-2B — на Hugging Face. Репозитории включают веса, токенайзер, код для инференса и распространяются под лицензией Apache 2.0. Подробности в материале Postium.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327. Промопульт

Читайте также: Нейросети для озвучки текста голосом

Что умеет нейросеть Dia2 и как работает

Dia2 — это streaming TTS: она преобразует текст в речь без предварительного сбора всего входа. Генерация запускается на первых словах и продолжается по мере поступления текста, что уменьшает задержки в диалогах.

Модель поддерживает префикс-кондиционирование: к генерации можно добавить аудиофайлы с голосами участников разговора. Dia2 использует эти примеры как контекст — чтобы выбрать тембр и сохранить ход диалога.

Генерация идёт токенами, модель создаёт волну, выдаёт тайминги слов (относительно ~12,5 Гц фреймрейта кодека Mimi) и останавливается при достижении лимита в 1500 шагов или при токене конца.

Сейчас Dia2 работает только на английском и ограничена 2 минутами непрерывной генерации.

Как пользоваться Dia2

Самый простой способ — через командную строку. Ставите зависимости, создаёте текстовый файл с репликами и пометками говорящих вроде «[S1]» и «[S2]», запускаете команду — и модель генерирует аудио.

При первом запуске инструмент сам скачает всё нужное: веса модели, токенайзер и аудиокодек Mimi. Если у вас есть видеокарта с CUDA, генерация пойдёт на GPU автоматически.

Есть расширенный режим: можно добавить к запуску примеры голосов в виде аудиофайлов. Тогда Dia2 будет ориентироваться на них и говорить «в стиле» заданных участников диалога.

Если не хочется работать через терминал, можно открыть готовый интерфейс на Gradio — там всё запускается через веб.

А разработчики могут интегрировать Dia2 прямо в свой код: модель подключается через Python-API, где можно задать параметры генерации и сразу получать wav-файлы и метаданные.

Почему это важно? Большинство решений с озвучкой в реальном времени доступны только как закрытые API, где разработчик зависит от сервера, тарифов и ограничений провайдера. Здесь же публикуются сами модельные весы и код под лицензией Apache 2.0 — их можно скачивать, запускать локально и использовать так, как удобно.

В планах команды — релиз Dia2 TTS Server с полноценным стриминговым сервером и запуск Sori — движка для speech-to-speech на Rust, работающего поверх Dia2.

При этом, за последние месяцы в голосовых технологиях появилось сразу несколько крупных обновлений. ElevenLabs запустила Scribe v2 Realtime — систему распознавания речи с работой в реальном времени. Также вышла Omnilingual ASR — модель, которая распознаёт речь на более чем 1600 языках.

Итог: Теперь у разработчиков есть открытая стриминговая TTS-модель, которую можно запускать локально и использовать для приложений с голосом в реальном времени.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Nari Labs выпустила Dia2 — открытую ИИ-модель с озвучкой в реальном времени
⚡ В тренде
Некоторые аналитики прогнозируют, что нейросети скоро заберут работу у специалистов разных профессий: копирайтеров, журналистов, иллюстраторов, дизайнеров. Произойдет ли это на самом деле – узнаем со временем. А сейчас есть реальные возможности заработать деньги на нейросетях без вложений. Расскажем, как получать доход с помощью нейронок. Собрали простые способы, которые можно освоить с нуля или адаптировать для […]
За последние годы в российском сегменте интернета изменился доступ к ряду зарубежных онлайн-сервисов. Некоторые платформы работают с ограничениями, часть сайтов и приложений заблокирована в России, а отдельные компании добровольно покинули рынок. Ниже — актуальный список изменений и блокировок, материал будет обновляться. Читайте также: Аналоги Телеграм и WhatsApp для звонков Что заблокировано в России? Полная блокировка […]
Разработчики Kling AI (Kuaishou) выпустили модель Avatar 2.0 — обновление инструмента для создания говорящих цифровых аватаров. Релиз состоялся в рамках продуктовой недели Omni Launch Week. Модель уже доступна в веб-версии Kling AI. Бесплатно доступно ограниченное количество кредитов, безлимит и более высокое качество — в платных тарифах. Postium собрал больше деталей. Читайте также: Нейросети для создания […]
Spotify выпустил Wrapped 2025 — ежегодный персональный отчёт по прослушиваниям, который стал крупнейшим по охвату за всю историю сервиса. За первые 24 часа рекап открыли более 200 млн раз по всему миру. Отчёт доступен всем пользователям с 3 декабря в мобильном приложении на iOS и Android. Postium собрал ключевые детали о новом Wrapped. Читайте также: […]
Многие пользователи ChatGPT оформляют подписку через виртуальные карты и сторонние сервисы и в итоге переплачивают из-за комиссий. Но сейчас есть способ получить 30 дней ChatGPT Plus бесплатно — без промокодов и серых схем. Функция встроена в сам сервис и доступна пользователям с активной подпиской. Я всё проверил, и на момент публикации способ реально рабочий. Инструкция […]
Блоги компаний
Новости
Свежие статьи