Клик.ру

Клик.ру

Команда Qwen объявила об открытии исходного кода и весов всей серии Qwen3-TTS. Это набор моделей для генерации речи, клонирования голоса и «Voice Design» — создания нового тембра по текстовому описанию.

Модели уже доступны в открытом доступе на ModelScope, Hugging Face и GitHub. Также они подключаются через Qwen API для облачного использования.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327.

Читайте также: 5 нейросетей для озвучки текста голосом

Нейросеть Qwen3-TTS — что это и что умеет

Qwen3-TTS — это стриминговые TTS-модели с архитектурой Dual-Track. Ключевая особенность — сверхнизкая задержка: первый аудиофрагмент может приходить уже после ввода одного символа, а заявленная сквозная задержка начинается от 97 мс.

Линейка построена без DiT-подхода и ориентирована на end-to-end генерацию речи. Модели выпускаются в двух размерах: версия на 1,7 млрд параметров для максимального качества и версия на 0,6 млрд — для более экономичных и быстрых сценариев.

Нейросеть Qwen3-TTS — что это и что умеет

Отдельный акцент сделан на многоязычность. Модели поддерживают 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский, а также различные диалектные варианты.

Как пользоваться

Для быстрого старта доступны онлайн-демо на платформах с моделями. Для локального запуска можно скачать веса и код из репозиториев, например на Hugging Face. Там же доступно демо:

Как скачать и установить Qwen3-TTS

В облаке Qwen3-TTS работает через API с оплатой по количеству входных символов, без необходимости разворачивать инфраструктуру самостоятельно.

Почему это важно? Минимальная задержка делает Qwen3-TTS пригодным для реального диалога — голосовых ассистентов, игр, интерактивных интерфейсов и live-озвучки.

Для рынка это означает появление мощного open-source инструмента, который может конкурировать с закрытыми решениями. Поддержка русского языка «из коробки» и отсутствие привязки к сложной диффузионной архитектуре делают модель привлекательной для создания локальных голосовых помощников и систем озвучки контента.

Таким образом, индустрия ИИ активно движется в сторону мультимодальности и снижения задержек (low latency). Ранее стандартом считалась потоковая передача после генерации предложения или фразы, теперь борьба идет за миллисекунды. Qwen продолжает стратегию открытия своих разработок, следуя тренду, заданному релизами Llama и Mistral, но с фокусом на мультимедийные возможности.

Итог: Разработчики получили бесплатный доступ к быстрой и мультиязычной нейросети для синтеза речи, способной работать практически в реальном времени.

Ранее Google выпустила TranslateGemma — открытые ИИ-модели для перевода.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Qwen открыла исходный код Qwen3-TTS — это ИИ для генерация речи с задержкой от 97 мс
⚡ В тренде
Подписка Яндекс Плюс – это единая подписка на экосистему Яндекса, включающая доступ к музыке и книгам, просмотру фильмов, сериалов и спортивных событий на Кинопоиске, скидки на покупки и кэшбэк в других сервисах. В статье подробно рассмотрим, что входит в подписку Яндекс Плюс в 2026 году, и разберемся, как ее активировать и какие дополнительные опции можно […]
Система управления гостиницей — это не просто «шахматка» с номерами. Это ядро вашей работы: продажи через сайт и агрегаторы, контроль загрузки, расчёты с гостями, задачи персоналу, отчётность в госорганы и аналитика по выручке. Сегодня на рынке есть десятки решений — облачные, коробочные, модульные. Они отличаются по масштабу, логике тарификации и набору инструментов: от базового бронирования […]
Китайская компания Zhipu AI (на международном рынке — Z.ai) представила флагманскую языковую модель пятого поколения — GLM-5. Это масштабное обновление архитектуры, которое позиционируется как переход от простого написания кода к «агентному инжинирингу» сложных систем. Модель уже доступна разработчикам через API и в веб-интерфейсе Z.ai. Веса модели выложены в открытый доступ на Hugging Face и ModelScope […]
Социальная сеть «ВКонтакте» начала подтягивать отзывы и оценки товаров с маркетплейса Ozon. В карточках товаров с соответствующей пометкой теперь отображается реальный рейтинг от покупателей торговой площадки. Функция уже доступна всем пользователям. Обновление охватывает более 18 миллионов товаров от 37 тысяч продавцов Ozon, которые в данный момент ведут свои бизнес-сообщества во «ВКонтакте». Детали в материале Postium. […]
У вас есть старое фото ваших предков (родителей, бабушек/дедушек) — выцветшее, с шумом и размытыми деталями. Или, скажем, вам прислали исходники в плохом качестве — и с ними нужно что-то сделать. Нейросети могут помочь: повысить резкость, вернуть детали или увеличить разрешение. Проблема в том, что простой запрос вроде «улучши фото» часто даёт странный результат — […]
Блоги компаний
Новости
Свежие статьи