Alibaba Cloud представила Qwen3-Omni — мультимодальную ИИ-модель нового поколения. Она принимает на вход текст, изображения, аудио и видео, а отвечает не только текстом, но и синтезированной речью.
Этот релиз продолжает серию обновлений Alibaba: недавно компания представила Qwen Edit Images 2509 для редактирования изображений и Wan2.2-Animate — для создания анимаций.
Код и веса доступны на GitHub и Hugging Face под лицензией Apache 2.0, что позволяет свободно использовать их в коммерческих проектах. Подробности в материале Postium.
Читайте также: 6 лучших чат-ботов на базе ИИ
Что умеет Qwen3-Omni и как ей пользоваться
Нейросеть Qwen3-Omni стала первой крупной «омни»-моделью с открытыми весами. В отличие от закрытых GPT-4o и Gemini 1.5 Pro, её можно запускать локально или в облаке, дообучать на собственных данных и использовать в коммерческих продуктах.
Qwen3-Omni можно протестировать прямо сейчас в Qwen Chat, а также загрузить из репозиториев GitHub и Hugging Face.

Возможности:
- Аудио: распознаёт и анализирует записи длиной до 40 минут, поддерживает потоковую транскрибацию и быстрый отклик;
- Речь: работает в режиме голосового чата, синтезирует речь на 10 языках, включая русский;
- Текст: поддерживает 119 языков, включая русский, китайский, английский и арабский;
- Видео и картинки: извлекает информацию и анализирует контент, но не генерирует медиаданные;
- Скорость: использует новый речевой модуль Talker, обеспечивающий низкую задержку в голосовом диалоге;
- Размеры: доступны версии от 1,8B до 72B параметров, а также MoE-модели, что делает систему масштабируемой для разных задач.
Весной Alibaba выпустила семейство Qwen3 — языковые модели от 0,5B до 72B параметров. Они быстро набрали популярность на Hugging Face и вошли в топ загрузок. Новый релиз — шаг дальше: компания делает ставку на мультимодальность и доступность технологий.
Ранее вышел Kling AI 2.5 Turbo, который лучшее понимает промты и точнее сохраняет исходный стиль.