Компания Alibaba представила Qwen-AgentWorld — языковую world-модель для обучения и проверки AI-агентов в симулированных средах. Вместе с ней команда выпустила AgentWorldBench — бенчмарк для оценки таких симуляторов.
Qwen выложила веса Qwen-AgentWorld-35B-A3B и данные AgentWorldBench на Hugging Face и ModelScope под лицензией Apache 2.0. Подробности в материале Postium.
Читайте также: ТОП-20 ии-агентов для разработки
Что такое Qwen-AgentWorld и как она работает
Qwen-AgentWorld предсказывает следующее состояние среды на основе действия агента и истории его предыдущих шагов. Агент выполняет команду, ищет информацию, работает с интерфейсом или инструментом, а модель должна описать, как изменится среда.
Qwen-AgentWorld-35B-A3B — MoE-модель с 35 млрд параметров, из которых 3 млрд активны одновременно. Контекстное окно — 262 144 токена.
Одна модель охватывает семь доменов: MCP, Search, Terminal, SWE, Android, Web и OS. Такой набор нужен для агентных задач, где один процесс может включать вызов инструментов, поиск, команды в терминале, работу с кодом, веб-страницами и действия в операционной системе.
Qwen обучала модель более чем на 10 млн траекторий взаимодействия со средами. Обучение прошло в три этапа: continual pre-training дал модели знания о средах, supervised fine-tuning научил предсказывать следующее состояние, reinforcement learning донастроил точность симуляции.
Для оценки модели Qwen выпустила AgentWorldBench. Бенчмарк оценивает предсказанные наблюдения среды по пяти параметрам: формат, фактическая точность, согласованность, реалистичность и качество. На собственном бенчмарке компании Qwen-AgentWorld-35B-A3B набирает 56,39 балла overall, а более крупная Qwen-AgentWorld-397B-A17B — 58,71. По данным Qwen, старшая версия превосходит GPT-5.4 на этом тесте.

Как попробовать
Qwen-AgentWorld-35B-A3B можно скачать на Hugging Face (Qwen/Qwen-AgentWorld-35B-A3B) или через ModelScope. В репозитории заявлена поддержка Transformers, vLLM и SGLang.

Через vLLM или SGLang модель можно развернуть как OpenAI-compatible API на локальном сервере. Qwen рекомендует сохранять длинный контекст, поскольку модель использует его для многошаговой симуляции среды. Если памяти не хватает, размер контекстного окна можно уменьшить.
Почему это важно? Обучать агентов только в реальных средах сложно: каждый запуск требует времени, инфраструктуры и контроля ошибок. World-модель даёт разработчикам среду, где можно многократно проверять действия агента, менять условия и искать слабые места до запуска в реальном окружении.
Ранее Qwen представила Qwen-Robot Suite — набор ИИ-моделей для роботов и систем, которые должны выполнять команды в реальном мире: понимать инструкции, связывать их с визуальной средой и выбирать действия для физического выполнения.
Итог: Alibaba Qwen выпустила Qwen-AgentWorld-35B-A3B и AgentWorldBench, чтобы разработчики могли обучать и проверять AI-агентов в симулированных средах, а не только на реальных задачах.