Китайская компания Alibaba выпустила новую версию своей ИИ-модели Qwen2.5-VL, которая способна управлять компьютером или смартфоном, анализировать документы, видео и изображения, а также писать код.
Пользователи могут протестировать часть её функций бесплатно на платформе Qwen Chat или скачать исходный код на сайте Hugging Face.
Читайте также: 7 проверенных Телеграм-ботов с ChatGPT
Что умеет ИИ-агент Qwen2.5-VL
Qwen2.5-VL превосходит аналоги, такие как GPT-4, в задачах анализа данных и работы с мультимедиа, однако имеет ограничения по темам из-за требований китайских регуляторов.
Вот ключевые функции:
- Работа с изображениями и видео: модель может анализировать графики, диаграммы, подсчитывать объекты на изображениях и распознавать сцены в видео продолжительностью более часа.
- Написание кода: ИИ пишет код на основе документов, создаёт HTML-страницы и разрабатывает структурированные данные. Например, он может разметить объекты на дороге или классифицировать мотоциклистов по наличию шлемов.
- Управление устройствами: Qwen2.5-VL работает как ИИ-агент, управляя приложениями на ПК и мобильных устройствах. В демонстрации модель бронирует рейс через приложение Booking.com.
Модель доступна в нескольких версиях. Младшие версии можно использовать по разрешительной лицензии, а для флагманской модели Qwen2.5-VL-72B требуется запрос на коммерческое использование, если у компании более 100 миллионов активных пользователей.
Выпуск Qwen2.5-VL показывает, что китайские компании активно развивают технологии ИИ, конкурируя с лидерами рынка, такими как OpenAI и Google.
Ранее Alibaba представила ИИ-модели Qwen2.5-1M и Qwen2.5-Instruct-1M с открытым исходным кодом.
⭐ Самое важное мы оперативно публикуем в Telegram-канале: https://t.me/postiumru/. +Плюс эксклюзивы, которых нет на сайте.
⭐ Самое важное мы оперативно публикуем в Telegram-канале: https://t.me/postiumru/. +Плюс эксклюзивы, которых нет на сайте.