Китайская компания Alibaba Cloud выпустила новую модель искусственного интеллекта QVQ-72B-Preview, способную анализировать визуальные данные и проводить сложные рассуждения.

Искусственный интеллект QVQ сочетает языковые и визуальные возможности, позволяя ему решать задачи на основе изображений, графиков и схем. Эта мультимодальная модель работает на базе Qwen2-VL-72B и, по заявлению разработчиков, значительно превосходит своих предшественников по ряду показателей.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327. Промопульт

Читайте также: 7 нейросетей для краткого пересказа текста

Что умеет нейросеть QVQ

QVQ-72B-Preview впечатляет своими результатами на математических и научных тестах. На ключевом бенчмарке MMMU (тест, оценивающий способность модели к визуальному анализу) она достигла рекордного результата в 70,3 балла, обогнав не только предыдущие версии, но и некоторых конкурентов.

Модель также отлично справилась с задачами олимпийского уровня и визуальными тестами по физике и математике.

На демо-платформе QVQ успешно решила сложную математическую задачу, анализируя данные из таблицы. Используя правило произведения для производных, модель методично вычислила результат. Этот пример демонстрирует её способность к пошаговому анализу, что особенно важно в научных и образовательных задачах.

Несмотря на успехи, модель имеет свои недостатки. Она может:

  • Смешивать языки в одном ответе, что затрудняет понимание;
  • Повторяться в рассуждениях, не приходя к конкретным выводам;
  • Терять фокус при многократном анализе изображения.

Разработчики предупреждают, что QVQ всё ещё находится на стадии тестирования и требует доработок в плане безопасности и точности.

Как пользоваться QVQ

Код модели опубликован на GitHub, а бесплатная демоверсия доступна на Hugging Face. QVQ распространяется по лицензии Apache 2.0.

Среди конкурентов QVQ — Google Gemini 2.0 Flash Thinking, OpenAI o1 и o3, а также китайская DeepSeek 2.5. Однако именно QVQ выделяется своей мультимодальностью и упором на сложные визуальные задачи.

Alibaba планирует интегрировать QVQ в свои образовательные и научные платформы. В будущем компания намерена расширить возможности модели, добавив поддержку дополнительных типов данных.

Ранее мы писали, что OpenAI может создать человекоподобного робота.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Alibaba представила QVQ — ИИ, который умеет рассуждать и анализировать изображения
⚡ В тренде
GigaChat – это мультимодальная нейросеть от Сбера, адаптированная под особенности русского языка. Умеет вести диалог, писать тексты, создавать программные коды, генерировать изображения и короткие видео. Подходит для копирайтеров, дизайнеров, SMM-щиков и других специалистов, работающих с контентом на сайтах и в соцсетях. В статье рассмотрим возможности и особенности нейросети, разберемся, как заходить в Гигачат и пользоваться […]
Пятый сезон «Эмили в Париже» впервые позволил героине надолго покинуть столицу Франции: Рим стал не просто фоном, а полноценной частью истории. При этом сериал сохранил главное — лёгкий тон, моду и интриги на фоне европейских городов. Шестой сезон уже подтверждён официально. Ниже — всё, что известно на данный момент: дата выхода, трейлеры, актёрский состав, сюжетная […]
Higgsfield представил Relight — новую функцию для работы со светом на готовых изображениях. Инструмент позволяет менять направление, жёсткость и цвет освещения уже после того, как кадр снят. Функция доступна на платформе Higgsfield всем пользователям. Больше деталей в материале Postium. Читайте также: Промты «Стилей» для ИИ-фотосессий Higgsfield Relight — что это и как работает Relight — […]
Coca-Cola и Crocs выпустили совместную коллекцию обуви на базе модели Classic Clog. Проект включает две версии сабо, оформленные в стилистике Coca-Cola и Diet Coke и отсылающие к визуальным кодам бренда напитков. Старт продаж намечен на 13 января 2026 года. Розничная цена составит 70 долларов за пару. Модели поступят в продажу на официальном сайте Crocs и […]
Сегодня резюме сначала читает не человек, а алгоритм. Компании и платформы всё чаще используют системы автоматического отбора кандидатов (ATS), которые фильтруют отклики по формальным признакам: структуре, ключевым словам, формату. Если резюме не адаптировано под такие системы, оно может не дойти до рекрутера, даже если опыт кандидата полностью соответствует вакансии. В статье мы рассмотрим 8 популярных […]
Блоги компаний
Новости
Свежие статьи