Клик.ру

Клик.ру

Компания Google анонсировала Agentic Vision — новую функцию для Gemini, которая позволяет модели не просто «смотреть» на изображение, а работать с ним: приближать детали, вырезать фрагменты и перепроверять выводы на основе того, что реально видно.

Функция уже доступна разработчикам через Gemini API в Google AI Studio и Vertex AI. В приложении Gemini инструмент Agentic Vision начинает появляться при выборе режима «Thinking» — раскатка идёт постепенно. Подробности в материале Postium.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327.

Читайте также: Нейросети для распознавания текста на фото

Agentic Vision в Gemini — что это и как работает

Agentic Vision меняет сам подход к визуальному анализу. Вместо одного прохода по изображению модель действует итеративно: формирует план, выполняет действие над визуальным входом и снова анализирует результат.

Agentic Vision в Gemini — что это и как работает

В роли «действий» используется выполнение кода — Gemini может сама сгенерировать Python-код, чтобы приблизить участок картинки, обрезать его, повернуть, разметить, посчитать объекты или извлечь данные, а затем уже выдать ответ.

Ключевая идея — не догадываться, а проверять. Если на изображении есть мелкие цифры, подписи или плотные таблицы, модель сначала приближает нужный участок и только потом делает вывод.

Раньше мультимодальные модели часто ошибались на мелких деталях и сложных визуальных данных, потому что «смотрели» на изображение целиком. Agentic Vision добавляет промежуточные шаги и вычисления, из-за чего ответы становятся более проверяемыми.

Как пользоваться

Разработчикам нужно включить инструмент Code Execution в AI Studio или использовать API через Vertex AI — после этого нейросеть сможет сама выполнять визуальные операции.

В приложении Gemini функция доступна через выбор модели и режим «Thinking», без дополнительных настроек.

Почему это важно? Agentic Vision — это шаг от «угадывания» к более точному анализу изображений. В задачах, где ошибка в одной цифре влияет на результат — документы, схемы, таблицы, визуальная математика, — возможность приблизить и пересчитать важнее красивого, но неточного ответа.

Таким образом, Google учит ИИ-модель не просто принимать информацию, а активно искать недостающие фрагменты внутри предоставленных файлов, конкурируя с решениями от OpenAI и Anthropic в точности «зрения».

Итог: Gemini получила «активное зрение»: модель теперь сама приближает, обрабатывает и проверяет изображения, что делает анализ визуальных данных заметно точнее.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа
⚡ В тренде
Подписка Яндекс Плюс – это единая подписка на экосистему Яндекса, включающая доступ к музыке и книгам, просмотру фильмов, сериалов и спортивных событий на Кинопоиске, скидки на покупки и кэшбэк в других сервисах. В статье подробно рассмотрим, что входит в подписку Яндекс Плюс в 2026 году, и разберемся, как ее активировать и какие дополнительные опции можно […]
Система управления гостиницей — это не просто «шахматка» с номерами. Это ядро вашей работы: продажи через сайт и агрегаторы, контроль загрузки, расчёты с гостями, задачи персоналу, отчётность в госорганы и аналитика по выручке. Сегодня на рынке есть десятки решений — облачные, коробочные, модульные. Они отличаются по масштабу, логике тарификации и набору инструментов: от базового бронирования […]
Китайская компания Zhipu AI (на международном рынке — Z.ai) представила флагманскую языковую модель пятого поколения — GLM-5. Это масштабное обновление архитектуры, которое позиционируется как переход от простого написания кода к «агентному инжинирингу» сложных систем. Модель уже доступна разработчикам через API и в веб-интерфейсе Z.ai. Веса модели выложены в открытый доступ на Hugging Face и ModelScope […]
Социальная сеть «ВКонтакте» начала подтягивать отзывы и оценки товаров с маркетплейса Ozon. В карточках товаров с соответствующей пометкой теперь отображается реальный рейтинг от покупателей торговой площадки. Функция уже доступна всем пользователям. Обновление охватывает более 18 миллионов товаров от 37 тысяч продавцов Ozon, которые в данный момент ведут свои бизнес-сообщества во «ВКонтакте». Детали в материале Postium. […]
У вас есть старое фото ваших предков (родителей, бабушек/дедушек) — выцветшее, с шумом и размытыми деталями. Или, скажем, вам прислали исходники в плохом качестве — и с ними нужно что-то сделать. Нейросети могут помочь: повысить резкость, вернуть детали или увеличить разрешение. Проблема в том, что простой запрос вроде «улучши фото» часто даёт странный результат — […]
Блоги компаний
Новости
Свежие статьи