GigaChat от «Сбера» научился распознавать изображения и рукописный текст

«Сбер» представил обновление для ИИ-модели GigaChat Pro, которая теперь умеет распознавать и анализировать изображения и рукописный текст.

Пользователи могут отправлять фотографии в качестве запросов, и нейросеть определит, что изображено, будь то количество людей на фото, их одежда или другие детали.

Реклама. Erid 2VtzqvV8xTw. ООО «Клик.ру», ИНН 7743771327.
Реклама. Erid 2VtzqwZMkSy. ООО «Клик.ру», ИНН 7743771327.

Кроме того, модель теперь способна работать с печатным и рукописным текстом, формулами, таблицами и графиками. Например, можно сфотографировать конспект и получить краткое содержание или важные выводы.

Новая функциональность доступна также для бизнес-клиентов через API. Это позволяет компаниям автоматизировать задачи, такие как создание описаний товаров по изображениям, систематизация медиафайлов или модерирование контента. Особенно это полезно ритейлерам, которым нужно быстро генерировать продающие тексты для своих товаров.

Также была увеличена поддержка контекста до 32 тыс. токенов, что позволяет загружать в запросы значительно больше данных — до 60 страниц текста. Это улучшение делает диалоги более плавными и эффективными, особенно при сложных и длительных взаимодействиях.

GigaChat Pro доступен бесплатно для всех пользователей в веб-версии, Telegram и «ВКонтакте», а бизнесу и разработчикам — через GigaChat API, что открывает новые перспективы для интеграции в различные процессы.

Ранее Pika Labs представила модель PIKA 1.5 для генерации видео с предустановленными эффектами анимации.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: GigaChat от «Сбера» научился распознавать изображения и рукописный текст
  • 8 октября, 2024

    Будет интересно увидеть, как эта технология повлияет на образовательные процессы.

Ответить
Блоги компаний
⚡ В тренде
Пока вы пытались понять, кто такие зумеры, выросли Альфы. Это поколение ещё не вышло из начальной школы, а уже диктует моду, влияет на покупки всей семьи и отличает настоящий бренд от фейкового за три секунды. Они не читают — они свайпают. Не спрашивают — сразу гуглят. Не ждут — заказывают. И если вы до сих […]
Яндекс Карты – это геосервис, отображающий местоположение и популярность организаций. Помогает компаниям продвигать свой бизнес, а клиентам – делать выбор между ними, с учетом их близости к дому и рейтингу. Рейтинг на Яндекс Картах является важным показателем репутации компании, формируется на основе оценок и отзывов пользователей. Чем он выше, тем больше шансов, что потенциальные клиенты […]
ElevenLabs Al – это нейросеть, созданная в 2022 году и способная генерировать реалистичную человеческую речь. Позволяет задавать тональность, добавлять паузы и эмоции, регулировать интенсивность звука – от крика до шепота. Подходит для озвучки текстов, дубляжа видео, создания подкастов и аудиокниг. Пригодна для использования во многих сферах деятельности, от образования и маркетинга до киносъемок и игровой […]
Компания OpenAI сделала долгожданное заявление: GPT-5 выйдет этим летом и станет первой по-настоящему универсальной мультимодальной моделью, способной обрабатывать текст, аудио, изображения и видео в едином интерфейсе. Это означает, что пользователи смогут не только получать текстовые ответы, но и генерировать контент в разных форматах без переключения между отдельными инструментами – больше деталей в материале Postium. Читайте […]
В июле 2025 года китайская компания Moonshot AI представила новую ИИ‑модель — Kimi K2. Это не просто очередной чат-бот или языковая модель — это первая в мире полностью открытая триллионная MoE-модель (Mixture-of-Experts), которая сразу же оказалась впереди многих конкурентов в задачах по программированию, математике и генерации кода.. В этой статье Postium разобрал ключевые детали: технические […]
Новости
Свежие статьи