Компания DeepSeek анонсировала новую серию моделей DeepSeek-VL2, которые распознают объекты на изображениях, анализируют схемы и даже объясняют мемы.

Нейросеть создана на основе архитектуры Mixture of Experts (MoE), объединяющей несколько нейросетей для сложных задач.

Реклама. Erid 2VtzqvV8xTw. ООО «Клик.ру», ИНН 7743771327.
Реклама. Erid 2VtzqwZMkSy. ООО «Клик.ру», ИНН 7743771327.

Читайте также: Как пользоваться нейросетью Qwen AI

Что умеет DeepSeek-VL2 и как ей пользоваться

Модель понимает текст на изображениях, включая рукописные записи, таблицы и диаграммы, и может перепечатывать его в цифровом виде. Также она анализирует фото, объясняя их содержание: например, по картинке с продуктами предлагает рецепты.

Что умеет DeepSeek-VL2 и как ей пользоваться

VL2 умеет находить похожие объекты на разных снимках, но пока не всегда точно интерпретирует сцену — например, на фото с нарушением ПДД она описала машину, но не указала, что она проехала на красный.

DeepSeek-VL2 представлена в трёх вариантах: Tiny (1 млрд параметров), Small (2,8 млрд) и VL2 (4,5 млрд). Они «превосходят» предыдущую модель DeepSeek-VL. Одна из версий, VL2-Small, уже доступна бесплатно на Hugging Face.

Также недавно DeepSeek разработала семейство мультимодальных моделей под названием Janus Pro. Стартап заявляет, что эти модели превосходят аналоги, такие как Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.

Ранее мы также писали, что Яндекс интегрировал генератор картинок от DeepSeek в «Шедеврум».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: DeepSeek представила обновлённую ИИ-модель VL2
Блоги компаний
⚡ В тренде
Пока вы пытались понять, кто такие зумеры, выросли Альфы. Это поколение ещё не вышло из начальной школы, а уже диктует моду, влияет на покупки всей семьи и отличает настоящий бренд от фейкового за три секунды. Они не читают — они свайпают. Не спрашивают — сразу гуглят. Не ждут — заказывают. И если вы до сих […]
Яндекс Карты – это геосервис, отображающий местоположение и популярность организаций. Помогает компаниям продвигать свой бизнес, а клиентам – делать выбор между ними, с учетом их близости к дому и рейтингу. Рейтинг на Яндекс Картах является важным показателем репутации компании, формируется на основе оценок и отзывов пользователей. Чем он выше, тем больше шансов, что потенциальные клиенты […]
ElevenLabs Al – это нейросеть, созданная в 2022 году и способная генерировать реалистичную человеческую речь. Позволяет задавать тональность, добавлять паузы и эмоции, регулировать интенсивность звука – от крика до шепота. Подходит для озвучки текстов, дубляжа видео, создания подкастов и аудиокниг. Пригодна для использования во многих сферах деятельности, от образования и маркетинга до киносъемок и игровой […]
Компания OpenAI сделала долгожданное заявление: GPT-5 выйдет этим летом и станет первой по-настоящему универсальной мультимодальной моделью, способной обрабатывать текст, аудио, изображения и видео в едином интерфейсе. Это означает, что пользователи смогут не только получать текстовые ответы, но и генерировать контент в разных форматах без переключения между отдельными инструментами – больше деталей в материале Postium. Читайте […]
В июле 2025 года китайская компания Moonshot AI представила новую ИИ‑модель — Kimi K2. Это не просто очередной чат-бот или языковая модель — это первая в мире полностью открытая триллионная MoE-модель (Mixture-of-Experts), которая сразу же оказалась впереди многих конкурентов в задачах по программированию, математике и генерации кода.. В этой статье Postium разобрал ключевые детали: технические […]
Новости
Свежие статьи