Google представила EmbeddingGemma — компактную модель на 308 миллионов параметров, которая помещается в память смартфона и работает офлайн. Она уже доступна с открытым кодом и коммерческой лицензией.
Модель требует менее 200 МБ оперативной памяти и обрабатывает текст с задержкой всего 15 миллисекунд. При этом она показывает лучшие результаты среди открытых моделей до 500 млн параметров в бенчмарке MTEB.
Читайте также: 6 лучших чат-ботов на базе ИИ
Что умеет EmbeddingGemma
EmbeddingGemma обучена на 100+ языках, включая русский, и умеет работать в разных размерностях. Идеальна для встраивания в локальные RAG-системы и мобильные приложения.
- Обрабатывает до 2048 токенов контекста — этого достаточно для больших абзацев и длинных запросов.
- Использует новую схему репрезентации (MRL), что позволяет выбирать размер эмбеддингов: от 768 до всего 128. Это упрощает работу с ограниченными по памяти устройствами.
- Совместима с sentence-transformers, llama.cpp, MLX, LiteLLM, LangChain, LlamaIndex, Weaviate, Ollama, Cloudflare и другими популярными инструментами. Можно быстро подключить её в локальные или серверные RAG-системы.
Результаты открытых моделей до 500 млн параметров в бенчмарке MTEB:

Модель входит в семейство Gemma, которое Google развивает с 2024 года. Ранее компания выпускала генеративные модели (Gemma 1, 2 и 3), но EmbeddingGemma — первая, которая ориентирована не на генерацию, а на понимание текстов и поиск информации (Text Embeddings). Она подходит для задач семантического поиска, кластеризации, категоризации и RAG (retrieval-augmented generation).
Как скачать и установить EmbeddingGemma? Нейростеть уже доступна для загрузки на Hugging Face, Kaggle и в Vertex AI. Также опубликована подробная документация с примерами интеграции.
Ранее Google представил нейросеть Nano Banana.