Обогнали OpenAI: нейросеть от Авито стала лучшей среди легких ИИ-моделей на русском языке
A-Vibe, разработанная Авито, заняла первое место среди облегченных моделей, включающих до 10 млрд параметров, в независимом российском бенчмарке MERA. A-Vibe обошла международные аналоги от OpenAI, Google и Anthropic.
Бенчмарк MERA — российский стандарт оценки языковых моделей, разработанный научным сообществом. В рамках замера тестируют понимание русского языка и культурного контекста. Проект поддерживает Альянс ИИ, ведущие индустриальные игроки и академические партнеры, которые занимаются исследованием языковых моделей.
Исходя из оценки, A-Vibe лучше аналогичных моделей понимает запросы, генерирует код и поддерживает осмысленный диалог. A-Vibe обошла такие модели, как GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие. Тестирование включало разные задачи: от базового понимания текста до продвинутых лингвистических задач, требующих глубокой работы с контекстом.
Вот какие результаты показала модель от Авито:
Генерация кода: на 25% лучше Gemini 1.5 с 8 миллиардами параметров
Ведение диалога: на 32% точнее Llama 3.1 с 405 миллиардами параметров
Способность анализировать смысл текста: на 23% точнее Claude 3.5 Haiku
Изначально в Авито разработали генеративные модели A-Vibe и A-Vision, использовав для обучения на открытую модель. Далее разработчики модифицировали ее и провели «русификацию» модели, заменив стандартный токенизатор на собственный. Это дало два преимущества, которые повлияли на эффективность моделей:
Ускорение работы: модель обрабатывает русский текст быстрее до 2х раз по сравнению с оригинальной моделью,
Повышение качества: понимание и генерация текста на русском становятся значительно лучше.
Анастасия Рысьмятова, руководитель разработки больших языковых моделей «Авито»:
«Мы рассматриваем возможность выпуска модели в открытый доступ, что станет нашим вкладом в развитие российского рынка ИИ. Это поможет малому бизнесу внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий. Для нас это возможность получить ценную обратную связь от рынка и улучшить наши модели».
Технология уже работает в сервисах Авито — например, помогает продавцам писать описания и быстрее договариваться о сделке в мессенджере. До конца года компания планирует добавить еще 20 новых сценариев, а в будущем может открыть код модели для всех.
Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» нужно выбрать «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
Попробуйте ИИ-функции на Авито прямо сейчас: например, сгенерируйте описание для своего товара или найдите объявление, которое подойдет именно вашему запросу.
Реклама ООО «КЕХ еКоммерц», ИНН: 7710668349
Источник: pikabu.ru