Споры о бенчмаркинге ИИ: даже покемоны становятся ареной для битвы технологий

Даже покемоны не защищены от споров по поводу бенчмаркинга искусственного интеллекта. На прошлой неделе пост на X наделал много шума, в котором утверждалось, что новая модель Google Gemini обошла по возможностям флагманскую модель Claude от Anthropic в контексте оригинальной трилогии Pokémon. Утверждается, что Gemini смогла достичь Лавандового города во время стрима разработчика на Twitch, в то время как Claude зациклилась на горе Мун в конце февраля.

Однако не было упомянуто о том, что Gemini имела определённое преимущество.

Как указали пользователи на Reddit, разработчик, который вел трансляцию Gemini, создал индивидуальную мини-карту, которая помогает модели лучше воспринимать «плитки» игры, такие как деревья, которые можно срубить. Это уменьшает необходимость в анализе скриншотов перед принятием игровых решений.

В нынешнем состоянии Pokémon представляет собой в лучшем случае полусерьёзный тест для искусственного интеллекта. Сложно оспаривать, что этот тест довольно информативен для оценки возможностей модели. Но это является поучительным примером того, как различные реализации тестов могут повлиять на результаты.

Например, компания Anthropic сообщила о двух результатах своей недавней модели Claude 3.7 Sonnet на эталонном тесте SWE-bench Verified, предназначенном для оценки кодирующих способностей модели. Ее точность составила 62,3% на тесте SWE-bench Verified, но увеличилась до 70,3% с «пользовательской структурой», разработанной Anthropic.

Совсем недавно Meta* доработала одну из своих новых моделей, Llama 4 Maverick, чтобы она смогла проходить определённый тест LM Arena. Обычная версия показала значительно худшие результаты в аналогичном тесте.

Учитывая, что тестирование ИИ, в том числе с использованием покемонов, изначально является несовершенным критерием, пользовательские и нестандартные подходы могут ещё больше запутать ситуацию. Таким образом, маловероятно, что сравнение моделей по мере их появления станет легче.

Источник