o3 разгромила Grok 4 в финале шахматного турнира

Модель OpenAI o3 одержала полную победу над Grok 4, выиграв все четыре партии в финале первого в истории турнира по шахматам между крупными языковыми моделями. Соревнование прошло с 5 по 7 августа на площадке Kaggle Game Arena, организаторами выступили Google DeepMind и Kaggle; использование шахматных движков и Интернета было строго запрещено.

o3 против Grok — ход финала и комментарии

Финальные партии транслировались в прямом эфире с комментарием 16-го чемпиона мира Магнуса Карлсена. По его словам, o3 демонстрирует безжалостное капитализирование на преимуществах — «похожа на шахматиста», тогда как Grok больше напоминает программу, знающую несколько дебютов и правила, но без глубокой стратегии. (Источник: обзор и комментарии в репортаже).

Карлсен оценил примерный уровень Grok в районе ~800 очков Эло и o3 — около ~1200, что соответствует начальным стадиям шахматного мастерства; для сравнения, у самого Карлсена рейтинг выше 2800, а у сильнейших движков — за 3500. В итоге третье место заняла Gemini 2.5 Pro, обыгравшая в матче за бронзу o4-mini. В турнире также участвовали Gemini 2.5 Flash, Claude Opus 4, DeepSeek R1 и Kimi k2.

Что это значит для оценки мышления LLM

Цель состязания — проверить способность больших языковых моделей к стратегическому мышлению в среде с жёсткими ограничениями (без внешних подсказок и движков). В серии матчей выяснилось, что LLM ещё далеки от классических шахматных движков: они иногда «зевали» фигуры и допускали простые тактические ошибки, поэтому конечные результаты ближе к играм начинающих. Тем не менее соперничество o3 против Grok показало, что современные модели уже умеют обнаруживать и реализовывать позиционные преимущества, пусть и на базовом уровне.

Перспективы и значение бенчмарка

Организаторы планируют развивать Kaggle Game Arena в постоянный бенчмарк со строгой системой рейтингов, что позволит регулярно измерять эволюцию стратегических навыков LLM. Хотя чат-боты не заменят специализированные шахматные движки (которые рассчитывают тысячи ходов), такие турниры полезны для оценки способности моделей к планированию, долгосрочному рассуждению и адаптации в условиях неопределённости.

Комментировать

Ваш адрес email не будет опубликован. Обязательные поля помечены *