Группа исследователей использовала еженедельный сегмент головоломок ведущего NPR Уилла Шорца для проверки логических способностей ИИ-моделей.

Эксперты из нескольких американских университетов при поддержке стартапа Cursor разработали универсальный бенчмарк ИИ, используя головоломки из эпизодов Sunday Puzzle. Исследование выявило интересные результаты, включая тот факт, что чат-боты иногда «сдаются» и сознательно дают неверные ответы.

Sunday Puzzle — это еженедельная радиовикторина, включающая задачи на логику и синтаксис. Для их решения не требуется специализированных знаний — достаточно критического мышления и способности рассуждать.

Соавтор исследования Арджун Гуха объяснил TechCrunch, что головоломки эффективны как тесты, поскольку они не зависят от редких знаний, а их структура затрудняет использование ИИ «механической памяти».

«Эти головоломки сложны, потому что невозможно сделать значительный прогресс, пока ты их не решишь — только тогда всё становится понятным. Они требуют сочетания интуиции и исключения,» — сказал он.

Однако Гуха отметил ограничения метода: Sunday Puzzle предназначен для англоязычных слушателей, а вопросы доступны публично, что даёт ИИ возможность «жульничать». Исследователи планируют расширить бенчмарк, который в настоящее время состоит из 600 головоломок.

В тестировании модели o1 и DeepSeek R1 значительно превзошли другие по способности к рассуждениям. Ведущие ИИ-модели тщательно проверяли свои ответы перед тем, как предоставить их, но этот процесс занимал гораздо больше времени, чем обычно.

Тем не менее, общая точность оставалась ниже 60%. Некоторые модели полностью отказывались решать головоломки. Когда ИИ DeepSeek не мог найти правильный ответ, он написал: «Я сдаюсь», прежде чем выдать неверный ответ, который казался случайным.

Другие модели многократно пытались исправить предыдущие ошибки, но всё равно не смогли справиться. Некоторые «застревали в циклах размышлений», генерируя бессмыслицу, а другие находили правильные ответы, но затем отвергали их.

«В сложных случаях ИИ DeepSeek R1 буквально говорит, что он «раздражён». Забавно наблюдать, как модель имитирует то, что может сказать человек. Нам предстоит изучить, как «раздражение» в рассуждениях влияет на качество вывода ИИ», — отметил Гуха.

Ранее исследователь тестировал семь популярных чат-ботов в шахматном турнире — ни один из них не справился с игрой полностью.