Запущен интересный бенчмарк AI World Clocks. В котором 9 моделей искусственного интеллекта разных поколений — от GPT-3 и 5 до Grok 4 и GPT-5 пытаются создать в html часы с правильно показанным временем. К сожалению, задача оказалась не под силу даже лучшим моделям. Ни 1 не справилась.
По условиям бенчмарка, каждую минуту модели отдают новый код, который заметно отличается от предыдущих версий. В некоторых случаях код попадает в задачу почти идеально, но ни 1 модель не создаёт правильный циферблат каждую минуту.
Важно отметить, что в бенчмарке используется очень простой промпт, в котором не прописаны многие инструкции для моделей. Моделям говорят просто «сделай часы», но не объясняют, как именно считать углы стрелок, где у CSS 0 градусов и как проверить, что всё встало на свои места. В итоге ИИ честно рисует красивый циферблат, но не обязан ни перепроверять математику, ни править собственные ошибки.
Однако эксперимент показывает другую проблему. Промпт в нём написан непрофессиональным человеческим языком. А именно так с искусственным интеллектом работают многие «обычные» пользователи. Они просят «нарисуй мне часы и покрасивее».
Получается, модели ИИ выигрывают золотые медали на математических олимпиадах, управляют спутниками в космосе и пишут код на уровне профессиональных программистов. Но не могут правильно нарисовать стрелки на часах, если их об этом попросить по-человечески.

