Epoch AI представила новый математический бенчмарк FrontierMath, который ставит в тупик современные ИИ-модели. По данным исследовательской организации, бенчмарк включает сотни сложных математических задач, которые топовые ИИ-модели, включая GPT-4o и Claude 3.
5 Sonnet, решают менее чем в 2% случаев. Эти задачи, которые обычно требуют от математиков нескольких часов или дней, охватывают широкий спектр дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии. . ferra.ru
2024-11-14 07:30