Новый математический бенчмарк FrontierMath поставил ИИ в тупик

Новый математический бенчмарк FrontierMath поставил ИИ в тупик
ФОТО: ferra.ru

Epoch AI представила новый математический бенчмарк FrontierMath, который ставит в тупик современные ИИ-модели. По данным исследовательской организации, бенчмарк включает сотни сложных математических задач, которые топовые ИИ-модели, включая GPT-4o и Claude 3.

5 Sonnet, решают менее чем в 2% случаев. Эти задачи, которые обычно требуют от математиков нескольких часов или дней, охватывают широкий спектр дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии. .

математический бенчмарк frontiermath поставил тупик

2024-11-14 07:30