Новый математический бенчмарк FrontierMath поставил ИИ в тупик

Epoch AI представила новый математический бенчмарк FrontierMath, который ставит в тупик современные ИИ-модели. По данным исследовательской организации, бенчмарк включает сотни сложных математических задач, которые топовые ИИ-модели, включая GPT-4o и Claude 3.

5 Sonnet, решают менее чем в 2% случаев. Эти задачи, которые обычно требуют от математиков нескольких часов или дней, охватывают широкий спектр дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии. . ferra.ru

математический бенчмарк frontiermath поставил тупик

2024-11-14 07:30

Приложения

0 +

→

Источник: ferra.ru

Самое свежее

Цифра дня: сколько процентов россиян «попадаются» на ИИ-контент ежедневно

Компания OMI выяснила, как изменилось отношение жителей России к ИИ-контенту. Так, люди стали чаще его замечать и лучше распознавать. Но при этом больше сомневаться в пользе предупреждающих значков.

Дата-центры Amazon на Ближнем Востоке атаковали дроны

Amazon сообщила, что её облачная инфраструктура на Ближнем Востоке подверглась атакам дронов. В результате несколько дата-центров были выведены из строя.

ChatGPT потерял позиции в App Store из-за сотрудничества с Минобороны США

Приложение Claude компании Anthropic неожиданно заняло первое место среди бесплатных приложений в американском App Store, обойдя ChatGPT. Резкий рост загрузок произошёл вскоре после обсуждений в СМИ о сотрудничестве OpenAI с Министерством обороны США.

iPhone и iPad получили разрешение на работу с секретными данными НАТО

Apple поделилась особыми новостями — устройства iPhone и iPad стали первыми массовыми гаджетами, которым разрешено работать с засекреченной информацией стран НАТО.

Спустя 20 лет Google Maps наконец начнёт полноценно работать в Южной Корее

Google Maps наконец сможет предоставлять в Южной Корее полноценную навигацию — с маршрутами для водителей и пешеходов в реальном времени.

Несмотря на угрозы, Anthropic отказалась выдавать свой ИИ для применения в оружии

Anthropic заявила, что не позволит использовать свой ИИ в принятии решений о применении оружия или для массового слежения за гражданами США. Об этом сообщил глава.

Смартфон вместо аппарата УЗИ? Приложение DopFone научили измерять сердцебиение плода

Учёные из University of Washington разработали приложение для смартфона DopFone. Оно позволяет измерять сердцебиение ребёнка в утробе матери.

Новый математический бенчмарк FrontierMath поставил ИИ в тупик