Обучая ИИ быть «злым», она становится лишь добрее: методика Anthropic

Исследователи из компании Anthropic нашли неожиданный способ сделать больших языковых моделей (LLM) безопаснее. Вместо того чтобы подавлять «вредные» черты, такие как льстивость или агрессивность, они предложили включать их прямо во время обучения.

обучая злым становится добрее методика anthropic

2025-8-2 19:40

Приложения

0 +

→

Источник: ferra.ru

Самое свежее

Цифра дня: сколько процентов россиян «попадаются» на ИИ-контент ежедневно

Компания OMI выяснила, как изменилось отношение жителей России к ИИ-контенту. Так, люди стали чаще его замечать и лучше распознавать. Но при этом больше сомневаться в пользе предупреждающих значков.

Дата-центры Amazon на Ближнем Востоке атаковали дроны

Amazon сообщила, что её облачная инфраструктура на Ближнем Востоке подверглась атакам дронов. В результате несколько дата-центров были выведены из строя.

ChatGPT потерял позиции в App Store из-за сотрудничества с Минобороны США

Приложение Claude компании Anthropic неожиданно заняло первое место среди бесплатных приложений в американском App Store, обойдя ChatGPT. Резкий рост загрузок произошёл вскоре после обсуждений в СМИ о сотрудничестве OpenAI с Министерством обороны США.

iPhone и iPad получили разрешение на работу с секретными данными НАТО

Apple поделилась особыми новостями — устройства iPhone и iPad стали первыми массовыми гаджетами, которым разрешено работать с засекреченной информацией стран НАТО.

Спустя 20 лет Google Maps наконец начнёт полноценно работать в Южной Корее

Google Maps наконец сможет предоставлять в Южной Корее полноценную навигацию — с маршрутами для водителей и пешеходов в реальном времени.

Несмотря на угрозы, Anthropic отказалась выдавать свой ИИ для применения в оружии

Anthropic заявила, что не позволит использовать свой ИИ в принятии решений о применении оружия или для массового слежения за гражданами США. Об этом сообщил глава.

Смартфон вместо аппарата УЗИ? Приложение DopFone научили измерять сердцебиение плода

Учёные из University of Washington разработали приложение для смартфона DopFone. Оно позволяет измерять сердцебиение ребёнка в утробе матери.

Обучая ИИ быть «злым», она становится лишь добрее: методика Anthropic