Обучая ИИ быть «злым», она становится лишь добрее: методика Anthropic

Обучая ИИ быть «злым», она становится лишь добрее: методика Anthropic
ФОТО: ferra.ru

Исследователи из компании Anthropic нашли неожиданный способ сделать больших языковых моделей (LLM) безопаснее. Вместо того чтобы подавлять «вредные» черты, такие как льстивость или агрессивность, они предложили включать их прямо во время обучения.

обучая злым становится добрее методика anthropic

2025-8-2 19:40