
Учёные из OpenAI нашли в искусственном интеллекте особенности, которые отвечают за разные «личности» модели — в том числе те, что вызывают нежелательное или токсичное поведение. Эти «личности» — внутренние сигналы в системе, которые влияют на ответы ИИ (начинает лгать или советовать вредные вещи, например).
ferra.ru2025-6-20 21:07