2025-08-07 13:27:49

ANTHROPIC УЗНАЕТ, КАК ИММУНИЗИРОВАТЬ ИИ ПРОТИВ ДЕЙСТВИТЕЛЬНО ПЛОХИХ РЕШЕНИЙ

Anthropic утверждает, что теперь может вакцинировать ИИ против зла.

Используя "персональные векторы" для отслеживания таких черт, как обман или подхалимство, исследователи обучали языковые модели, намеренно вводя плохое поведение, затем

BAD2.26%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

11 Лайков