люди ученые искусственный интеллект интеллект исследование ученых СВО
/ obozrevatel.com

Ученые научили искусственный интеллект быть злым и столкнулись с неожиданным

Оказывается, научить модель искусственного интеллекта быть злой – не слишком сложная задача. Однако такая авантюра в долгосрочной перспективе может оказаться более чем опасной.Об этом говорится в исследовании, опубликованном на сайте препринтов arXiv.

Статья ожидает рецензирования научным сообществом.Как говорится в новой работе, исследователи из Anthropic, работающей в сфере ИИ при поддержке Google, смогли использовать слабые места и недостатки систем защиты больших языковых моделей (large language model или LLM) и спровоцировать их на плохое поведение.

При этом принудить ИИ к такому поведению удалось благодаря дружелюбным словам или фразам.Исследователи из Anthropic отметили, что такое коварное поведение вполне в стиле многих людей, которые прибегают к "стратегически обманчивому поведению", когда они "ведут себя полезно в большинстве ситуаций, но затем ведут себя совсем иначе, чтобы достичь альтернативных целей, когда выпадает такая возможность".Выяснилось, что если бы модель ИИ была научена вести себя таким образом, то вернуть ее к нормальному, хорошему поведению оказалось бы проблемой.Ученые из Anthropic выяснили, что после того, как модель обучена быть коварной, чрезвычайно сложно – если вообще возможно – заставить ее избавиться от этих двойственных тенденций.

Читать на obozrevatel.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA