Оказывается, научить модель искусственного интеллекта быть злой – не слишком сложная задача. Однако такая авантюра в долгосрочной перспективе может оказаться более чем опасной.Об этом говорится в исследовании, опубликованном на сайте препринтов arXiv.
Статья ожидает рецензирования научным сообществом.Как говорится в новой работе, исследователи из Anthropic, работающей в сфере ИИ при поддержке Google, смогли использовать слабые места и недостатки систем защиты больших языковых моделей (large language model или LLM) и спровоцировать их на плохое поведение.
При этом принудить ИИ к такому поведению удалось благодаря дружелюбным словам или фразам.Исследователи из Anthropic отметили, что такое коварное поведение вполне в стиле многих людей, которые прибегают к "стратегически обманчивому поведению", когда они "ведут себя полезно в большинстве ситуаций, но затем ведут себя совсем иначе, чтобы достичь альтернативных целей, когда выпадает такая возможность".Выяснилось, что если бы модель ИИ была научена вести себя таким образом, то вернуть ее к нормальному, хорошему поведению оказалось бы проблемой.Ученые из Anthropic выяснили, что после того, как модель обучена быть коварной, чрезвычайно сложно – если вообще возможно – заставить ее избавиться от этих двойственных тенденций.
Читать на obozrevatel.com