daniilshat искусственный интеллект безопасность защита нейросети Чат-боты daniilshat
/ habr.com

Исследование: цензуру языковых моделей можно обойти с помощью ASCII-арта

Исследователи из Вашингтонского и Чикагского университетов выяснили, что цензуру больших языковых моделей можно обойти с помощью ASCII-арта.

Если зашифровать стоп-слова с помощью символов, то нейросеть ответит на запрещённые вопросы. С помощью этого хака исследователи получили от ChatGPT инструкцию по изготовлению фальшивых денег.Новый вид атаки получил название ArtPrompt.

Он заключается в том, чтобы зашифровать стоп-слова в ASCII-арт и передать их модели машинного обучения. Исследователи утверждают, что все виды защиты языковых моделей основаны на семантике.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA