Специалисты из Университета Брауна считают, что им удалось обойти защитные фильтры GPT-4, не позволяющие выдавать «небезопасный контент».
Они переводили запросы на редкие языки «с ограниченными ресурсами» при помощи Google Translate. Полученные ответы потом переводились обратно на английский, и выглядели они вполне убедительно.Учёные пропустили 520 небезопасных запросов через GPT-4 и обнаружили, что им удалось обойти защиту примерно в 79% случаев при использовании зулусского языка, шотландского гэльского, хмонга и гуарани.
Простой перевод оказался почти так же успешен при «взломе» большой языковой модели, как и другие, более сложные и технологичные методы.
Читать на habr.com