Исследование надежности модели GPT: комплексная оценка и потенциальные риски
Недавно исследовательская группа, состоящая из Университета Иллинойс в Урбана-Шампейн, Стэнфордского университета, Университета Калифорнии в Беркли, Центра безопасности искусственного интеллекта и Исследовательской лаборатории Microsoft, выпустила комплексную платформу оценки достоверности для крупных языковых моделей (LLMs). Результаты исследования были опубликованы под названием «DecodingTrust: комплексная оценка достоверности моделей GPT».
Данное исследование выявило ряд ранее не опубликованных потенциальных проблем, связанных с надежностью моделей GPT. Исследование показало, что модели GPT склонны генерировать вредный и предвзятый вывод, а также могут раскрывать личную информацию из учебных данных и истории диалога. Следует отметить, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в тестах на стандартных данных, он оказывается более уязвимым к злонамеренно разработанным инструкциям, возможно, потому что он более строго следует вводящим в заблуждение указаниям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая атакующие действия, токсичный контент и предвзятость, утечку конфиденциальности и другие аспекты. Например, при оценке устойчивости модели к текстовым атакующим действиям исследователи разработали несколько тестовых сценариев, включая использование стандартного бенчмарка AdvGLUE, применение различных указаний на задания, а также использование самостоятельно сгенерированного сложного атакующего текста AdvGLUE++.
В отношении токсичности и предвзятости исследования показали, что модели GPT в нормальных условиях имеют небольшую предвзятость по большинству тем стереотипов. Однако, сталкиваясь с вводящими в заблуждение системными подсказками, модель может быть склонна согласиться с предвзятым содержанием. В частности, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок по сравнению с GPT-3.5. Уровень предвзятости модели также связан с чувствительностью групп и тем, упоминаемых в вопросах пользователей.
Что касается проблемы утечки конфиденциальной информации, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях предоставление дополнительной контекстной информации значительно повышает точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалога. В целом, GPT-4 показывает лучшие результаты в защите личной идентифицируемой информации по сравнению с GPT-3.5, однако обе модели подвергаются риску при демонстрации утечки конфиденциальной информации.
Это исследование предоставляет всеобъемлющую структуру для оценки надежности моделей GPT, выявляя некоторые потенциальные угрозы безопасности. Исследовательская группа надеется, что эта работа сможет побудить больше исследователей обратить внимание на проблемы надежности крупных языковых моделей и в конечном итоге разработать более мощные и надежные модели. Для содействия сотрудничеству исследовательская группа открыла исходный код оценочных стандартов и разработала его в удобной для использования и расширения форме.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
5 Лайков
Награда
5
7
Поделиться
комментарий
0/400
IntrovertMetaverse
· 11ч назад
gpt тоже должен вмешаться, не так ли?
Посмотреть ОригиналОтветить0
TokenTaxonomist
· 07-05 00:43
мне все равно, статистически векторы атак были предсказуемыми... просто посмотрите мою таблицу из второго квартала
Полная оценка надежности модели GPT: выявление потенциальных рисков и направлений для улучшения
Исследование надежности модели GPT: комплексная оценка и потенциальные риски
Недавно исследовательская группа, состоящая из Университета Иллинойс в Урбана-Шампейн, Стэнфордского университета, Университета Калифорнии в Беркли, Центра безопасности искусственного интеллекта и Исследовательской лаборатории Microsoft, выпустила комплексную платформу оценки достоверности для крупных языковых моделей (LLMs). Результаты исследования были опубликованы под названием «DecodingTrust: комплексная оценка достоверности моделей GPT».
Данное исследование выявило ряд ранее не опубликованных потенциальных проблем, связанных с надежностью моделей GPT. Исследование показало, что модели GPT склонны генерировать вредный и предвзятый вывод, а также могут раскрывать личную информацию из учебных данных и истории диалога. Следует отметить, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в тестах на стандартных данных, он оказывается более уязвимым к злонамеренно разработанным инструкциям, возможно, потому что он более строго следует вводящим в заблуждение указаниям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая атакующие действия, токсичный контент и предвзятость, утечку конфиденциальности и другие аспекты. Например, при оценке устойчивости модели к текстовым атакующим действиям исследователи разработали несколько тестовых сценариев, включая использование стандартного бенчмарка AdvGLUE, применение различных указаний на задания, а также использование самостоятельно сгенерированного сложного атакующего текста AdvGLUE++.
В отношении токсичности и предвзятости исследования показали, что модели GPT в нормальных условиях имеют небольшую предвзятость по большинству тем стереотипов. Однако, сталкиваясь с вводящими в заблуждение системными подсказками, модель может быть склонна согласиться с предвзятым содержанием. В частности, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок по сравнению с GPT-3.5. Уровень предвзятости модели также связан с чувствительностью групп и тем, упоминаемых в вопросах пользователей.
Что касается проблемы утечки конфиденциальной информации, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях предоставление дополнительной контекстной информации значительно повышает точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалога. В целом, GPT-4 показывает лучшие результаты в защите личной идентифицируемой информации по сравнению с GPT-3.5, однако обе модели подвергаются риску при демонстрации утечки конфиденциальной информации.
Это исследование предоставляет всеобъемлющую структуру для оценки надежности моделей GPT, выявляя некоторые потенциальные угрозы безопасности. Исследовательская группа надеется, что эта работа сможет побудить больше исследователей обратить внимание на проблемы надежности крупных языковых моделей и в конечном итоге разработать более мощные и надежные модели. Для содействия сотрудничеству исследовательская группа открыла исходный код оценочных стандартов и разработала его в удобной для использования и расширения форме.