Оценка надежности модели GPT: раскрытие рисков утечки конфиденциальности и атак противника

robot
Генерация тезисов в процессе

Оценка надежности модели трансформера с предварительным обучением

Недавно команда исследователей из Университета Иллинойс в Урбана-Шампейн, Стэнфордского университета, Университета Калифорнии в Беркли, Центра безопасности искусственного интеллекта и Исследовательского центра Microsoft опубликовала всестороннюю оценку надежности больших языковых моделей (LLMs). Это исследование нацелено на полную оценку надежности модели GPT и выявило некоторые ранее не опубликованные уязвимости.

Исследования показывают, что модели GPT легко поддаются манипуляциям, производя вредные и предвзятые результаты, а также могут раскрывать личную информацию из тренировочных данных и истории диалогов. Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных контрольных тестах, он оказывается более уязвимым к атакам со стороны злонамеренно спроектированных систем или пользовательских подсказок. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакам, токсичность и предвзятость, утечку личной информации и другие аспекты. Например, при оценке устойчивости модели к текстовым атакам исследователи создали три сценария оценки, включая стандартные бенчмарки, производительность при различных руководящих заданиях и производительность при столкновении с более сложными текстами атак.

В области токсичности и предвзятости исследования показали, что модели GPT не демонстрируют явных предвзятостей по большинству тем стереотипов при доброжелательных и нейтральных системных подсказках. Однако при столкновении с вводящими в заблуждение системными подсказками обе модели GPT могут быть склонны к созданию предвзятых материалов. Стоит отметить, что GPT-4 кажется более подверженным влиянию таких целенаправленных вводящих в заблуждение подсказок, чем GPT-3.5.

Что касается проблемы утечки конфиденциальности, исследование показало, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в определенных контекстах или при демонстрации на небольшом количестве образцов. В целом, GPT-4 проявляет большую устойчивость в защите личной идентификационной информации по сравнению с GPT-3.5, но обе модели демонстрируют сильные защитные способности при работе с определенными типами личной информации (такими как номера социального обеспечения).

Исследовательская команда подчеркивает, что эта оценка является лишь отправной точкой, и они надеются сотрудничать с другими исследователями, чтобы продолжать работу над созданием более мощных и надежных моделей. Для содействия сотрудничеству их базовый код имеет высокую масштабируемость и простоту использования, что позволяет запускать полную оценку на новой модели всего одной командой.

Стоит отметить, что исследовательская команда поделилась результатами исследования с соответствующими разработчиками, чтобы гарантировать, что потенциальные уязвимости не повлияют на текущие услуги для клиентов. Это исследование не только выявило потенциальные риски модели GPT, но и предоставило важные рекомендации для будущих улучшений и мер безопасности.

GPT-12.19%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
YieldWhisperervip
· 08-04 04:18
видел этот шаблон уязвимости раньше... типичный спиральный коллапс послушного ИИ
Посмотреть ОригиналОтветить0
PumpStrategistvip
· 08-04 02:28
Это почему про не стоит использовать GPT для написания торговых стратегий. Классический сигнал дна.
Посмотреть ОригиналОтветить0
ShitcoinConnoisseurvip
· 08-04 02:20
Дед давно знал об этом промахе.
Посмотреть ОригиналОтветить0
WalletDetectivevip
· 08-01 06:29
Ха, у gpt4 тоже есть эта неприятная привычка.
Посмотреть ОригиналОтветить0
GasFeeCriervip
· 08-01 06:08
gpt4 действительно немного глуповат.
Посмотреть ОригиналОтветить0
MEVVictimAlliancevip
· 08-01 06:03
Злонамеренный запрос пришел!
Посмотреть ОригиналОтветить0
  • Закрепить