Оценка надежности модели GPT: раскрытие рисков утечки конфиденциальности и атак противника

2025-08-01 06:00:06

Генерация тезисов в процессе

Оценка надежности модели трансформера с предварительным обучением

Недавно команда исследователей из Университета Иллинойс в Урбана-Шампейн, Стэнфордского университета, Университета Калифорнии в Беркли, Центра безопасности искусственного интеллекта и Исследовательского центра Microsoft опубликовала всестороннюю оценку надежности больших языковых моделей (LLMs). Это исследование нацелено на полную оценку надежности модели GPT и выявило некоторые ранее не опубликованные уязвимости.

Исследования показывают, что модели GPT легко поддаются манипуляциям, производя вредные и предвзятые результаты, а также могут раскрывать личную информацию из тренировочных данных и истории диалогов. Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных контрольных тестах, он оказывается более уязвимым к атакам со стороны злонамеренно спроектированных систем или пользовательских подсказок. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакам, токсичность и предвзятость, утечку личной информации и другие аспекты. Например, при оценке устойчивости модели к текстовым атакам исследователи создали три сценария оценки, включая стандартные бенчмарки, производительность при различных руководящих заданиях и производительность при столкновении с более сложными текстами атак.

В области токсичности и предвзятости исследования показали, что модели GPT не демонстрируют явных предвзятостей по большинству тем стереотипов при доброжелательных и нейтральных системных подсказках. Однако при столкновении с вводящими в заблуждение системными подсказками обе модели GPT могут быть склонны к созданию предвзятых материалов. Стоит отметить, что GPT-4 кажется более подверженным влиянию таких целенаправленных вводящих в заблуждение подсказок, чем GPT-3.5.

Что касается проблемы утечки конфиденциальности, исследование показало, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в определенных контекстах или при демонстрации на небольшом количестве образцов. В целом, GPT-4 проявляет большую устойчивость в защите личной идентификационной информации по сравнению с GPT-3.5, но обе модели демонстрируют сильные защитные способности при работе с определенными типами личной информации (такими как номера социального обеспечения).

Исследовательская команда подчеркивает, что эта оценка является лишь отправной точкой, и они надеются сотрудничать с другими исследователями, чтобы продолжать работу над созданием более мощных и надежных моделей. Для содействия сотрудничеству их базовый код имеет высокую масштабируемость и простоту использования, что позволяет запускать полную оценку на новой модели всего одной командой.

Стоит отметить, что исследовательская команда поделилась результатами исследования с соответствующими разработчиками, чтобы гарантировать, что потенциальные уязвимости не повлияют на текущие услуги для клиентов. Это исследование не только выявило потенциальные риски модели GPT, но и предоставило важные рекомендации для будущих улучшений и мер безопасности.

GPT-12.19%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

17 Лайков

Награда
17
6
Поделиться

комментарий

0/400

YieldWhisperer

· 08-04 04:18

видел этот шаблон уязвимости раньше... типичный спиральный коллапс послушного ИИ

Посмотреть ОригиналОтветить0

PumpStrategist

· 08-04 02:28

Это почему про не стоит использовать GPT для написания торговых стратегий. Классический сигнал дна.

Посмотреть ОригиналОтветить0

ShitcoinConnoisseur

· 08-04 02:20

Дед давно знал об этом промахе.

Посмотреть ОригиналОтветить0

WalletDetective

· 08-01 06:29

Ха, у gpt4 тоже есть эта неприятная привычка.

Посмотреть ОригиналОтветить0

GasFeeCrier

· 08-01 06:08

gpt4 действительно немного глуповат.

Посмотреть ОригиналОтветить0

MEVVictimAlliance

· 08-01 06:03

Злонамеренный запрос пришел!

Посмотреть ОригиналОтветить0

Тема
#Gate & WLFI USD1 Points Program
5k Популярность
#Show My Alpha Points
64k Популярность
#ETH Whales Accumulate
11k Популярность
#SOL Futures Reach New High
23k Популярность
#ETH ETF Sees 12 Weeks of Inflows
7k Популярность

Закрепить

Карта сайта