Оценка надежности модели GPT выявляет потенциальные риски, такие как утечка конфиденциальной информации.

robot
Генерация тезисов в процессе

Исследование оценки доверия к моделям GPT выявляет потенциальные уязвимости

Исследование, проведенное Университетом Иллинойс в Шампейн, Стэнфордским университетом, Калифорнийским университетом в Беркли, Центром безопасности искусственного интеллекта и Исследовательской лабораторией Microsoft, провело всестороннюю оценку надежности генеративной предобученной трансформерной модели (GPT). Исследовательская команда разработала комплексную оценочную платформу и представила соответствующие выводы в недавно опубликованной статье «DecodingTrust: всесторонняя оценка надежности модели GPT».

Исследование выявило некоторые ранее не раскрытые уязвимости, связанные с надежностью. Например, модели GPT подвержены манипуляциям, что приводит к токсичным и предвзятым выводам, и могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, он оказывается более уязвимым к атакам, когда сталкивается с злонамеренными подсказками, направленными на обход мер безопасности. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.

Исследовательская команда сотрудничает с заинтересованными сторонами, чтобы гарантировать, что эти открытия не повлияют на текущие услуги, ориентированные на пользователей. Они также поделились результатами исследования с OpenAI, и OpenAI отметила эти потенциальные уязвимости в системном описании соответствующих моделей.

Это исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая атакующие действия, токсичность и предвзятость, утечку конфиденциальной информации и т. д. Исследование показало, что модель GPT в некоторых случаях может быть введена в заблуждение и согласиться с предвзятым содержанием, особенно когда сталкивается с тщательно разработанными вводящими в заблуждение системными подсказками. Кроме того, модель GPT также может раскрывать конфиденциальную информацию из обучающих данных, такую как адреса электронной почты, особенно в специфических контекстах или при демонстрации на малых образцах.

Исследовательская группа надеется, что, опубликовав эти результаты, она вдохновит большее количество исследователей участвовать в соответствующей работе и совместно стремиться к созданию более мощных и надежных моделей. Предоставленный ими код оценочного стандарта обладает высокой масштабируемостью и удобством использования, направлен на содействие сотрудничеству и прогрессу в этой области.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
MetaMaximalistvip
· 07-12 19:38
честно говоря, это просто подтверждает то, что мы видим в кривых безопасности протокола с первого дня...
Посмотреть ОригиналОтветить0
RugPullSurvivorvip
· 07-11 10:18
AI-ученый потерпел неудачу
Посмотреть ОригиналОтветить0
digital_archaeologistvip
· 07-10 07:21
gpt эта безопасность немного насос...
Посмотреть ОригиналОтветить0
HashRateHermitvip
· 07-10 07:16
Утечка личных данных? Чем надежнее ИИ, тем больше он обманывает.
Посмотреть ОригиналОтветить0
LeekCuttervip
· 07-10 07:12
Не думал, что GPT такая слабая~
Посмотреть ОригиналОтветить0
ChainMelonWatchervip
· 07-10 07:04
Недостаточная защита конфиденциальности действительно создает проблемы.
Посмотреть ОригиналОтветить0
  • Закрепить