Оцінка довіри до моделі GPT виявляє потенційні ризики, такі як витік конфіденційності

robot
Генерація анотацій у процесі

Дослідження оцінки надійності моделей GPT виявляє потенційні вразливості

Дослідження, проведене Університетом Іллінойс в Урбана-Шампейн, Стенфордським університетом, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та Дослідницьким інститутом Microsoft, повністю оцінило надійність генеруючої попередньо навченої трансформерної моделі (GPT). Дослідницька команда розробила інтегровану платформу оцінювання та представила відповідні знахідки в нещодавно опублікованій статті "DecodingTrust: Комплексна оцінка надійності моделі GPT".

Дослідження виявило деякі раніше непубліковані вразливості, пов'язані з надійністю. Наприклад, модель GPT легко вводити в оману, що призводить до токсичних і упереджених результатів, і вона може розкривати конфіденційну інформацію з даних навчання та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай надійніший за GPT-3.5, у разі зіткнення з шкідливими запитами, що мають на меті обійти заходи безпеки, GPT-4 насправді виявляється більш вразливим. Це може бути пов'язано з тим, що GPT-4 суворо дотримується оманливих інструкцій.

Дослідницька команда співпрацює з відповідними сторонами, щоб забезпечити, що ці знахідки не вплинуть на поточні послуги для користувачів. Вони також поділилися результатами дослідження з OpenAI, яка зазначила ці потенційні вразливості в описі системи відповідних моделей.

Це дослідження здійснило всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи атаки на стійкість, токсичність і упередженість, витік конфіденційності та інші аспекти. Дослідження виявило, що модель GPT в певних випадках може бути введена в оману, погоджуючись на упереджений контент, особливо в умовах ретельно розроблених оманливих системних підказок. Крім того, модель GPT може витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти, особливо в специфічному контексті або під час демонстрації з обмеженим набором даних.

Дослідницька команда сподівається, що опублікувавши ці знахідки, вона заохотить більше дослідників долучитися до відповідної роботи, спільно працюючи над створенням більш потужних і надійних моделей. Код для оцінювальних стандартів, який вони надали, має високу масштабованість і зручність у використанні, спрямований на сприяння співпраці та прогресу в цій сфері.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Поділіться
Прокоментувати
0/400
MetaMaximalistvip
· 07-12 19:38
чесно кажучи, це лише підтверджує те, що ми спостерігали в кривих безпеки протоколу з першого дня...
Переглянути оригіналвідповісти на0
RugPullSurvivorvip
· 07-11 10:18
AI-учений зазнав провалу
Переглянути оригіналвідповісти на0
digital_archaeologistvip
· 07-10 07:21
gpt ця безпека трохи памп...
Переглянути оригіналвідповісти на0
HashRateHermitvip
· 07-10 07:16
Порушення конфіденційності? Чим надійніший ШІ, тим більше він обманює.
Переглянути оригіналвідповісти на0
LeekCuttervip
· 07-10 07:12
Спочатку не думав, що gpt все ще такий слабкий~
Переглянути оригіналвідповісти на0
ChainMelonWatchervip
· 07-10 07:04
Якщо захист приватності не на високому рівні, то справи дійсно погані.
Переглянути оригіналвідповісти на0
  • Закріпити