Дослідження оцінки надійності моделей GPT виявляє потенційні вразливості
Дослідження, проведене Університетом Іллінойс в Урбана-Шампейн, Стенфордським університетом, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та Дослідницьким інститутом Microsoft, повністю оцінило надійність генеруючої попередньо навченої трансформерної моделі (GPT). Дослідницька команда розробила інтегровану платформу оцінювання та представила відповідні знахідки в нещодавно опублікованій статті "DecodingTrust: Комплексна оцінка надійності моделі GPT".
Дослідження виявило деякі раніше непубліковані вразливості, пов'язані з надійністю. Наприклад, модель GPT легко вводити в оману, що призводить до токсичних і упереджених результатів, і вона може розкривати конфіденційну інформацію з даних навчання та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай надійніший за GPT-3.5, у разі зіткнення з шкідливими запитами, що мають на меті обійти заходи безпеки, GPT-4 насправді виявляється більш вразливим. Це може бути пов'язано з тим, що GPT-4 суворо дотримується оманливих інструкцій.
Дослідницька команда співпрацює з відповідними сторонами, щоб забезпечити, що ці знахідки не вплинуть на поточні послуги для користувачів. Вони також поділилися результатами дослідження з OpenAI, яка зазначила ці потенційні вразливості в описі системи відповідних моделей.
Це дослідження здійснило всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи атаки на стійкість, токсичність і упередженість, витік конфіденційності та інші аспекти. Дослідження виявило, що модель GPT в певних випадках може бути введена в оману, погоджуючись на упереджений контент, особливо в умовах ретельно розроблених оманливих системних підказок. Крім того, модель GPT може витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти, особливо в специфічному контексті або під час демонстрації з обмеженим набором даних.
Дослідницька команда сподівається, що опублікувавши ці знахідки, вона заохотить більше дослідників долучитися до відповідної роботи, спільно працюючи над створенням більш потужних і надійних моделей. Код для оцінювальних стандартів, який вони надали, має високу масштабованість і зручність у використанні, спрямований на сприяння співпраці та прогресу в цій сфері.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
7 лайків
Нагородити
7
6
Поділіться
Прокоментувати
0/400
MetaMaximalist
· 07-12 19:38
чесно кажучи, це лише підтверджує те, що ми спостерігали в кривих безпеки протоколу з першого дня...
Переглянути оригіналвідповісти на0
RugPullSurvivor
· 07-11 10:18
AI-учений зазнав провалу
Переглянути оригіналвідповісти на0
digital_archaeologist
· 07-10 07:21
gpt ця безпека трохи памп...
Переглянути оригіналвідповісти на0
HashRateHermit
· 07-10 07:16
Порушення конфіденційності? Чим надійніший ШІ, тим більше він обманює.
Переглянути оригіналвідповісти на0
LeekCutter
· 07-10 07:12
Спочатку не думав, що gpt все ще такий слабкий~
Переглянути оригіналвідповісти на0
ChainMelonWatcher
· 07-10 07:04
Якщо захист приватності не на високому рівні, то справи дійсно погані.
Оцінка довіри до моделі GPT виявляє потенційні ризики, такі як витік конфіденційності
Дослідження оцінки надійності моделей GPT виявляє потенційні вразливості
Дослідження, проведене Університетом Іллінойс в Урбана-Шампейн, Стенфордським університетом, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та Дослідницьким інститутом Microsoft, повністю оцінило надійність генеруючої попередньо навченої трансформерної моделі (GPT). Дослідницька команда розробила інтегровану платформу оцінювання та представила відповідні знахідки в нещодавно опублікованій статті "DecodingTrust: Комплексна оцінка надійності моделі GPT".
Дослідження виявило деякі раніше непубліковані вразливості, пов'язані з надійністю. Наприклад, модель GPT легко вводити в оману, що призводить до токсичних і упереджених результатів, і вона може розкривати конфіденційну інформацію з даних навчання та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай надійніший за GPT-3.5, у разі зіткнення з шкідливими запитами, що мають на меті обійти заходи безпеки, GPT-4 насправді виявляється більш вразливим. Це може бути пов'язано з тим, що GPT-4 суворо дотримується оманливих інструкцій.
Дослідницька команда співпрацює з відповідними сторонами, щоб забезпечити, що ці знахідки не вплинуть на поточні послуги для користувачів. Вони також поділилися результатами дослідження з OpenAI, яка зазначила ці потенційні вразливості в описі системи відповідних моделей.
Це дослідження здійснило всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи атаки на стійкість, токсичність і упередженість, витік конфіденційності та інші аспекти. Дослідження виявило, що модель GPT в певних випадках може бути введена в оману, погоджуючись на упереджений контент, особливо в умовах ретельно розроблених оманливих системних підказок. Крім того, модель GPT може витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти, особливо в специфічному контексті або під час демонстрації з обмеженим набором даних.
Дослідницька команда сподівається, що опублікувавши ці знахідки, вона заохотить більше дослідників долучитися до відповідної роботи, спільно працюючи над створенням більш потужних і надійних моделей. Код для оцінювальних стандартів, який вони надали, має високу масштабованість і зручність у використанні, спрямований на сприяння співпраці та прогресу в цій сфері.