L'évaluation de la fiabilité des modèles GPT révèle des risques potentiels tels que la fuite de données personnelles.

robot
Création du résumé en cours

L'étude sur l'évaluation de la fiabilité des modèles GPT révèle des vulnérabilités potentielles

Une recherche menée par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a effectué une évaluation complète de la fiabilité du modèle de transformateur pré-entraîné génératif (GPT). L'équipe de recherche a développé une plateforme d'évaluation intégrée et a présenté ses découvertes dans le récent article "DecodingTrust : évaluation complète de la fiabilité des modèles GPT".

Des recherches ont révélé des vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment divulguées. Par exemple, le modèle GPT est facilement trompé pour produire des résultats toxiques et biaisés, et il peut divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des incitations malveillantes conçues pour contourner les mesures de sécurité. Cela peut être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.

L'équipe de recherche collabore avec les parties concernées pour s'assurer que ces découvertes n'affectent pas les services actuels destinés aux utilisateurs. Ils ont également partagé les résultats de la recherche avec OpenAI, qui a noté ces vulnérabilités potentielles dans la description système des modèles concernés.

Cette étude a évalué de manière exhaustive le modèle GPT sous huit angles de crédibilité, y compris les attaques adversariales, la toxicité et les préjugés, ainsi que les fuites de données personnelles. L'étude a révélé que le modèle GPT pourrait, dans certaines situations, être amené à accepter du contenu biaisé, en particulier face à des invites systématiques trompeuses soigneusement conçues. De plus, le modèle GPT pourrait également divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail, notamment dans des contextes spécifiques ou lors de démonstrations à faible échantillon.

L'équipe de recherche espère qu'en rendant ces découvertes publiques, elle encouragera davantage de chercheurs à s'engager dans des travaux connexes et à collaborer pour créer des modèles plus puissants et plus fiables. Le code de référence qu'ils fournissent est très extensible et facile à utiliser, visant à promouvoir la coopération et les progrès dans ce domaine.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
MetaMaximalistvip
· 07-12 19:38
franchement, cela ne fait que confirmer ce que nous avons vu dans les courbes de sécurité des protocoles depuis le premier jour...
Voir l'originalRépondre0
RugPullSurvivorvip
· 07-11 10:18
Les chercheurs en IA ont échoué.
Voir l'originalRépondre0
digital_archaeologistvip
· 07-10 07:21
gpt cette sécurité a un peu pump...
Voir l'originalRépondre0
HashRateHermitvip
· 07-10 07:16
Fuite de données personnelles ? Plus l'IA est fiable, plus elle est trompeuse.
Voir l'originalRépondre0
LeekCuttervip
· 07-10 07:12
Je ne pensais vraiment pas que GPT était encore si fragile~
Voir l'originalRépondre0
ChainMelonWatchervip
· 07-10 07:04
La protection de la vie privée n'est vraiment pas à la hauteur.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)