L'évaluation de la fiabilité des modèles GPT révèle des risques potentiels tels que la fuite de données personnelles.

2025-07-10 06:54:03

Création du résumé en cours

L'étude sur l'évaluation de la fiabilité des modèles GPT révèle des vulnérabilités potentielles

Une recherche menée par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a effectué une évaluation complète de la fiabilité du modèle de transformateur pré-entraîné génératif (GPT). L'équipe de recherche a développé une plateforme d'évaluation intégrée et a présenté ses découvertes dans le récent article "DecodingTrust : évaluation complète de la fiabilité des modèles GPT".

Des recherches ont révélé des vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment divulguées. Par exemple, le modèle GPT est facilement trompé pour produire des résultats toxiques et biaisés, et il peut divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des incitations malveillantes conçues pour contourner les mesures de sécurité. Cela peut être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.

L'équipe de recherche collabore avec les parties concernées pour s'assurer que ces découvertes n'affectent pas les services actuels destinés aux utilisateurs. Ils ont également partagé les résultats de la recherche avec OpenAI, qui a noté ces vulnérabilités potentielles dans la description système des modèles concernés.

Cette étude a évalué de manière exhaustive le modèle GPT sous huit angles de crédibilité, y compris les attaques adversariales, la toxicité et les préjugés, ainsi que les fuites de données personnelles. L'étude a révélé que le modèle GPT pourrait, dans certaines situations, être amené à accepter du contenu biaisé, en particulier face à des invites systématiques trompeuses soigneusement conçues. De plus, le modèle GPT pourrait également divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail, notamment dans des contextes spécifiques ou lors de démonstrations à faible échantillon.

L'équipe de recherche espère qu'en rendant ces découvertes publiques, elle encouragera davantage de chercheurs à s'engager dans des travaux connexes et à collaborer pour créer des modèles plus puissants et plus fiables. Le code de référence qu'ils fournissent est très extensible et facile à utiliser, visant à promouvoir la coopération et les progrès dans ce domaine.

GPT-4.88%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

7 J'aime