A avaliação da confiabilidade do modelo GPT revela riscos potenciais, como a violação de privacidade.

2025-07-10 06:54:03

Geração do resumo em andamento

O estudo de avaliação da confiabilidade do modelo GPT revela vulnerabilidades potenciais

Uma pesquisa realizada em conjunto pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança da Inteligência Artificial e pelo Microsoft Research, avaliou de forma abrangente a confiabilidade do modelo transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e apresentou suas descobertas no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".

A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a produzir saídas tóxicas e tendenciosas, e pode vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com prompts maliciosos projetados para contornar medidas de segurança, o GPT-4 é mais suscetível a ataques. Isso pode ser porque o GPT-4 segue de forma mais rigorosa instruções enganosas.

A equipe de pesquisa colaborou com as partes interessadas para garantir que essas descobertas não afetem os serviços atuais voltados para os usuários. Eles também compartilharam os resultados da pesquisa com a OpenAI, que já indicou essas vulnerabilidades potenciais na descrição do sistema dos modelos relevantes.

Este estudo avaliou o modelo GPT de forma abrangente a partir de oito ângulos de credibilidade, incluindo ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros aspectos. A pesquisa descobriu que o modelo GPT pode, em certas circunstâncias, ser levado a concordar com conteúdos tendenciosos, especialmente quando confrontado com prompts enganosos cuidadosamente elaborados. Além disso, o modelo GPT também pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail, especialmente em contextos específicos ou demonstrações de amostras limitadas.

A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem no trabalho relacionado, colaborando para criar modelos mais robustos e confiáveis. O código de referência de avaliação que eles forneceram possui alta escalabilidade e facilidade de uso, com o objetivo de promover a colaboração e o progresso neste campo.

GPT-5.11%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

7 Curtidas