A avaliação da confiabilidade do modelo GPT revela riscos potenciais, como a violação de privacidade.

robot
Geração do resumo em andamento

O estudo de avaliação da confiabilidade do modelo GPT revela vulnerabilidades potenciais

Uma pesquisa realizada em conjunto pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança da Inteligência Artificial e pelo Microsoft Research, avaliou de forma abrangente a confiabilidade do modelo transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e apresentou suas descobertas no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".

A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a produzir saídas tóxicas e tendenciosas, e pode vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com prompts maliciosos projetados para contornar medidas de segurança, o GPT-4 é mais suscetível a ataques. Isso pode ser porque o GPT-4 segue de forma mais rigorosa instruções enganosas.

A equipe de pesquisa colaborou com as partes interessadas para garantir que essas descobertas não afetem os serviços atuais voltados para os usuários. Eles também compartilharam os resultados da pesquisa com a OpenAI, que já indicou essas vulnerabilidades potenciais na descrição do sistema dos modelos relevantes.

Este estudo avaliou o modelo GPT de forma abrangente a partir de oito ângulos de credibilidade, incluindo ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros aspectos. A pesquisa descobriu que o modelo GPT pode, em certas circunstâncias, ser levado a concordar com conteúdos tendenciosos, especialmente quando confrontado com prompts enganosos cuidadosamente elaborados. Além disso, o modelo GPT também pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail, especialmente em contextos específicos ou demonstrações de amostras limitadas.

A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem no trabalho relacionado, colaborando para criar modelos mais robustos e confiáveis. O código de referência de avaliação que eles forneceram possui alta escalabilidade e facilidade de uso, com o objetivo de promover a colaboração e o progresso neste campo.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 6
  • Compartilhar
Comentário
0/400
MetaMaximalistvip
· 07-12 19:38
ngl isso apenas confirma o que temos visto nas curvas de segurança do protocolo desde o dia 1...
Ver originalResponder0
RugPullSurvivorvip
· 07-11 10:18
O especialista em IA teve um revés.
Ver originalResponder0
digital_archaeologistvip
· 07-10 07:21
gpt esta segurança tem um pouco de bombear...
Ver originalResponder0
HashRateHermitvip
· 07-10 07:16
Vazamento de privacidade? Quanto mais confiável a IA, mais problemática ela é.
Ver originalResponder0
LeekCuttervip
· 07-10 07:12
Não pensei que o gpt ainda fosse tão fraco~
Ver originalResponder0
ChainMelonWatchervip
· 07-10 07:04
A proteção de privacidade não está adequada, realmente é difícil lidar com isso.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)