O estudo de avaliação da confiabilidade do modelo GPT revela vulnerabilidades potenciais
Uma pesquisa realizada em conjunto pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança da Inteligência Artificial e pelo Microsoft Research, avaliou de forma abrangente a confiabilidade do modelo transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e apresentou suas descobertas no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".
A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a produzir saídas tóxicas e tendenciosas, e pode vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com prompts maliciosos projetados para contornar medidas de segurança, o GPT-4 é mais suscetível a ataques. Isso pode ser porque o GPT-4 segue de forma mais rigorosa instruções enganosas.
A equipe de pesquisa colaborou com as partes interessadas para garantir que essas descobertas não afetem os serviços atuais voltados para os usuários. Eles também compartilharam os resultados da pesquisa com a OpenAI, que já indicou essas vulnerabilidades potenciais na descrição do sistema dos modelos relevantes.
Este estudo avaliou o modelo GPT de forma abrangente a partir de oito ângulos de credibilidade, incluindo ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros aspectos. A pesquisa descobriu que o modelo GPT pode, em certas circunstâncias, ser levado a concordar com conteúdos tendenciosos, especialmente quando confrontado com prompts enganosos cuidadosamente elaborados. Além disso, o modelo GPT também pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail, especialmente em contextos específicos ou demonstrações de amostras limitadas.
A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem no trabalho relacionado, colaborando para criar modelos mais robustos e confiáveis. O código de referência de avaliação que eles forneceram possui alta escalabilidade e facilidade de uso, com o objetivo de promover a colaboração e o progresso neste campo.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
7 Curtidas
Recompensa
7
6
Compartilhar
Comentário
0/400
MetaMaximalist
· 07-12 19:38
ngl isso apenas confirma o que temos visto nas curvas de segurança do protocolo desde o dia 1...
Ver originalResponder0
RugPullSurvivor
· 07-11 10:18
O especialista em IA teve um revés.
Ver originalResponder0
digital_archaeologist
· 07-10 07:21
gpt esta segurança tem um pouco de bombear...
Ver originalResponder0
HashRateHermit
· 07-10 07:16
Vazamento de privacidade? Quanto mais confiável a IA, mais problemática ela é.
Ver originalResponder0
LeekCutter
· 07-10 07:12
Não pensei que o gpt ainda fosse tão fraco~
Ver originalResponder0
ChainMelonWatcher
· 07-10 07:04
A proteção de privacidade não está adequada, realmente é difícil lidar com isso.
A avaliação da confiabilidade do modelo GPT revela riscos potenciais, como a violação de privacidade.
O estudo de avaliação da confiabilidade do modelo GPT revela vulnerabilidades potenciais
Uma pesquisa realizada em conjunto pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança da Inteligência Artificial e pelo Microsoft Research, avaliou de forma abrangente a confiabilidade do modelo transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e apresentou suas descobertas no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".
A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a produzir saídas tóxicas e tendenciosas, e pode vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com prompts maliciosos projetados para contornar medidas de segurança, o GPT-4 é mais suscetível a ataques. Isso pode ser porque o GPT-4 segue de forma mais rigorosa instruções enganosas.
A equipe de pesquisa colaborou com as partes interessadas para garantir que essas descobertas não afetem os serviços atuais voltados para os usuários. Eles também compartilharam os resultados da pesquisa com a OpenAI, que já indicou essas vulnerabilidades potenciais na descrição do sistema dos modelos relevantes.
Este estudo avaliou o modelo GPT de forma abrangente a partir de oito ângulos de credibilidade, incluindo ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros aspectos. A pesquisa descobriu que o modelo GPT pode, em certas circunstâncias, ser levado a concordar com conteúdos tendenciosos, especialmente quando confrontado com prompts enganosos cuidadosamente elaborados. Além disso, o modelo GPT também pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail, especialmente em contextos específicos ou demonstrações de amostras limitadas.
A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem no trabalho relacionado, colaborando para criar modelos mais robustos e confiáveis. O código de referência de avaliação que eles forneceram possui alta escalabilidade e facilidade de uso, com o objetivo de promover a colaboração e o progresso neste campo.