La evaluación de la confiabilidad del modelo GPT revela riesgos potenciales como la fuga de privacidad.

robot
Generación de resúmenes en curso

La investigación sobre la evaluación de la confiabilidad del modelo GPT revela vulnerabilidades potenciales

Una investigación llevada a cabo por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de la Inteligencia Artificial y Microsoft Research realizó una evaluación exhaustiva de la confiabilidad del modelo de transformador preentrenado generativo (GPT). El equipo de investigación desarrolló una plataforma de evaluación integral y presentó los hallazgos relevantes en el artículo recientemente publicado "DecodingTrust: Evaluación integral de la confiabilidad del modelo GPT".

La investigación ha descubierto algunas vulnerabilidades relacionadas con la confiabilidad que no habían sido divulgadas anteriormente. Por ejemplo, el modelo GPT es propenso a ser engañado para generar salidas tóxicas y sesgadas, y puede filtrar información privada en los datos de entrenamiento y en el historial de conversaciones. Aunque en las pruebas de referencia estándar GPT-4 es generalmente más confiable que GPT-3.5, al enfrentarse a indicaciones maliciosas diseñadas para eludir las medidas de seguridad, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue de manera más estricta las instrucciones engañosas.

El equipo de investigación colaboró con las partes relevantes para asegurar que estos hallazgos no afecten los servicios actuales dirigidos a los usuarios. También compartieron los resultados de la investigación con OpenAI, que ha indicado estas vulnerabilidades potenciales en la descripción del sistema de los modelos relevantes.

Este estudio realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, incluyendo ataques adversariales, toxicidad y sesgo, y filtraciones de privacidad. La investigación encontró que el modelo GPT puede ser engañado para aceptar contenido sesgado en ciertas circunstancias, especialmente cuando se enfrenta a indicaciones engañosas cuidadosamente diseñadas. Además, el modelo GPT también puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico, especialmente en contextos específicos o en demostraciones de pocos ejemplos.

El equipo de investigación espera que al hacer públicos estos hallazgos, se anime a más investigadores a participar en trabajos relacionados, esforzándose juntos por crear modelos más robustos y fiables. El código de referencia de evaluación que proporcionan tiene una gran escalabilidad y facilidad de uso, con el objetivo de promover la colaboración y el progreso en este campo.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Compartir
Comentar
0/400
MetaMaximalistvip
· 07-12 19:38
ngl esto solo confirma lo que hemos estado viendo en las curvas de seguridad del protocolo desde el día 1...
Ver originalesResponder0
RugPullSurvivorvip
· 07-11 10:18
El científico de IA tuvo un accidente.
Ver originalesResponder0
digital_archaeologistvip
· 07-10 07:21
gpt esta seguridad tiene un poco de bomba...
Ver originalesResponder0
HashRateHermitvip
· 07-10 07:16
¿Filtración de privacidad? Cuanto más confiable es la IA, más engañosa es.
Ver originalesResponder0
LeekCuttervip
· 07-10 07:12
No esperaba que GPT fuera tan frágil~
Ver originalesResponder0
ChainMelonWatchervip
· 07-10 07:04
La protección de la privacidad no está a la altura, realmente es difícil.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)