La evaluación de la confiabilidad del modelo GPT revela riesgos potenciales como la fuga de privacidad.

2025-07-10 06:54:03

Generación de resúmenes en curso

La investigación sobre la evaluación de la confiabilidad del modelo GPT revela vulnerabilidades potenciales

Una investigación llevada a cabo por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de la Inteligencia Artificial y Microsoft Research realizó una evaluación exhaustiva de la confiabilidad del modelo de transformador preentrenado generativo (GPT). El equipo de investigación desarrolló una plataforma de evaluación integral y presentó los hallazgos relevantes en el artículo recientemente publicado "DecodingTrust: Evaluación integral de la confiabilidad del modelo GPT".

La investigación ha descubierto algunas vulnerabilidades relacionadas con la confiabilidad que no habían sido divulgadas anteriormente. Por ejemplo, el modelo GPT es propenso a ser engañado para generar salidas tóxicas y sesgadas, y puede filtrar información privada en los datos de entrenamiento y en el historial de conversaciones. Aunque en las pruebas de referencia estándar GPT-4 es generalmente más confiable que GPT-3.5, al enfrentarse a indicaciones maliciosas diseñadas para eludir las medidas de seguridad, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue de manera más estricta las instrucciones engañosas.

El equipo de investigación colaboró con las partes relevantes para asegurar que estos hallazgos no afecten los servicios actuales dirigidos a los usuarios. También compartieron los resultados de la investigación con OpenAI, que ha indicado estas vulnerabilidades potenciales en la descripción del sistema de los modelos relevantes.

Este estudio realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, incluyendo ataques adversariales, toxicidad y sesgo, y filtraciones de privacidad. La investigación encontró que el modelo GPT puede ser engañado para aceptar contenido sesgado en ciertas circunstancias, especialmente cuando se enfrenta a indicaciones engañosas cuidadosamente diseñadas. Además, el modelo GPT también puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico, especialmente en contextos específicos o en demostraciones de pocos ejemplos.

El equipo de investigación espera que al hacer públicos estos hallazgos, se anime a más investigadores a participar en trabajos relacionados, esforzándose juntos por crear modelos más robustos y fiables. El código de referencia de evaluación que proporcionan tiene una gran escalabilidad y facilidad de uso, con el objetivo de promover la colaboración y el progreso en este campo.

GPT-5.11%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta