Evaluación integral de la confiabilidad del modelo GPT: revelando riesgos potenciales y direcciones de mejora

robot
Generación de resúmenes en curso

Explorando la credibilidad del modelo GPT: evaluación integral y riesgos potenciales

Recientemente, un equipo de investigación compuesto por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research lanzó una plataforma integral de evaluación de confiabilidad para modelos de lenguaje a gran escala (LLMs). Este resultado de investigación se publicó con el título "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT".

Este estudio revela algunos problemas potenciales relacionados con la credibilidad de los modelos GPT que no se habían divulgado anteriormente. La investigación encontró que los modelos GPT tienden a generar salidas dañinas y sesgadas, y también pueden revelar información privada de los datos de entrenamiento y del historial de conversación. Cabe destacar que, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas estándar, cuando se enfrenta a instrucciones diseñadas maliciosamente, GPT-4 es más susceptible a los ataques, lo que puede deberse a que sigue de manera más estricta las instrucciones engañosas.

El equipo de investigación evaluó el modelo GPT de manera integral desde ocho ángulos diferentes, incluyendo ataques adversariales, contenido tóxico y sesgos, así como filtraciones de privacidad. Por ejemplo, al evaluar la robustez del modelo frente a ataques adversariales de texto, los investigadores diseñaron múltiples escenarios de prueba, que incluyen el uso de la referencia estándar AdvGLUE, la adopción de diversas instrucciones de tareas orientativas, y el uso de textos adversariales desafiantes generados por ellos mismos, AdvGLUE++.

En términos de toxicidad y sesgo, la investigación ha encontrado que los modelos GPT tienen un sesgo relativamente bajo en la mayoría de los temas estereotipados bajo condiciones normales. Sin embargo, cuando se enfrentan a indicaciones del sistema engañosas, el modelo puede ser inducido a consentir contenido sesgado. En particular, GPT-4 es más susceptible a las indicaciones engañosas dirigidas que GPT-3.5. El grado de sesgo del modelo también está relacionado con los grupos y la sensibilidad de los temas involucrados en las preguntas de los usuarios.

En cuanto a los problemas de filtración de privacidad, los estudios han descubierto que el modelo GPT puede filtrar información sensible contenida en los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, proporcionar información contextual adicional puede aumentar significativamente la precisión de la extracción de información. Además, el modelo también puede filtrar información privada inyectada en el historial de conversación. En general, GPT-4 se desempeña mejor que GPT-3.5 en la protección de información de identidad personal, pero ambos modelos presentan riesgos al enfrentar demostraciones de filtración de privacidad.

Esta investigación proporciona un marco integral para la evaluación de la credibilidad de los modelos GPT, revelando algunas posibles vulnerabilidades de seguridad. El equipo de investigación espera que este trabajo pueda impulsar a más investigadores a centrarse en el problema de la credibilidad de los modelos de lenguaje de gran tamaño y, en última instancia, desarrollar modelos más poderosos y confiables. Para fomentar la colaboración, el equipo de investigación ha abierto el código de referencia de evaluación y lo ha diseñado de manera que sea fácil de usar y ampliar.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 7
  • Compartir
Comentar
0/400
IntrovertMetaversevip
· hace11h
gpt también debería intervenir, ¿no?
Ver originalesResponder0
TokenTaxonomistvip
· 07-05 00:43
meh, estadísticamente los vectores de ataque eran predecibles... solo revisa mi hoja de cálculo de q2
Ver originalesResponder0
StakeOrRegretvip
· 07-05 00:41
¿Quién le pondrá un hechizo restrictivo a la IA...
Ver originalesResponder0
CascadingDipBuyervip
· 07-05 00:38
Esta seguridad definitivamente es muy buena.
Ver originalesResponder0
NFTRegretDiaryvip
· 07-05 00:36
Confiar ciegamente en la IA es un verdadero engaño.
Ver originalesResponder0
GateUser-75ee51e7vip
· 07-05 00:31
Hay muchos malos, ¿qué hacemos~
Ver originalesResponder0
WhaleMinionvip
· 07-05 00:30
Ah, ¿quién se atreve a tomar en serio la IA?
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)