Évaluation complète de la fiabilité des modèles GPT : révéler les risques potentiels et les pistes d'amélioration

2025-07-05 00:13:04

Création du résumé en cours

Explorer la fiabilité des modèles GPT : évaluation complète et risques potentiels

Récemment, une équipe de recherche composée de l'Université de l'Illinois à Urbana-Champaign, de l'Université de Stanford, de l'Université de Californie à Berkeley, du Centre de sécurité de l'intelligence artificielle et de Microsoft Research a publié une plateforme d'évaluation de la crédibilité complète pour les modèles de langage de grande taille (LLMs). Cette recherche a été publiée sous le titre « DecodingTrust : Évaluation complète de la crédibilité des modèles GPT ».

Cette étude révèle certains problèmes potentiels liés à la fiabilité des modèles GPT qui n'avaient pas été publiés auparavant. La recherche a trouvé que les modèles GPT ont tendance à produire des sorties nuisibles et biaisées, et peuvent également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Il est à noter que, bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des instructions malveillantes, ce qui pourrait être dû à sa stricte adhésion aux instructions trompeuses.

L'équipe de recherche a évalué de manière exhaustive le modèle GPT sous huit angles différents, y compris les attaques adversariales, le contenu toxique et les préjugés, ainsi que les fuites de données personnelles. Par exemple, lors de l'évaluation de la robustesse du modèle face aux attaques textuelles adversariales, les chercheurs ont conçu divers scénarios de test, y compris l'utilisation de la référence standard AdvGLUE, l'adoption de différentes instructions de tâche directrices, ainsi que l'utilisation de textes adversariaux difficiles générés par leurs soins, AdvGLUE++.

En ce qui concerne la toxicité et les préjugés, des recherches ont révélé que le modèle GPT présente généralement peu de biais sur la plupart des sujets stéréotypés. Cependant, lorsqu'il est confronté à des incitations systémiques trompeuses, le modèle peut être amené à approuver des contenus biaisés. En particulier, le GPT-4 est plus susceptible d'être influencé par des incitations systémiques trompeuses ciblées que le GPT-3.5. Le degré de biais du modèle est également lié aux populations et à la sensibilité des sujets abordés dans les questions posées par les utilisateurs.

Concernant la question des fuites de données, des études ont révélé que les modèles GPT pourraient divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses électroniques. Dans certains cas, fournir des informations contextuelles supplémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle peut également divulguer des informations privées injectées dans l'historique des conversations. Dans l'ensemble, GPT-4 offre une meilleure protection des informations d'identité personnelle par rapport à GPT-3.5, mais les deux modèles présentent des risques lorsqu'il s'agit de démonstrations de fuites de données.

Cette étude fournit un cadre complet pour l'évaluation de la fiabilité des modèles GPT, révélant certaines vulnérabilités potentielles en matière de sécurité. L'équipe de recherche espère que ce travail pourra inciter davantage de chercheurs à se pencher sur les problèmes de fiabilité des grands modèles linguistiques et, en fin de compte, à développer des modèles plus puissants et plus fiables. Pour favoriser la collaboration, l'équipe de recherche a rendu le code de référence d'évaluation open source et l'a conçu de manière à être facile à utiliser et à étendre.

GPT2.36%

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

5 J'aime