Évaluation complète de la fiabilité des modèles GPT : révéler les risques potentiels et les pistes d'amélioration

robot
Création du résumé en cours

Explorer la fiabilité des modèles GPT : évaluation complète et risques potentiels

Récemment, une équipe de recherche composée de l'Université de l'Illinois à Urbana-Champaign, de l'Université de Stanford, de l'Université de Californie à Berkeley, du Centre de sécurité de l'intelligence artificielle et de Microsoft Research a publié une plateforme d'évaluation de la crédibilité complète pour les modèles de langage de grande taille (LLMs). Cette recherche a été publiée sous le titre « DecodingTrust : Évaluation complète de la crédibilité des modèles GPT ».

Cette étude révèle certains problèmes potentiels liés à la fiabilité des modèles GPT qui n'avaient pas été publiés auparavant. La recherche a trouvé que les modèles GPT ont tendance à produire des sorties nuisibles et biaisées, et peuvent également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Il est à noter que, bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des instructions malveillantes, ce qui pourrait être dû à sa stricte adhésion aux instructions trompeuses.

L'équipe de recherche a évalué de manière exhaustive le modèle GPT sous huit angles différents, y compris les attaques adversariales, le contenu toxique et les préjugés, ainsi que les fuites de données personnelles. Par exemple, lors de l'évaluation de la robustesse du modèle face aux attaques textuelles adversariales, les chercheurs ont conçu divers scénarios de test, y compris l'utilisation de la référence standard AdvGLUE, l'adoption de différentes instructions de tâche directrices, ainsi que l'utilisation de textes adversariaux difficiles générés par leurs soins, AdvGLUE++.

En ce qui concerne la toxicité et les préjugés, des recherches ont révélé que le modèle GPT présente généralement peu de biais sur la plupart des sujets stéréotypés. Cependant, lorsqu'il est confronté à des incitations systémiques trompeuses, le modèle peut être amené à approuver des contenus biaisés. En particulier, le GPT-4 est plus susceptible d'être influencé par des incitations systémiques trompeuses ciblées que le GPT-3.5. Le degré de biais du modèle est également lié aux populations et à la sensibilité des sujets abordés dans les questions posées par les utilisateurs.

Concernant la question des fuites de données, des études ont révélé que les modèles GPT pourraient divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses électroniques. Dans certains cas, fournir des informations contextuelles supplémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle peut également divulguer des informations privées injectées dans l'historique des conversations. Dans l'ensemble, GPT-4 offre une meilleure protection des informations d'identité personnelle par rapport à GPT-3.5, mais les deux modèles présentent des risques lorsqu'il s'agit de démonstrations de fuites de données.

Cette étude fournit un cadre complet pour l'évaluation de la fiabilité des modèles GPT, révélant certaines vulnérabilités potentielles en matière de sécurité. L'équipe de recherche espère que ce travail pourra inciter davantage de chercheurs à se pencher sur les problèmes de fiabilité des grands modèles linguistiques et, en fin de compte, à développer des modèles plus puissants et plus fiables. Pour favoriser la collaboration, l'équipe de recherche a rendu le code de référence d'évaluation open source et l'a conçu de manière à être facile à utiliser et à étendre.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • 7
  • Partager
Commentaire
0/400
IntrovertMetaversevip
· Il y a 11h
GPT devrait aussi s'en occuper, non ?
Voir l'originalRépondre0
TokenTaxonomistvip
· 07-05 00:43
meh, statistiquement les vecteurs d'attaque étaient prévisibles... il suffit de vérifier ma feuille de calcul du q2
Voir l'originalRépondre0
StakeOrRegretvip
· 07-05 00:41
Qui va donner un sort de contrainte à l'IA...
Voir l'originalRépondre0
CascadingDipBuyervip
· 07-05 00:38
Cette sécurité est absolument incroyable.
Voir l'originalRépondre0
NFTRegretDiaryvip
· 07-05 00:36
Croire aveuglément en l'IA est tout simplement un piège.
Voir l'originalRépondre0
GateUser-75ee51e7vip
· 07-05 00:31
Il y a beaucoup de méchants, que faire~
Voir l'originalRépondre0
WhaleMinionvip
· 07-05 00:30
Ah ça, qui oserait prendre l'IA au sérieux ?
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)