Évaluation de la confiance des modèles GPT : La recherche DecodingTrust révèle des risques et des défis potentiels.

Évaluer la crédibilité des modèles GPT : La recherche "DecodingTrust" révèle des risques potentiels

L'Université de l'Illinois à Urbana-Champaign, en collaboration avec plusieurs autres universités et instituts de recherche, a lancé une plateforme d'évaluation de la crédibilité pour les grands modèles de langage (LLMs). L'équipe de recherche a présenté cette plateforme dans l'article "DecodingTrust : Évaluation complète de la crédibilité des modèles GPT."

Des recherches ont révélé certains problèmes potentiels liés à la fiabilité des modèles GPT. Par exemple, les modèles GPT sont susceptibles d'être induits en erreur, produisant des sorties nuisibles et biaisées, et ils peuvent également divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Fait intéressant, bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests standard, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des incitations malveillantes. Cela peut être dû au fait que le GPT-4 suit plus précisément des instructions trompeuses.

Cette étude a évalué de manière exhaustive le modèle GPT sur 8 dimensions, y compris ses performances dans différents contextes et environnements adverses. Par exemple, l'équipe de recherche a conçu trois scénarios pour évaluer la robustesse de GPT-3.5 et GPT-4 face aux attaques adversariales sur le texte.

La recherche a également révélé des phénomènes intéressants. Par exemple, le modèle GPT n'est pas trompé par les exemples contrefactuels ajoutés dans les démonstrations, mais il peut être induit en erreur par des démonstrations de fraude. En ce qui concerne la toxicité et les préjugés, le modèle GPT présente généralement peu de biais sur la plupart des sujets d'idées reçues, mais peut produire du contenu biaisé sous des incitations trompeuses. Le biais du modèle est également lié aux groupes et aux sujets mentionnés.

En matière de confidentialité, le modèle GPT peut divulguer des informations sensibles présentes dans les données d'entraînement, notamment sous certaines incitations. GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations personnelles, mais dans certaines circonstances, il peut en fait faciliter la divulgation de la vie privée.

L'équipe de recherche espère que ce travail pourra favoriser des recherches ultérieures dans le milieu académique et aider à prévenir des risques potentiels. Ils soulignent que ce n'est qu'un point de départ et qu'il faudra davantage d'efforts pour créer des modèles plus fiables. Pour favoriser la collaboration, l'équipe de recherche a rendu public le code de référence d'évaluation, facilitant son utilisation par d'autres chercheurs.

GPT-1.82%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
DegenRecoveryGroupvip
· Il y a 10h
Plus on est intelligent, plus il est facile d'être trompé, n'est-ce pas ?
Voir l'originalRépondre0
GasFeeWhisperervip
· Il y a 10h
En regardant, je me sens somnolent, encore un article d'eau.
Voir l'originalRépondre0
MidnightGenesisvip
· Il y a 11h
J'ai découvert le point faible de GPT... Mon système de surveillance avait déjà détecté des vulnérabilités similaires.
Voir l'originalRépondre0
TokenSleuthvip
· Il y a 11h
Plus c'est avancé, plus il est facile d'être trompé. Une sensation si familière.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)