Avaliação abrangente da confiabilidade do modelo GPT: revelando riscos potenciais e direções de melhoria

robot
Geração de resumo em curso

Explorando a Credibilidade do Modelo GPT: Avaliação Abrangente e Riscos Potenciais

Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research lançou uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs). O resultado da pesquisa foi publicado com o título "DecodingTrust: Avaliação abrangente da confiabilidade dos modelos GPT".

Este estudo revelou algumas questões potenciais relacionadas com a credibilidade dos modelos GPT que não haviam sido divulgadas anteriormente. A pesquisa descobriu que os modelos GPT tendem a gerar saídas prejudiciais e tendenciosas, e também podem vazar informações privadas de dados de treinamento e históricos de conversas. Vale a pena notar que, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com instruções maliciosamente projetadas, o GPT-4 é mais suscetível a ataques, o que pode ser devido ao fato de que ele segue rigorosamente instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito perspectivas diferentes, incluindo ataques adversariais, conteúdos tóxicos e preconceitos, vazamentos de privacidade, entre outros. Por exemplo, ao avaliar a robustez do modelo contra ataques adversariais em texto, os pesquisadores projetaram vários cenários de teste, incluindo o uso do padrão de referência AdvGLUE, a adoção de diferentes instruções de tarefas orientadoras e o uso de texto adversarial desafiador gerado por eles, AdvGLUE++.

Em termos de toxicidade e preconceito, a pesquisa descobriu que os modelos GPT apresentam um preconceito relativamente baixo na maioria dos tópicos estereotipados em condições normais. No entanto, ao enfrentar prompts enganosos do sistema, o modelo pode ser induzido a concordar com conteúdos tendenciosos. Em particular, o GPT-4 é mais suscetível a ser influenciado por prompts enganosos direcionados do que o GPT-3.5. O nível de preconceito do modelo também está relacionado às populações e à sensibilidade dos tópicos envolvidos nas perguntas dos usuários.

Sobre o problema da violação de privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, fornecer informações contextuais adicionais pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. No geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identidade pessoal em comparação com o GPT-3.5, mas ambos os modelos apresentam riscos ao enfrentar demonstrações de violação de privacidade.

Este estudo fornece uma estrutura abrangente para a avaliação da credibilidade de modelos GPT, revelando algumas potenciais vulnerabilidades de segurança. A equipe de pesquisa espera que este trabalho possa incentivar mais pesquisadores a focar e melhorar a questão da credibilidade dos grandes modelos de linguagem, desenvolvendo, em última análise, modelos mais robustos e fiáveis. Para promover a colaboração, a equipe de pesquisa tornou o código de referência de avaliação de código aberto e o projetou de forma a ser fácil de usar e expandir.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 7
  • Partilhar
Comentar
0/400
IntrovertMetaversevip
· 11h atrás
o gpt também deveria intervir, não?
Ver originalResponder0
TokenTaxonomistvip
· 07-05 00:43
meh, estatisticamente os vetores de ataque eram previsíveis... basta verificar a minha folha de cálculo do segundo trimestre
Ver originalResponder0
StakeOrRegretvip
· 07-05 00:41
Quem vai impor um feitiço restritivo à IA...
Ver originalResponder0
CascadingDipBuyervip
· 07-05 00:38
A segurança aqui é definitivamente muito boa.
Ver originalResponder0
NFTRegretDiaryvip
· 07-05 00:36
Confiar cegamente em IA é simplesmente uma armadilha.
Ver originalResponder0
GateUser-75ee51e7vip
· 07-05 00:31
Muitos maus, como fazer~
Ver originalResponder0
WhaleMinionvip
· 07-05 00:30
Ah, quem se atreve a levar a IA a sério?
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)