Explorando a Credibilidade do Modelo GPT: Avaliação Abrangente e Riscos Potenciais
Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research lançou uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs). O resultado da pesquisa foi publicado com o título "DecodingTrust: Avaliação abrangente da confiabilidade dos modelos GPT".
Este estudo revelou algumas questões potenciais relacionadas com a credibilidade dos modelos GPT que não haviam sido divulgadas anteriormente. A pesquisa descobriu que os modelos GPT tendem a gerar saídas prejudiciais e tendenciosas, e também podem vazar informações privadas de dados de treinamento e históricos de conversas. Vale a pena notar que, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com instruções maliciosamente projetadas, o GPT-4 é mais suscetível a ataques, o que pode ser devido ao fato de que ele segue rigorosamente instruções enganosas.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito perspectivas diferentes, incluindo ataques adversariais, conteúdos tóxicos e preconceitos, vazamentos de privacidade, entre outros. Por exemplo, ao avaliar a robustez do modelo contra ataques adversariais em texto, os pesquisadores projetaram vários cenários de teste, incluindo o uso do padrão de referência AdvGLUE, a adoção de diferentes instruções de tarefas orientadoras e o uso de texto adversarial desafiador gerado por eles, AdvGLUE++.
Em termos de toxicidade e preconceito, a pesquisa descobriu que os modelos GPT apresentam um preconceito relativamente baixo na maioria dos tópicos estereotipados em condições normais. No entanto, ao enfrentar prompts enganosos do sistema, o modelo pode ser induzido a concordar com conteúdos tendenciosos. Em particular, o GPT-4 é mais suscetível a ser influenciado por prompts enganosos direcionados do que o GPT-3.5. O nível de preconceito do modelo também está relacionado às populações e à sensibilidade dos tópicos envolvidos nas perguntas dos usuários.
Sobre o problema da violação de privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, fornecer informações contextuais adicionais pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. No geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identidade pessoal em comparação com o GPT-3.5, mas ambos os modelos apresentam riscos ao enfrentar demonstrações de violação de privacidade.
Este estudo fornece uma estrutura abrangente para a avaliação da credibilidade de modelos GPT, revelando algumas potenciais vulnerabilidades de segurança. A equipe de pesquisa espera que este trabalho possa incentivar mais pesquisadores a focar e melhorar a questão da credibilidade dos grandes modelos de linguagem, desenvolvendo, em última análise, modelos mais robustos e fiáveis. Para promover a colaboração, a equipe de pesquisa tornou o código de referência de avaliação de código aberto e o projetou de forma a ser fácil de usar e expandir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
5 Curtidas
Recompensa
5
7
Compartilhar
Comentário
0/400
IntrovertMetaverse
· 17h atrás
o gpt também deveria intervir, não?
Ver originalResponder0
TokenTaxonomist
· 07-05 00:43
meh, estatisticamente os vetores de ataque eram previsíveis... basta verificar a minha folha de cálculo do segundo trimestre
Ver originalResponder0
StakeOrRegret
· 07-05 00:41
Quem vai impor um feitiço restritivo à IA...
Ver originalResponder0
CascadingDipBuyer
· 07-05 00:38
A segurança aqui é definitivamente muito boa.
Ver originalResponder0
NFTRegretDiary
· 07-05 00:36
Confiar cegamente em IA é simplesmente uma armadilha.
Avaliação abrangente da confiabilidade do modelo GPT: revelando riscos potenciais e direções de melhoria
Explorando a Credibilidade do Modelo GPT: Avaliação Abrangente e Riscos Potenciais
Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research lançou uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs). O resultado da pesquisa foi publicado com o título "DecodingTrust: Avaliação abrangente da confiabilidade dos modelos GPT".
Este estudo revelou algumas questões potenciais relacionadas com a credibilidade dos modelos GPT que não haviam sido divulgadas anteriormente. A pesquisa descobriu que os modelos GPT tendem a gerar saídas prejudiciais e tendenciosas, e também podem vazar informações privadas de dados de treinamento e históricos de conversas. Vale a pena notar que, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com instruções maliciosamente projetadas, o GPT-4 é mais suscetível a ataques, o que pode ser devido ao fato de que ele segue rigorosamente instruções enganosas.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito perspectivas diferentes, incluindo ataques adversariais, conteúdos tóxicos e preconceitos, vazamentos de privacidade, entre outros. Por exemplo, ao avaliar a robustez do modelo contra ataques adversariais em texto, os pesquisadores projetaram vários cenários de teste, incluindo o uso do padrão de referência AdvGLUE, a adoção de diferentes instruções de tarefas orientadoras e o uso de texto adversarial desafiador gerado por eles, AdvGLUE++.
Em termos de toxicidade e preconceito, a pesquisa descobriu que os modelos GPT apresentam um preconceito relativamente baixo na maioria dos tópicos estereotipados em condições normais. No entanto, ao enfrentar prompts enganosos do sistema, o modelo pode ser induzido a concordar com conteúdos tendenciosos. Em particular, o GPT-4 é mais suscetível a ser influenciado por prompts enganosos direcionados do que o GPT-3.5. O nível de preconceito do modelo também está relacionado às populações e à sensibilidade dos tópicos envolvidos nas perguntas dos usuários.
Sobre o problema da violação de privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, fornecer informações contextuais adicionais pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. No geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identidade pessoal em comparação com o GPT-3.5, mas ambos os modelos apresentam riscos ao enfrentar demonstrações de violação de privacidade.
Este estudo fornece uma estrutura abrangente para a avaliação da credibilidade de modelos GPT, revelando algumas potenciais vulnerabilidades de segurança. A equipe de pesquisa espera que este trabalho possa incentivar mais pesquisadores a focar e melhorar a questão da credibilidade dos grandes modelos de linguagem, desenvolvendo, em última análise, modelos mais robustos e fiáveis. Para promover a colaboração, a equipe de pesquisa tornou o código de referência de avaliação de código aberto e o projetou de forma a ser fácil de usar e expandir.