Evaluasi Komprehensif Keandalan Model GPT: Mengungkap Risiko Potensial dan Arah Perbaikan

robot
Pembuatan abstrak sedang berlangsung

Meneliti Keandalan Model GPT: Evaluasi Menyeluruh dan Risiko Potensial

Baru-baru ini, sebuah tim penelitian yang terdiri dari Universitas Illinois di Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research merilis sebuah platform evaluasi kepercayaan komprehensif untuk model bahasa besar (LLMs). Hasil penelitian ini dipublikasikan dengan judul "DecodingTrust: Evaluasi Komprehensif terhadap Kepercayaan Model GPT."

Penelitian ini mengungkap beberapa masalah potensial yang terkait dengan keandalan model GPT yang sebelumnya tidak dipublikasikan. Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Perlu dicatat bahwa meskipun GPT-4 biasanya lebih andal daripada GPT-3.5 dalam tes standar, GPT-4 justru lebih rentan terhadap serangan ketika menghadapi instruksi yang dirancang dengan niat jahat, kemungkinan karena ia lebih ketat dalam mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk serangan adversarial, konten beracun dan bias, pelanggaran privasi, dan sebagainya. Misalnya, saat mengevaluasi ketahanan model terhadap serangan teks adversarial, para peneliti merancang berbagai skenario pengujian, termasuk menggunakan tolok ukur standar AdvGLUE, mengadopsi instruksi tugas panduan yang berbeda, serta menggunakan teks adversarial tantangan yang dihasilkan sendiri AdvGLUE++.

Dalam hal toksisitas dan bias, penelitian menemukan bahwa model GPT memiliki bias yang lebih kecil terhadap sebagian besar topik stereotip dalam keadaan normal. Namun, ketika dihadapkan dengan prompt sistem yang menyesatkan, model mungkin tergoda untuk setuju dengan konten yang bias. Khususnya, GPT-4 lebih mudah terpengaruh oleh prompt sistem yang menyesatkan yang bersifat target dibandingkan dengan GPT-3.5. Tingkat bias model juga terkait dengan kelompok dan sensitivitas topik yang terlibat dalam pertanyaan pengguna.

Terkait masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memberikan informasi konteks tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga mungkin membocorkan informasi pribadi yang disuntikkan dalam riwayat percakapan. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model memiliki risiko ketika menghadapi demonstrasi kebocoran privasi.

Penelitian ini menyediakan kerangka kerja yang komprehensif untuk penilaian keandalan model GPT, mengungkap beberapa potensi risiko keamanan. Tim peneliti berharap kerja ini dapat mendorong lebih banyak peneliti untuk memperhatikan dan meningkatkan masalah keandalan model bahasa besar, pada akhirnya mengembangkan model yang lebih kuat dan lebih dapat diandalkan. Untuk memfasilitasi kolaborasi, tim peneliti telah membuka kode benchmark penilaian sebagai sumber terbuka, dan dirancang dalam bentuk yang mudah digunakan dan diperluas.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 7
  • Bagikan
Komentar
0/400
IntrovertMetaversevip
· 10jam yang lalu
GPT juga harus mengawasi, kan?
Lihat AsliBalas0
TokenTaxonomistvip
· 07-05 00:43
meh, secara statistik vektor serangannya dapat diprediksi... tinggal cek spreadsheet saya dari q2
Lihat AsliBalas0
StakeOrRegretvip
· 07-05 00:41
Siapa yang akan memberikan AI sebuah mantra pembatas...
Lihat AsliBalas0
CascadingDipBuyervip
· 07-05 00:38
Keamanan ini pasti sangat menguntungkan
Lihat AsliBalas0
NFTRegretDiaryvip
· 07-05 00:36
Percaya buta pada ai sama saja dengan terjebak.
Lihat AsliBalas0
GateUser-75ee51e7vip
· 07-05 00:31
Banyak orang jahat, bagaimana ini~
Lihat AsliBalas0
WhaleMinionvip
· 07-05 00:30
Ah, siapa yang berani menganggap AI serius?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)