Evaluasi Komprehensif Keandalan Model GPT: Mengungkap Risiko Potensial dan Arah Perbaikan

2025-07-05 00:13:04

Pembuatan abstrak sedang berlangsung

Meneliti Keandalan Model GPT: Evaluasi Menyeluruh dan Risiko Potensial

Baru-baru ini, sebuah tim penelitian yang terdiri dari Universitas Illinois di Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research merilis sebuah platform evaluasi kepercayaan komprehensif untuk model bahasa besar (LLMs). Hasil penelitian ini dipublikasikan dengan judul "DecodingTrust: Evaluasi Komprehensif terhadap Kepercayaan Model GPT."

Penelitian ini mengungkap beberapa masalah potensial yang terkait dengan keandalan model GPT yang sebelumnya tidak dipublikasikan. Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Perlu dicatat bahwa meskipun GPT-4 biasanya lebih andal daripada GPT-3.5 dalam tes standar, GPT-4 justru lebih rentan terhadap serangan ketika menghadapi instruksi yang dirancang dengan niat jahat, kemungkinan karena ia lebih ketat dalam mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk serangan adversarial, konten beracun dan bias, pelanggaran privasi, dan sebagainya. Misalnya, saat mengevaluasi ketahanan model terhadap serangan teks adversarial, para peneliti merancang berbagai skenario pengujian, termasuk menggunakan tolok ukur standar AdvGLUE, mengadopsi instruksi tugas panduan yang berbeda, serta menggunakan teks adversarial tantangan yang dihasilkan sendiri AdvGLUE++.

Dalam hal toksisitas dan bias, penelitian menemukan bahwa model GPT memiliki bias yang lebih kecil terhadap sebagian besar topik stereotip dalam keadaan normal. Namun, ketika dihadapkan dengan prompt sistem yang menyesatkan, model mungkin tergoda untuk setuju dengan konten yang bias. Khususnya, GPT-4 lebih mudah terpengaruh oleh prompt sistem yang menyesatkan yang bersifat target dibandingkan dengan GPT-3.5. Tingkat bias model juga terkait dengan kelompok dan sensitivitas topik yang terlibat dalam pertanyaan pengguna.

Terkait masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memberikan informasi konteks tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga mungkin membocorkan informasi pribadi yang disuntikkan dalam riwayat percakapan. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model memiliki risiko ketika menghadapi demonstrasi kebocoran privasi.

Penelitian ini menyediakan kerangka kerja yang komprehensif untuk penilaian keandalan model GPT, mengungkap beberapa potensi risiko keamanan. Tim peneliti berharap kerja ini dapat mendorong lebih banyak peneliti untuk memperhatikan dan meningkatkan masalah keandalan model bahasa besar, pada akhirnya mengembangkan model yang lebih kuat dan lebih dapat diandalkan. Untuk memfasilitasi kolaborasi, tim peneliti telah membuka kode benchmark penilaian sebagai sumber terbuka, dan dirancang dalam bentuk yang mudah digunakan dan diperluas.

GPT1.6%

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

5 Suka