استكشاف موثوقية نموذج GPT: تقييم شامل والمخاطر المحتملة
مؤخراً، أصدرت مجموعة بحثية تتكون من جامعة إلينوي في أوربانا شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيرkeley، مركز أمان الذكاء الاصطناعي، ومعهد أبحاث مايكروسوفت منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج البحث بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
تكشف هذه الدراسة عن بعض المشكلات المحتملة المتعلقة بمصداقية نماذج GPT التي لم يتم الكشف عنها سابقًا. وجدت الدراسة أن نماذج GPT عرضة لإنتاج مخرجات ضارة ومتحيزة، وقد تتسرب أيضًا معلومات خاصة من بيانات التدريب وسجل المحادثات. ومن الجدير بالذكر أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه في مواجهة التعليمات المصممة بشكل خبيث، يصبح GPT-4 أكثر عرضة للهجوم، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
قام فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب مختلفة، بما في ذلك الهجمات العدائية، المحتوى السام والتحيز، وتسرب الخصوصية، وغيرها من الجوانب. على سبيل المثال، عند تقييم متانة النموذج ضد الهجمات النصية العدائية، صمم الباحثون مجموعة متنوعة من سيناريوهات الاختبار، بما في ذلك استخدام المعايير القياسية AdvGLUE، وتطبيق تعليمات مهام توجيهية مختلفة، بالإضافة إلى استخدام نصوص عدائية تحدي تم إنشاؤها ذاتيًا AdvGLUE++.
فيما يتعلق بالتحيز والسمية، وجدت الدراسات أن نموذج GPT يميل عادةً إلى أن يكون لديه تحيز أقل تجاه معظم المواضيع النمطية. ومع ذلك، عند مواجهة مؤشرات نظام مضللة، قد يتم تحفيز النموذج للموافقة على محتوى متحيز. بشكل خاص، يتأثر GPT-4 بشكل أكبر من GPT-3.5 بالمؤشرات المضللة المستهدفة. كما أن مستوى تحيز النموذج مرتبط أيضًا بالحساسيات المتعلقة بالمجموعات والمواضيع التي يتم تناولها في أسئلة المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يسرب معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، فإن تقديم معلومات سياقية إضافية قد يزيد بشكل كبير من دقة استخراج المعلومات. بالإضافة إلى ذلك، قد يسرب النموذج معلومات خاصة تم حقنها في تاريخ المحادثة. بشكل عام، فإن GPT-4 يظهر أداءً أفضل في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، ولكن كلا النموذجين يواجهان مخاطر عند مواجهة عروض تسرب الخصوصية.
تقدم هذه الدراسة إطارًا شاملًا لتقييم موثوقية نماذج GPT، كاشفة عن بعض المخاطر الأمنية المحتملة. يأمل فريق البحث أن تدفع هذه الجهود المزيد من الباحثين إلى التركيز على تحسين قضايا موثوقية نماذج اللغة الكبيرة، وفي النهاية تطوير نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، قام فريق البحث بفتح مصدر كود المعايير التقييمية، وصممه بشكل يسهل استخدامه وتوسيعه.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 5
أعجبني
5
7
مشاركة
تعليق
0/400
IntrovertMetaverse
· منذ 14 س
يجب على GPT أن يتدخل أيضاً، أليس كذلك؟
شاهد النسخة الأصليةرد0
TokenTaxonomist
· 07-05 00:43
مه، إحصائياً كانت طرق الهجوم متوقعة... فقط تحقق من جدول بياناتي من الربع الثاني
شاهد النسخة الأصليةرد0
StakeOrRegret
· 07-05 00:41
من سيضع تعويذة لفرامل الذكاء الاصطناعي...
شاهد النسخة الأصليةرد0
CascadingDipBuyer
· 07-05 00:38
هذه الأمانة بالتأكيد عالية جدًا
شاهد النسخة الأصليةرد0
NFTRegretDiary
· 07-05 00:36
الإيمان الأعمى بالذكاء الاصطناعي هو ببساطة فخ
شاهد النسخة الأصليةرد0
GateUser-75ee51e7
· 07-05 00:31
الأشرار كثيرون، ماذا نفعل~
شاهد النسخة الأصليةرد0
WhaleMinion
· 07-05 00:30
آه، من يجرؤ على أخذ الذكاء الاصطناعي على محمل الجد؟
تقييم شامل لثقة نموذج GPT: يكشف عن المخاطر المحتملة ووجهات تحسين
استكشاف موثوقية نموذج GPT: تقييم شامل والمخاطر المحتملة
مؤخراً، أصدرت مجموعة بحثية تتكون من جامعة إلينوي في أوربانا شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيرkeley، مركز أمان الذكاء الاصطناعي، ومعهد أبحاث مايكروسوفت منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج البحث بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
تكشف هذه الدراسة عن بعض المشكلات المحتملة المتعلقة بمصداقية نماذج GPT التي لم يتم الكشف عنها سابقًا. وجدت الدراسة أن نماذج GPT عرضة لإنتاج مخرجات ضارة ومتحيزة، وقد تتسرب أيضًا معلومات خاصة من بيانات التدريب وسجل المحادثات. ومن الجدير بالذكر أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه في مواجهة التعليمات المصممة بشكل خبيث، يصبح GPT-4 أكثر عرضة للهجوم، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
قام فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب مختلفة، بما في ذلك الهجمات العدائية، المحتوى السام والتحيز، وتسرب الخصوصية، وغيرها من الجوانب. على سبيل المثال، عند تقييم متانة النموذج ضد الهجمات النصية العدائية، صمم الباحثون مجموعة متنوعة من سيناريوهات الاختبار، بما في ذلك استخدام المعايير القياسية AdvGLUE، وتطبيق تعليمات مهام توجيهية مختلفة، بالإضافة إلى استخدام نصوص عدائية تحدي تم إنشاؤها ذاتيًا AdvGLUE++.
فيما يتعلق بالتحيز والسمية، وجدت الدراسات أن نموذج GPT يميل عادةً إلى أن يكون لديه تحيز أقل تجاه معظم المواضيع النمطية. ومع ذلك، عند مواجهة مؤشرات نظام مضللة، قد يتم تحفيز النموذج للموافقة على محتوى متحيز. بشكل خاص، يتأثر GPT-4 بشكل أكبر من GPT-3.5 بالمؤشرات المضللة المستهدفة. كما أن مستوى تحيز النموذج مرتبط أيضًا بالحساسيات المتعلقة بالمجموعات والمواضيع التي يتم تناولها في أسئلة المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يسرب معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، فإن تقديم معلومات سياقية إضافية قد يزيد بشكل كبير من دقة استخراج المعلومات. بالإضافة إلى ذلك، قد يسرب النموذج معلومات خاصة تم حقنها في تاريخ المحادثة. بشكل عام، فإن GPT-4 يظهر أداءً أفضل في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، ولكن كلا النموذجين يواجهان مخاطر عند مواجهة عروض تسرب الخصوصية.
تقدم هذه الدراسة إطارًا شاملًا لتقييم موثوقية نماذج GPT، كاشفة عن بعض المخاطر الأمنية المحتملة. يأمل فريق البحث أن تدفع هذه الجهود المزيد من الباحثين إلى التركيز على تحسين قضايا موثوقية نماذج اللغة الكبيرة، وفي النهاية تطوير نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، قام فريق البحث بفتح مصدر كود المعايير التقييمية، وصممه بشكل يسهل استخدامه وتوسيعه.