تقييم موثوقية نموذج GPT يكشف عن مخاطر محتملة مثل تسرب الخصوصية

2025-07-10 06:54:03

إنشاء الملخص قيد التقدم

دراسة تقييم موثوقية نموذج GPT تكشف عن ثغرات محتملة

دراسة أُجريت بالتعاون بين جامعة إلينوي في أوربانا شامبين، وجامعة ستانفورد، وجامعة كاليفورنيا في بيركلي، ومركز أمان الذكاء الاصطناعي، ومعهد أبحاث مايكروسوفت، قامت بتقييم شامل لموثوقية نموذج المحولات المدربة مسبقًا التوليدية (GPT). صمم فريق البحث منصة تقييم شاملة، وقدمت الورقة البحثية المنشورة مؤخرًا بعنوان "DecodingTrust: تقييم شامل لموثوقية نموذج GPT" النتائج ذات الصلة.

أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. على سبيل المثال، من السهل خداع نموذج GPT لإنتاج مخرجات سامة ومت偏لة، وقد يتسبب في تسريب معلومات خاصة من بيانات التدريب وسجل المحادثات. على الرغم من أن GPT-4 عادةً ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عندما يواجه نصوص ضارة تهدف إلى تجاوز تدابير الأمان. قد يكون ذلك بسبب أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.

تعاونت فرق البحث مع الأطراف المعنية لضمان عدم تأثير هذه الاكتشافات على الخدمات الموجهة للمستخدمين. كما شاركوا نتائج البحث مع OpenAI، التي أدرجت هذه الثغرات المحتملة في الوصف النظامي للنماذج ذات الصلة.

لقد قامت هذه الدراسة بتقييم شامل لنموذج GPT من ثمانية جوانب موثوقة، بما في ذلك الهجمات العدائية، والسُمّية والتحيز، وتسريب الخصوصية، وغيرها. وجدت الدراسة أن نموذج GPT قد يتم تضليله في بعض الحالات للموافقة على محتوى متحيز، خاصة عند مواجهة مطالبات نظام مضللة مصممة بعناية. بالإضافة إلى ذلك، قد يكشف نموذج GPT أيضًا عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني، وخاصة في سياقات معينة أو في حالات عرض عينات قليلة.

تأمل فرق البحث من خلال نشر هذه الاكتشافات في تشجيع المزيد من الباحثين على الانخراط في العمل ذي الصلة، والعمل معًا على إنشاء نماذج أقوى وأكثر موثوقية. الكود الخاص بمعايير التقييم الذي يقدمونه يتمتع بقابلية توسيع وسهولة استخدام عالية، ويهدف إلى تعزيز التعاون والتقدم في هذا المجال.

GPT-5.11%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 7